2023. 12. 31. 17:51ㆍ카테고리 없음
오늘은 선형 판별 분석(Linear Discriminant Analysis, LDA)을 간략히 생각해 보겠습니다.
LDA는 통계, 패턴 인식, 기계 학습에서 객체 간의 차이점을 찾는 데 사용되는 방법입니다.
예측 변수 세트가 있고 응답 변수를 여러 클래스 중 하나로 분류하려고 할 때 자주 사용됩니다.
이제 LDA는 어떻게 작동할까요?
데이터에 대해 두 가지 가정을 합니다.
1. 각 예측 변수의 값은 정규 분포를 따릅니다.
즉, 특정 예측 변수에 대한 값의 분포를 시각화하기 위해 히스토그램을 만든 경우 대략 "종 모양"을 갖게 됩니다.
2. 각 예측 변수는 동일한 분산을 갖습니다.
이는 실제 데이터에서는 거의 발생하지 않으므로 일반적으로 LDA 모델을 실제로 피팅하기 전에 동일한 평균과 분산을 갖도록 각 변수를 조정합니다 .
선형 판별 분석(LDA)을 간단한 단계로 나누어 보겠습니다.
LDA는 통계, 패턴 인식, 기계 학습에 사용되는 방법으로 두 개 이상의 객체 또는 이벤트 클래스를 특성화하거나 구분하는 특징의 선형 조합을 찾습니다.
1. 문제 이해: 과일 세트가 있고 과일의 색상과 크기를 알고 있다고 가정해 보겠습니다.
우리는 이러한 특성을 기반으로 과일 종류(예: 사과, 바나나, 체리)를 예측할 수 있는 모델을 만들고 싶습니다.
이는 분류 문제이며 LDA는 이를 해결하는 데 도움이 될 수 있습니다.
2. 데이터 수집: 과일에 대한 데이터를 수집해야 합니다. 각 과일에 대해 우리는 그 색깔, 크기, 종류를 알아야 합니다. 이 데이터는 LDA 모델을 훈련하는 데 사용됩니다.
3. 데이터 준비: 데이터를 LDA 모델에서 사용할 수 있는 형식으로 변환해야 합니다.
여기에는 일반적으로 범주형 데이터(예: 색상)를 숫자 데이터로 변환하고
모든 기능이 동일한 규모를 갖도록 데이터를 정규화하는 작업이 포함됩니다.
4. 모델 교육: 준비된 데이터를 사용하여 LDA 모델을 교육합니다.
모델은 색상과 크기에 따라 다양한 종류의 과일을 가장 잘 구분하는 방법을 학습합니다.
5. 예측 수행: 모델이 훈련되면 이를 사용하여 새로운 과일의 유형을 예측할 수 있습니다.
과일의 색상과 크기를 모델에 입력하면 과일 종류에 대한 예측이 출력됩니다.
6. 모델 평가: 모델이 얼마나 잘 작동하는지 확인해야 합니다.
우리는 모델의 예측을 이전에 본 적이 없는 과일 세트의 실제 유형과 비교하여 이를 수행합니다.
이를 통해 모델이 얼마나 정확한지 측정할 수 있습니다.
LDA는 데이터의 다양한 클래스가 동일한 공분산 행렬을 가지고 있다고 가정합니다.
이는 데이터의 각 과일 클래스에 대한 점 구름의 모양이 동일하다는 것을 의미합니다.
이 가정이 충족되지 않으면 LDA를 사용하는 것이 가장 좋은 방법이 아닐 수 있습니다.
관련 논문은 아래와 같습니다.
Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data - PubMed
There is growing attention toward closed biological genomes in the environment and in health. To explore and reveal the intergroup differences among different samples or environments, it is crucial to discover biomarkers with statistical differences among
pubmed.ncbi.nlm.nih.gov
J Vis Exp. 2022 May 16:(183). doi: 10.3791/61715.
Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data
환경과 건강에서 폐쇄형 생물학적 게놈에 대한 관심이 높아지고 있습니다.
서로 다른 샘플이나 환경 간의 그룹 간 차이를 탐색하고 밝히려면 그룹 간에 통계적 차이가 있는 바이오마커를 발견하는 것이 중요합니다. 선형 판별 분석 효과 크기( Linear Discriminant Analysis Effect Size, LEfSe)를 적용하면 좋은 바이오마커를 찾는 데 도움이 될 수 있습니다.
원본 게놈 데이터를 기반으로 분류군이나 유전자를 기반으로 한 다양한 서열의 품질 관리 및 정량화가 수행됩니다. 첫째, Kruskal-Wallis 순위 테스트를 사용하여 통계적 그룹과 생물학적 그룹 간의 구체적인 차이를 구별했습니다. 그런 다음 이전 단계에서 얻은 두 그룹 간에 Wilcoxon 순위 테스트를 수행하여 차이가 일치하는지 평가했습니다. 마지막으로, 선형 판별 분석(LDA)을 수행하여 LDA 점수를 기반으로 상당히 다른 그룹에 대한 바이오마커의 영향을 평가했습니다.
요약하자면, LEfSe는 생물학적 그룹 간의 통계적 차이를 특징으로 하는 게놈 바이오마커를 식별하는 데 도움이 됩니다.
[궁금하우] 엑셀 VLOOKUP 함수 사용하여 원하는 값 찾기
안녕하세요? NV2NGN입니다. 이번 글에서는 엑셀에서 VLOOKUP 함수를 간략하게 알아보겠습니다. VLOOKUP함수는 쉽게 말해 Vertical Look up- "수직(엑셀에서는 열, column)으로 존재하는 값에서 특정한 값을 찾
nv2ngn.tistory.com
[궁금하우] 엑셀로 이중축/보조축 이용하여 그래프 만들기 (콤보차트)
안녕하세요? NV2NGN입니다. 이번 글에서는 엑셀로 이중 축을 이용하여 그래프를 만드는 법을 살펴보고자 합니다. 이 경우 사용하는 엑셀 버전에 따라 조금 다릅니다. 먼저 엑셀 2013 버전 이상일 경
nv2ngn.tistory.com
[궁금사전] 엑셀 함수 퍼센타일과 퍼센트랭크 차이와 사용법 (PERCENTILE & PERCENTRANK)
안녕하세요? NV2NGN입니다. 오늘은 엑셀 Excel 의 함수 퍼센타일 PERCENTILE (백분위수)과 퍼센트랭크 PERCENTRANK 에 그 차이와 사용법에 대해 간략하게 살펴보겠습니다. Excel에서는 'PERCENTILE' 함수 및 'PERC
nv2ngn.tistory.com