2023. 8. 23. 00:33ㆍ카테고리 없음
가끔 바이오인포매틱스(bioinformatics) 관련 논문에서 binning이란 단어를 만난다.
사전적 용어로 'bin'을 찾아 보면, 쓰레기통, (흔히 뚜껑이 달린 저장용) 통을 말하는데, 통 감이 잡히질 않는데,
위키피디아에 따르면, 차세대시퀀싱 데이터를 다루는 생물정보학에서의 binning이란 특히 metagenomics에서의 의미는 읽기 reads 또는 콘티그 contigs를 그룹으로 묶고 개별적인 게놈 (genome)에 할당해 나가는 과정을 말한다.
예를 들어 보자.
아래 논문 초록을 보면, binnig의 의미와 함께 contigs가 나온다.
메타게놈 시퀀싱의 비약적인 발전으로 다양한 환경에서 직접 미생물 군집을 연구할 수 있다. Metagenomics binning은 미생물 군집의 종 특성화의 중요한 핵심 단계라고 할 수 있다. 차세대 시퀀싱에서 생산된 reads는 일반적으로 그 길이가 짧기에 제공하는 정보가 제한되어 있다.
이로 인해 주로 메타게놈 binning을 통해 contigs로 조립된다.
일종에 레고 조각 하나하나를 조립하여 일정한 형태를 만들어 내는 것처럼 말이다.
최근 3세대 시퀀싱은 짧은 reads에서 조립된 contigs와 유사한 길이를 갖는 훨씬 더 긴 reads를 생산하나,
기존의 contig-binning 도구는 커버리지 정보가 없고 Error율이 높기 때문에 long reads에 직접 적용할 수 없다는 한계가 있다. 기존의 소수의 long reads binning 도구는 구성만 사용하거나 구성 및 적용 범위 정보를 별도로 사용한다. 이는 함량이 낮은 종에 해당하는 저장소 또는 적용 범위가 균일하지 않은 종에 할당하는 잘못 분할된 저장소를 무시할 수 있다.
이 논문에서는 전체 long reads 데이터 세트의 구성 및 적용 범위 정보를 결합하는 참조 reference 없는 binning 접근 방식인 LRBinner를 제공하고자 한다. LRBinner는 또한 거리 히스토그램 기반 클러스터링 알고리즘을 사용하여 다양한 크기의 클러스터를 추출한다는 특징을 가진다.
결과: 시뮬레이션한 데이터 세트와 실제 데이터 세트 모두를 실험결과는 LRBinner가 샘플링 없이 전체 데이터 세트를 처리하면서 대부분의 경우 최고의 binning 정확도를 얻었다. 또한, 조립 assembly 전에 LRBinner를 사용하여 binning reads를 수행하면 조립에 필요한 계산 리소스가 줄어들면서 만족스러운 품질을 가지는 조립을 얻을 수 있었다.
결론: LRBinner는 long reads의 metagenome binning을 지원하기 위한 효과적인 기능 집계에 딥러닝 기술을 사용할 수 있음을 보여주었다. 또한 long reads의 정확한 binning은 특히 복잡한 데이터 세트에서 메타게놈 조립을 개선하는 것을 도울 수 있다. binning은 또한 조립에 필요한 자원을 줄일 수 있다.
LRBinner의 소스 코드는 https://github.com/anuradhawick/LRBinner 에서 무료로 사용할 수 있다.
Binning long reads in metagenomics datasets using composition and coverage information - PubMed
LRBinner shows that deep-learning techniques can be used for effective feature aggregation to support the metagenomics binning of long reads. Furthermore, accurate binning of long reads supports improvements in metagenomics assembly, especially in complex
pubmed.ncbi.nlm.nih.gov
이전글
2023.05.08 - [분류 전체보기] - [궁금사전] MicrobiomeAnalyst (마이크로바이옴 데이터 분석)
[궁금사전] MicrobiomeAnalyst (마이크로바이옴 데이터 분석)
# MicrobiomeAnalyst - 마이크로바이옴 데이터의 포괄적인 통계, 기능 및 통합 분석 MicrobiomeAnalyst는 지속적인 방법 및 데이터베이스의 업데이트를 기반으로 하는 미생물 연구의 공통 데이터 세트에 대
nv2ngn.tistory.com