저번 포스팅에 리뷰 했던 논문(enterotypes of human gut microbiome) 쓴 사람들이 만든 metagenome pipeline인 SMASHCommunity. 네이쳐에 나온 논문을 보면.. 아.. 정말 잘했구나라는 생각밖에 안든다(사실 아직 다 읽진 않았다.. 이런 게으름.. 항상 이런식이다.. 상흠 선배 말투가 떠오르는군). 우린 갈길이 멀었구나..
일단 bioinformatics에 나온 논문부터 요약하자면
SMASH는 sanger나 454 read를 분석하기 위한 standalone 프로그램. metagenome pipeline이 없는것은 아니지만(CAMERA, IMG/M, MG-RAST 등) web-server이거나 아니면 단순 read count를 세는 정도라 한다(참고로 네이쳐 논문의 메소드를 보게되면 read count를 그냥 쓰는 것이 아니라 gDNA의 경우 genome size로 나누고 rRNA의 경우 genome 상의 16s rRNA의 copy수로 나눠서 계산한다). 그 밖에 취약점들을 있는데 생략한다.
Showing posts with label metagenomics. Show all posts
Showing posts with label metagenomics. Show all posts
Tuesday, May 10, 2011
Wednesday, April 27, 2011
Enterotypes of the human gut microbiome
metagenome pipeline 1차로다가 만들고 난 후 요즘 genome NCBI에 submission 할려고 그것에 정신없느라 거의 논문이나 관련된 것들을 못봤다. 오늘은 metagenome 논문 하나 보고 그 담에 고걸 가지고 ppt를 만드는데 Prezi를 써볼련다. 아.. 떨려.. 과연 오늘 안에 다 할련지, 저녁에 회식도 있는데.. 딱 오늘까지만 할려고 하는데 해봐야지.
일단 metagenome 손 놓고 있으니 점점 맘이 떠나 갔는데 박사님이 던져준 논문 하나와 그 의도가 나를 그냥 바짝 interested in 하게 만들었다. 요즘 아니지.. 쫌 됐지.. 사람 똥으로다가 metagenome논문이 종종 나오는데(내가 알기로 이거 무슨 society가 있다) 특히 obesity 에 관해서 논문이 꽤 있다. 이번 논문도 그런건데(아직 확실치 않다. 읽어보지 않아서).. 여튼 그 의도가 뭐냐? 이거 사업성이 있다. 단순히 metagenome분석 해준다 하면 pipeline 만들고 돌려서 결과 report 해준다고 생각했는데.. 이거 진단으로도 갈 수도 있겠다. 이럼 이야기가 달라진다. 아니.. 나에 대한 자극도가 달라진다. 재밌겠다란 생각 든다. 함 보자.
일단 논문은 여기.
일단 metagenome 손 놓고 있으니 점점 맘이 떠나 갔는데 박사님이 던져준 논문 하나와 그 의도가 나를 그냥 바짝 interested in 하게 만들었다. 요즘 아니지.. 쫌 됐지.. 사람 똥으로다가 metagenome논문이 종종 나오는데(내가 알기로 이거 무슨 society가 있다) 특히 obesity 에 관해서 논문이 꽤 있다. 이번 논문도 그런건데(아직 확실치 않다. 읽어보지 않아서).. 여튼 그 의도가 뭐냐? 이거 사업성이 있다. 단순히 metagenome분석 해준다 하면 pipeline 만들고 돌려서 결과 report 해준다고 생각했는데.. 이거 진단으로도 갈 수도 있겠다. 이럼 이야기가 달라진다. 아니.. 나에 대한 자극도가 달라진다. 재밌겠다란 생각 든다. 함 보자.
일단 논문은 여기.
Friday, April 1, 2011
EstimateS and something others
두가지에 막혀 있다. 어쩌면 세가지. 하나는 taxonomic rank에 대한 이해가 부족하다. rank term. 어떤건 kingdom, phylum, class, order등의 정보가 다 있는데, 어떤건 그러하지 않고, 그러하지 않는건지 아니면 내가 그 tern을 제대로 특정 rank에 놓지 못한것이지도 판단이 되지 않는다. 다른 하나는 통계학적 접근. 다른 하나는 aligner에 대한 것. 어찌보면 핵심부에 속하는 것들에 지금 막혀있다. 힘빠져.
하나씩 해야지. 이번에 통계적인 것에 대한 내용을 들여다 보려 한다. 시작은 EstimatS라는 프로그램의 설명부터 해서 species richness, 그리고 두 community 간에 shared species를 계산하는 논문까지(항상 그렇듯 계획은 좋다. 시작은 창대하나 끝이 미약해서..).
<EstimateS>
http://viceroy.eeb.uconn.edu/EstimateSPages/AboutEstimateS.htm
일단 뭔지는 모르나 EstimateS가 하는 일부터 알아보자.
-rarefaction and species accumulation curves
일단은 expected spcies accumulation curves(=sample-based rarefaction curve)를 구한단다. 이건 resampling technique이 아니라네. 그리고 individual-based rarefaction curves를 구한다.
-species richness estimators and diversity indices
non-parametric species richness를 구한다. 그런데 sample-based data와 abundance-based data에 대해서. 음.. log-linear confidence interval을 구한다. sample-based rarefaction curve의 aymptotic function에 기초한 species richness estimator를 구한다.
-shared species estimation and biotic similarity indices, with estimators
sample pairs에 대해 Chao's estimator of total shared species를 구한다.
아.. 전혀 알아들을수 없다. 좀더 자세한 user guide를 봐보자.
http://viceroy.eeb.uconn.edu/EstimateSPages/EstSUsersGuide/EstimateSUsersGuide.htm
-Introduction
일단 용어 정리부터 한다.
sample 이라 함은 특정 지역, 면적, 내지는 시간 단위의 list of species 또는 OTU를 의미.
species abundance data(=abundance data)는 counts로 sample 안에 각 species의 counts, 즉 수를 의미.
incidence data라 함은 presence/absence(=occurrence) data 으로 sample 안에 각 species가 있냐 없냐를 의미하는 데이터.
마지막 말은 좀 이해 안되네. abundance data랑 summed incidence data랑 같은거 아닌가. summed incidence data가 frequencies of occurence 라면 어짜피 count인데.. 요건 음 패스. 여튼 이로써 뭐에 대해 뭘 구한다라는 말에서 뭐에 대해가 좀 이해가 되는듯.
아 이 뒤의 내용은 아무래도 Gotelli & Colwell (2001) 를 봐야 할거 같아서 급선회 한다.
<Quantifying biodiversity: procedures and pigfalls in the measurement and comparison of species richness>
-Taxon sampling curves
species richness가 중요한 measurement이긴 한데 정확히 측정하기 어렵다. 왜? 다양한 taxa가 있는 곳에서는 sampling을 많이 할수록 species가 많은걸로 나올테니까.
근데 speices
taxon sampling curve를 4가지로 분류. 기준은 1. sampling protocol(individual-based 냐 sample based냐), 과 2. accumulation curves냐 rarefaction curves냐 .
첫번째 기준의 individual based라 함은 그냥 두특정 locality의 species를 비교할때 individual based 방식은 특정 locality에서 랜덤하게 sampling해서 species를 카운트 하는것이고 sample based는 특정 locality를 quadrat으로 구획해서 나눠진 quadrat중 계산되어진 quadrat의 species를 축적해서 더하는것.
두번째 기준의 accumulation curve는 말그대로 데이터 collection과정중에 생기는 species 값을 축적해서 curve를 그리는것. 반면 rarefaction curve는 1부터 N 까지 random sampling을 반복적으로 해서 나오는 average species count를 그린것.
accumulation curve는 왼쪽에서 오른쪽으로, 반면에 rarefaction curve 오른쪽에서 왼쪽으로 그려지는데. 이는 rarefaction curve가 accumulation curve의 right end를 기준으로 sampling 사이즈를 변화하면서 반복적으로 sampling해서 나온 average species count를 기록하기 때문.
그리고 sample-based curve가 individual-based curve보다 아래 있는데 이는 spatial or temporal autocorrelation 에 의한것.
-Comparing assemblages using taxon sampling curves
두 communities가 측정된 species richness가 다를수 있는데, 이는 진짜 생물학적으로다가 다를 수도 있는것이고 아니면 sampling effort나 condition의 차이에 의한 것일수도 있다. 그렇기에 그냥 raw taxon count를 비교하는건 문제가 있다.
만약 accumulation curves가 asymptote에 닿으면 raw count를 비교하는게 의미 있을수도 있으나 거의 그럴 일은 없다. 그러나 appropriate scaling을 통해서 accumulation curve를 비교하는게 가능. individual-based dataset의 경우 현실적인 문제(individual을 조사할때 보통 순서 까지 recording 하지 않기 때문)에서 accumulation curve를 구하는것이 문제가 있는데 이럴땐 rarefaction 을 이용. individual의 경우 individual-based rarefraction만 사용 가능.하지만 sample-bassed 데이터의 경우 individual-based, sample-based rarefraction을 둘다 사용가능. 근데 sample-based을 사용(patchiness 때문에 individual-based rarefaction은 overestimate된다). sample-based rarefaction curve를 사용한다고 하더라도 taxa의 수를 plot 할 때는 individual의 accumulate의 수로 해야 한다(sample당 individual의 갯수가 다르므로).
-Computing rarefaction curves
1.individual-based rarefaction
randomize를 위한 re-sampling 말고 combinatoric theory에 근거한 mathematical expression이 있다. Sanders이야기 하는데 여튼 이건 틀린거고 hypergeometric sampling distribution에 근거한 derivation model이 있다. 그리고 Coleman의 random placement curve를 이용하면 빠른 계산이 가능하다
2.sample-based rarefaction
-Category-subcategory ratios and their pitfalls
1.individuals and species
2.species and genera
-Species richness VS. species density
-Asymptotic estimators of species richness
http://www.vsni.co.uk/products/genstat/htmlhelp/ecology/AccumulationCurve.htm
그럼 species accumulation curve는 어따 쓰냐? species richness를 추정하는데 사용한다. asymptotic line이 species richness가 되는건가..
그리고 rarefaction이라 함은 sampling effect가 특정 level까지 떨어질때의 species의 갯수를 추정하는데 사용하는 method.
일단 뭔지는 모르나 EstimateS가 하는 일부터 알아보자.
-rarefaction and species accumulation curves
일단은 expected spcies accumulation curves(=sample-based rarefaction curve)를 구한단다. 이건 resampling technique이 아니라네. 그리고 individual-based rarefaction curves를 구한다.
-species richness estimators and diversity indices
non-parametric species richness를 구한다. 그런데 sample-based data와 abundance-based data에 대해서. 음.. log-linear confidence interval을 구한다. sample-based rarefaction curve의 aymptotic function에 기초한 species richness estimator를 구한다.
-shared species estimation and biotic similarity indices, with estimators
sample pairs에 대해 Chao's estimator of total shared species를 구한다.
아.. 전혀 알아들을수 없다. 좀더 자세한 user guide를 봐보자.
http://viceroy.eeb.uconn.edu/EstimateSPages/EstSUsersGuide/EstimateSUsersGuide.htm
-Introduction
일단 용어 정리부터 한다.
sample 이라 함은 특정 지역, 면적, 내지는 시간 단위의 list of species 또는 OTU를 의미.
species abundance data(=abundance data)는 counts로 sample 안에 각 species의 counts, 즉 수를 의미.
incidence data라 함은 presence/absence(=occurrence) data 으로 sample 안에 각 species가 있냐 없냐를 의미하는 데이터.
마지막 말은 좀 이해 안되네. abundance data랑 summed incidence data랑 같은거 아닌가. summed incidence data가 frequencies of occurence 라면 어짜피 count인데.. 요건 음 패스. 여튼 이로써 뭐에 대해 뭘 구한다라는 말에서 뭐에 대해가 좀 이해가 되는듯.
아 이 뒤의 내용은 아무래도 Gotelli & Colwell (2001) 를 봐야 할거 같아서 급선회 한다.
<Quantifying biodiversity: procedures and pigfalls in the measurement and comparison of species richness>
-Taxon sampling curves
species richness가 중요한 measurement이긴 한데 정확히 측정하기 어렵다. 왜? 다양한 taxa가 있는 곳에서는 sampling을 많이 할수록 species가 많은걸로 나올테니까.
근데 speices
taxon sampling curve를 4가지로 분류. 기준은 1. sampling protocol(individual-based 냐 sample based냐), 과 2. accumulation curves냐 rarefaction curves냐 .
첫번째 기준의 individual based라 함은 그냥 두특정 locality의 species를 비교할때 individual based 방식은 특정 locality에서 랜덤하게 sampling해서 species를 카운트 하는것이고 sample based는 특정 locality를 quadrat으로 구획해서 나눠진 quadrat중 계산되어진 quadrat의 species를 축적해서 더하는것.
두번째 기준의 accumulation curve는 말그대로 데이터 collection과정중에 생기는 species 값을 축적해서 curve를 그리는것. 반면 rarefaction curve는 1부터 N 까지 random sampling을 반복적으로 해서 나오는 average species count를 그린것.
accumulation curve는 왼쪽에서 오른쪽으로, 반면에 rarefaction curve 오른쪽에서 왼쪽으로 그려지는데. 이는 rarefaction curve가 accumulation curve의 right end를 기준으로 sampling 사이즈를 변화하면서 반복적으로 sampling해서 나온 average species count를 기록하기 때문.
그리고 sample-based curve가 individual-based curve보다 아래 있는데 이는 spatial or temporal autocorrelation 에 의한것.
-Comparing assemblages using taxon sampling curves
두 communities가 측정된 species richness가 다를수 있는데, 이는 진짜 생물학적으로다가 다를 수도 있는것이고 아니면 sampling effort나 condition의 차이에 의한 것일수도 있다. 그렇기에 그냥 raw taxon count를 비교하는건 문제가 있다.
만약 accumulation curves가 asymptote에 닿으면 raw count를 비교하는게 의미 있을수도 있으나 거의 그럴 일은 없다. 그러나 appropriate scaling을 통해서 accumulation curve를 비교하는게 가능. individual-based dataset의 경우 현실적인 문제(individual을 조사할때 보통 순서 까지 recording 하지 않기 때문)에서 accumulation curve를 구하는것이 문제가 있는데 이럴땐 rarefaction 을 이용. individual의 경우 individual-based rarefraction만 사용 가능.하지만 sample-bassed 데이터의 경우 individual-based, sample-based rarefraction을 둘다 사용가능. 근데 sample-based을 사용(patchiness 때문에 individual-based rarefaction은 overestimate된다). sample-based rarefaction curve를 사용한다고 하더라도 taxa의 수를 plot 할 때는 individual의 accumulate의 수로 해야 한다(sample당 individual의 갯수가 다르므로).
-Computing rarefaction curves
1.individual-based rarefaction
randomize를 위한 re-sampling 말고 combinatoric theory에 근거한 mathematical expression이 있다. Sanders이야기 하는데 여튼 이건 틀린거고 hypergeometric sampling distribution에 근거한 derivation model이 있다. 그리고 Coleman의 random placement curve를 이용하면 빠른 계산이 가능하다
2.sample-based rarefaction
-Category-subcategory ratios and their pitfalls
1.individuals and species
2.species and genera
-Species richness VS. species density
-Asymptotic estimators of species richness
http://www.vsni.co.uk/products/genstat/htmlhelp/ecology/AccumulationCurve.htm
그럼 species accumulation curve는 어따 쓰냐? species richness를 추정하는데 사용한다. asymptotic line이 species richness가 되는건가..
그리고 rarefaction이라 함은 sampling effect가 특정 level까지 떨어질때의 species의 갯수를 추정하는데 사용하는 method.
Monday, March 14, 2011
metagenomics를 위한 논문 탐험
자 대략적으로 누구랩 레포트로 큰그림은 그려봤으니 실질적으로 논문들을 볼 차례다. 시작점은 a core gut microbiome in obese and lean twins로 한다. (참.. 이것 참.. 이 논문을 genomeweb에서 2년전쯤 논문 서머리로 슬쩍 본적이 있었는데 결국 보게 되다니. 참 이거. 참..) 그리고 CD-hit, species richness 통계 관련 논문, 마지막으로 mothur 논문 순서로 하기로 한다.
<A core gut microbiome in obese and lean>
http://www.nature.com/nature/journal/v457/n7228/full/nature07540.html
원래는 위에 것 할려고 했는데 윗분의 BGI언급으로 인해 아래 논문으로 수정
<A human gut microbial gene catalogue established by metagenomic sequencing>
http://www.nature.com/nature/journal/v464/n7285/full/nature08821.html
이 논문의 위의 논문보다 나중에 나온것. 둘다 gut의 microbe 를 metagenome 연구를 했다는 공통점. 위 논문의 abstract만 보면 위 논문은 16s rRNA도 하고 전체 microbe의 genome (microbiome)을 시퀀싱 한거 같다. 이 논문은 Genome analyser (GA)를 가지고 124명의 유럽인들의 똥의 미생물의 microbiome, 그러니까 전체 genomic DNA를 시퀀싱. => 그래서 576.7 Gb 를 만들어냄(이전 논문의 200배, BGI에서 돈많이 썻다고 자랑함). => 그 뒤 assembly,=> 3.3 M 의 unique ORF 만들어냄. 그리고 마지막 말, 이 결과는 short read sequencing으로도 metagenomics를 할수 있음을 보인다는건데 이건 BGI가 illumina 계열의 기기만 있기 때문에 이것으로도 metagenome을 해도 된다. 뭐 이런 support를 위한 논문인냥 느껴지는 멘트이다. 그러면 short read sequencer로도 가능하냐? 이 문제에 대해선 다음의 논문[1] 을 추천하려 했지만.. 16s rRNA 에 대해서 물어본다면 답이 안되는 논문인듯 하다.
metagenomic sequencing of gut microbiomes
124명의 건강하거나 과체중이거나 비만 혹은 염증성 장내질환(IBD)를 갖은 사람의 변의 microbe를 시퀀싱했다.두당 평균 4.5Gb 만들어냈고 이를 개인 각각 SOUPdenovo로 어샘블. 500bp 이상의 contig가 총 6.58M개 총 사이즈는 10.3Gb(N50 : 2.2kb), read의 42.7 %가 contig 만들어 지는데 이용됨. confirm으로 두 개체를 골라서 sanger 방법으로 시퀀싱한 리드를 contig에 매핑, 그 결과 98.7%가 맵핑됨. 이 값을 또 FLX와 비교(한 개체를 FLX로 시퀀싱한뒤 assembly해서 sanger read를 매핑해봄, 무서운 놈들). error-rate[2]와 뭐 이것저것 FLX에 떨어지지 않음을 증명. 어셈블 안된 리드들을 개체에 상관없이 모아서 다시 어셈블, 결과 0.4M개 총 370Mb(N50: 939bp) 의 contig 생성. 거꾸로 read들을 90% identity를 threshold(시퀀싱 error, strain variability를 고려해서)로 매핑, 결과 80%의 read가 매핑. 다른 논문의 데이터, 그리고 genbank와도 비교. 우월함을 입증.
a gene catalogue of the human gut microbiomes
ORF prediction에 MetaGene 사용. 100bp 이상의 ORF를 총 14,048,045개 찾음. 이건 총contig길이의 86.7%. 이는 평균적인 microbe의 비율과 비슷. (2/3의 ORF가 incomplete하다는데.. 이걸 어떻게 알지? incomplete하다의 의미가 정확히 뭔지 모르겠다). 그 ORF들의 redundancy를 없애고 총 3,299,822의 ORF로 추려냄, 이를 prevalent genes 이라고 함. 이 prevalent gene을 genome sequence가 있는 장내 세균과 비교. 상당수 매치됨. 음.. EstimateS 라는 프로그램을 써서 ICE를 계산해서 자기네들이 찾은 prevalent gene이 전체 추측되는 prevalent gene의 몇 %를 capture했나 라는 말이 나오는데 아.. 이는 잘 이해가 안된다[3]. 결론은 85% 이상을 capturing 한것으로 여겨진다는 것. 그리고 개체간에 얼마나 common gene이 있나를 체크했는데, 생각보다 prevalent gene이 생각보다 소수에 치우쳐 있다는 식으로 이야기함. 이것의 한 factor로 sampling depth를 들음. 그러나 역시나 개체간에 share하는 prevalent gene은 상당함. 재밌는것은 IBD 환자의 prevalent gene이 정상보다 갯수가 적음. 이는 IBD환자의 장내 미생물 diversity가 일반인보다 적다는 것과 일맥 상통.
common bacterial core
functions encoded by the prevalent gene set
ORF들을 NCBI의 NR(protein)과 KEGG, COG, eggNOG[4]에 있는 gene에다가 align함.[5]
bacterial functions important for life in the gut
functional complementarities fo the genome and metagenome
[1]http://aem.asm.org/cgi/reprint/74/5/1453.pdf 이논문이 2008년 초에 나온건데 abstract를 보면 100-200 bp의 read로 16s rRNA 시퀀싱 분석이 괜찮냐를 본 논문. 방법은 간단해 보인다. 거의 full length의 16s rRNA와 random하게 만들어낸 short read의 blast와 cog 분석 결과를 비교한다. blastx의 결과 당연하지만 full length에 비해 homolog hit이 현저하게 떨어진단다. 주의할 건 400bp 까지 read의 길이를 늘려도 내지는 depth를 늘려도 마찬가지라는거. 결국 Evalue가 낮은 hit 아니면 찾기 어렵다는것. 그리고 cog 분석도 마찬가지로 full... 근데 이거 16s rRNA에 국한된게 아닌듯 싶다. 그리고 nature 논문은 assembly후에 분석한 거라 이 의미가 없을 듯
[2]error-rate :
[3]EstimatorS, ICE : http://viceroy.eeb.uconn.edu/EstimateSPages/EstSUsersGuide/EstimateSUsersGuide.htm
[4]eggNOG : http://eggnog.embl.de/
[5]rarefaction analysis :
<A core gut microbiome in obese and lean>
http://www.nature.com/nature/journal/v457/n7228/full/nature07540.html
원래는 위에 것 할려고 했는데 윗분의 BGI언급으로 인해 아래 논문으로 수정
<A human gut microbial gene catalogue established by metagenomic sequencing>
http://www.nature.com/nature/journal/v464/n7285/full/nature08821.html
이 논문의 위의 논문보다 나중에 나온것. 둘다 gut의 microbe 를 metagenome 연구를 했다는 공통점. 위 논문의 abstract만 보면 위 논문은 16s rRNA도 하고 전체 microbe의 genome (microbiome)을 시퀀싱 한거 같다. 이 논문은 Genome analyser (GA)를 가지고 124명의 유럽인들의 똥의 미생물의 microbiome, 그러니까 전체 genomic DNA를 시퀀싱. => 그래서 576.7 Gb 를 만들어냄(이전 논문의 200배, BGI에서 돈많이 썻다고 자랑함). => 그 뒤 assembly,=> 3.3 M 의 unique ORF 만들어냄. 그리고 마지막 말, 이 결과는 short read sequencing으로도 metagenomics를 할수 있음을 보인다는건데 이건 BGI가 illumina 계열의 기기만 있기 때문에 이것으로도 metagenome을 해도 된다. 뭐 이런 support를 위한 논문인냥 느껴지는 멘트이다. 그러면 short read sequencer로도 가능하냐? 이 문제에 대해선 다음의 논문[1] 을 추천하려 했지만.. 16s rRNA 에 대해서 물어본다면 답이 안되는 논문인듯 하다.
metagenomic sequencing of gut microbiomes
124명의 건강하거나 과체중이거나 비만 혹은 염증성 장내질환(IBD)를 갖은 사람의 변의 microbe를 시퀀싱했다.두당 평균 4.5Gb 만들어냈고 이를 개인 각각 SOUPdenovo로 어샘블. 500bp 이상의 contig가 총 6.58M개 총 사이즈는 10.3Gb(N50 : 2.2kb), read의 42.7 %가 contig 만들어 지는데 이용됨. confirm으로 두 개체를 골라서 sanger 방법으로 시퀀싱한 리드를 contig에 매핑, 그 결과 98.7%가 맵핑됨. 이 값을 또 FLX와 비교(한 개체를 FLX로 시퀀싱한뒤 assembly해서 sanger read를 매핑해봄, 무서운 놈들). error-rate[2]와 뭐 이것저것 FLX에 떨어지지 않음을 증명. 어셈블 안된 리드들을 개체에 상관없이 모아서 다시 어셈블, 결과 0.4M개 총 370Mb(N50: 939bp) 의 contig 생성. 거꾸로 read들을 90% identity를 threshold(시퀀싱 error, strain variability를 고려해서)로 매핑, 결과 80%의 read가 매핑. 다른 논문의 데이터, 그리고 genbank와도 비교. 우월함을 입증.
a gene catalogue of the human gut microbiomes
ORF prediction에 MetaGene 사용. 100bp 이상의 ORF를 총 14,048,045개 찾음. 이건 총contig길이의 86.7%. 이는 평균적인 microbe의 비율과 비슷. (2/3의 ORF가 incomplete하다는데.. 이걸 어떻게 알지? incomplete하다의 의미가 정확히 뭔지 모르겠다). 그 ORF들의 redundancy를 없애고 총 3,299,822의 ORF로 추려냄, 이를 prevalent genes 이라고 함. 이 prevalent gene을 genome sequence가 있는 장내 세균과 비교. 상당수 매치됨. 음.. EstimateS 라는 프로그램을 써서 ICE를 계산해서 자기네들이 찾은 prevalent gene이 전체 추측되는 prevalent gene의 몇 %를 capture했나 라는 말이 나오는데 아.. 이는 잘 이해가 안된다[3]. 결론은 85% 이상을 capturing 한것으로 여겨진다는 것. 그리고 개체간에 얼마나 common gene이 있나를 체크했는데, 생각보다 prevalent gene이 생각보다 소수에 치우쳐 있다는 식으로 이야기함. 이것의 한 factor로 sampling depth를 들음. 그러나 역시나 개체간에 share하는 prevalent gene은 상당함. 재밌는것은 IBD 환자의 prevalent gene이 정상보다 갯수가 적음. 이는 IBD환자의 장내 미생물 diversity가 일반인보다 적다는 것과 일맥 상통.
common bacterial core
functions encoded by the prevalent gene set
ORF들을 NCBI의 NR(protein)과 KEGG, COG, eggNOG[4]에 있는 gene에다가 align함.[5]
bacterial functions important for life in the gut
functional complementarities fo the genome and metagenome
[1]http://aem.asm.org/cgi/reprint/74/5/1453.pdf 이논문이 2008년 초에 나온건데 abstract를 보면 100-200 bp의 read로 16s rRNA 시퀀싱 분석이 괜찮냐를 본 논문. 방법은 간단해 보인다. 거의 full length의 16s rRNA와 random하게 만들어낸 short read의 blast와 cog 분석 결과를 비교한다. blastx의 결과 당연하지만 full length에 비해 homolog hit이 현저하게 떨어진단다. 주의할 건 400bp 까지 read의 길이를 늘려도 내지는 depth를 늘려도 마찬가지라는거. 결국 Evalue가 낮은 hit 아니면 찾기 어렵다는것. 그리고 cog 분석도 마찬가지로 full... 근데 이거 16s rRNA에 국한된게 아닌듯 싶다. 그리고 nature 논문은 assembly후에 분석한 거라 이 의미가 없을 듯
[2]error-rate :
[3]EstimatorS, ICE : http://viceroy.eeb.uconn.edu/EstimateSPages/EstSUsersGuide/EstimateSUsersGuide.htm
[4]eggNOG : http://eggnog.embl.de/
[5]rarefaction analysis :
metagenomics를 위한 잡다지식 but 완전 기초
누구랩의 분석레포트를 보는데 미생물의 분류학적 개념부터 나온다. 이것 부터 제대로 정립해야 하는게 사실이다. 그래서 정리해보자.
미생물이란
미생물(microbe) 라고 함은 바이러스(virus), 세균(bacteria), archaea,균류(fungi), 원생생물(protist) 로 나뉜단다.
한국말로 하면 원생이랑 원핵 생물이라하면 헷갈리는데 원핵은 하나의 핵이란게 아니라 원시핵을 의미 하는 것으로 prokaryote을 말한다. 반면 protist은 eukaryote으로 대부분 단세포 생물.
그럼 protist와 fungi가 뭐가 다르냐?(둘다 eukayote인데..) 아래 링크. 우선은 protist는 거의 단핵 생물. 그리고 fungi는 주로 saprotrophic (sapros+trophic = rotten+food = cell 밖에서 음식을 썩혀서 영양분을 soluble 하게 만든담 uptake). 그리고 세포벽도 차이.
archaea는 핵이 없는데 원핵 생물(prokaryote)과는 다른데 가장큰 차이는 세포벽을 구성에 큰차이 세포막에 있어서는 진핵생물과 차이.그런데 분자 생물학적으로 보면 eukaryote와 유사한 측면이 있다(chromatin 구조랑 RNA polymerase와 start codon도 eukaryote랑 유사).
자세한건 아래 링크
archea : http://100.naver.com/100.nhn?docid=828465
protist : http://navercast.naver.com/contents.nhn?contents_id=4203
difference between protist & fungi : http://answers.yahoo.com/question/index?qid=20080508155624AAVlMGj
종의 분류 in prokaryote
fungi랑 protist의 종의 개념은 형태나 reproductive behavior 에 많이 의존한다고 한다. 반면 prokayote의 종의 개념은 분자계통학적 연구방법에 따라 분류가 되는데 다음과 같은 두가지 기준이 있다. 두종이 구별되기 위한 조건 1. genome sequence가 달라야 한다. 그럼 어느정도? DNA-DNA hybridizaion 비교 일시 70% 이하로 hybridization되야 하고 2. 16sRNA 비교시 sequence similarity가 97% 이하여야 한다. 3. 단 위 두조건이 충족되더라도 형태나 생리적 표현 형질의차이가 없으면 다른 종으로 분류 할수 없다.
microbial community analysis (어떤 미생물이 얼마만큼 있는지 분석)
DGGE, TGGE, t-RFLP, SSCP 는 PCR로 16S rRNA gene을 증폭한담에 전기 영동으로 gel 상에 band의 형태로 미생물 군집의 변화를 본다. 음. 말 그대로 gel 걸어서 비슷한 것들끼리 분리되서 뭉치니까 그걸로 판단을 하는거 같고 근데 이것으론 데이터베이스와 그리고 종의 정보는 얻지 못함.
species richness : 시료내 종의 수
OTU (operational taxonomic unit)으로 분류 대상이 되는 생물체의 개체 또는 군. 거의 종을 의미, 그러니까 species richness를 구한다는건 OTU의 수를 수한다는 구한다는 것과 동일하다고 할수 있을거 같다.
1.일차적으로 read들을 filtering을 잘해서(quality filter, barcode & primer trimming) 2.CD-HIT과 같은 프로그램으로 read들을 clustering 후 3. 통계적 방법으로 실제의OTU를 추정 3.전체적인 종의 분포를 나타내는 diversity index를 구함.
의문점 및 checklist
1.누구랩 레포트를 보아하니 query를 blastn도 하고 megaBlast도하는데.. 음 왜 그러지 blastn만 하면 megablast 까지 커버가 되는거 아닌가? 굳이 둘다 하는 이유가 있나.
2.그리고 blast후 비슷한 시퀀스를 뽑아낸 다음에 global alignment 를 하는데 여기서 말하길 clustalW의 것과 동일한 것을 사용한다고 하는데 (http://bioinformatics.oxfordjournals.org/content/4/1/11.abstract) 이건 일반적으로 알고 있는 needleman이랑은 다른 것인가?
3.read trimming을 할때 pairwise alignment를 해서 barcode와 primer를 제거해야 하는데 이를 어떤식으로 할것인가?
4.CD-HIT 관련 논문
5.species richness 의 통계적 추정 관련 논문
6.Mothur program
7.쌍둥이 내장내 miocrobiome metagenomics 논문
미생물이란
미생물(microbe) 라고 함은 바이러스(virus), 세균(bacteria), archaea,균류(fungi), 원생생물(protist) 로 나뉜단다.
한국말로 하면 원생이랑 원핵 생물이라하면 헷갈리는데 원핵은 하나의 핵이란게 아니라 원시핵을 의미 하는 것으로 prokaryote을 말한다. 반면 protist은 eukaryote으로 대부분 단세포 생물.
그럼 protist와 fungi가 뭐가 다르냐?(둘다 eukayote인데..) 아래 링크. 우선은 protist는 거의 단핵 생물. 그리고 fungi는 주로 saprotrophic (sapros+trophic = rotten+food = cell 밖에서 음식을 썩혀서 영양분을 soluble 하게 만든담 uptake). 그리고 세포벽도 차이.
archaea는 핵이 없는데 원핵 생물(prokaryote)과는 다른데 가장큰 차이는 세포벽을 구성에 큰차이 세포막에 있어서는 진핵생물과 차이.그런데 분자 생물학적으로 보면 eukaryote와 유사한 측면이 있다(chromatin 구조랑 RNA polymerase와 start codon도 eukaryote랑 유사).
자세한건 아래 링크
archea : http://100.naver.com/100.nhn?docid=828465
protist : http://navercast.naver.com/contents.nhn?contents_id=4203
difference between protist & fungi : http://answers.yahoo.com/question/index?qid=20080508155624AAVlMGj
종의 분류 in prokaryote
fungi랑 protist의 종의 개념은 형태나 reproductive behavior 에 많이 의존한다고 한다. 반면 prokayote의 종의 개념은 분자계통학적 연구방법에 따라 분류가 되는데 다음과 같은 두가지 기준이 있다. 두종이 구별되기 위한 조건 1. genome sequence가 달라야 한다. 그럼 어느정도? DNA-DNA hybridizaion 비교 일시 70% 이하로 hybridization되야 하고 2. 16sRNA 비교시 sequence similarity가 97% 이하여야 한다. 3. 단 위 두조건이 충족되더라도 형태나 생리적 표현 형질의차이가 없으면 다른 종으로 분류 할수 없다.
microbial community analysis (어떤 미생물이 얼마만큼 있는지 분석)
DGGE, TGGE, t-RFLP, SSCP 는 PCR로 16S rRNA gene을 증폭한담에 전기 영동으로 gel 상에 band의 형태로 미생물 군집의 변화를 본다. 음. 말 그대로 gel 걸어서 비슷한 것들끼리 분리되서 뭉치니까 그걸로 판단을 하는거 같고 근데 이것으론 데이터베이스와 그리고 종의 정보는 얻지 못함.
species richness : 시료내 종의 수
OTU (operational taxonomic unit)으로 분류 대상이 되는 생물체의 개체 또는 군. 거의 종을 의미, 그러니까 species richness를 구한다는건 OTU의 수를 수한다는 구한다는 것과 동일하다고 할수 있을거 같다.
1.일차적으로 read들을 filtering을 잘해서(quality filter, barcode & primer trimming) 2.CD-HIT과 같은 프로그램으로 read들을 clustering 후 3. 통계적 방법으로 실제의OTU를 추정 3.전체적인 종의 분포를 나타내는 diversity index를 구함.
의문점 및 checklist
1.누구랩 레포트를 보아하니 query를 blastn도 하고 megaBlast도하는데.. 음 왜 그러지 blastn만 하면 megablast 까지 커버가 되는거 아닌가? 굳이 둘다 하는 이유가 있나.
2.그리고 blast후 비슷한 시퀀스를 뽑아낸 다음에 global alignment 를 하는데 여기서 말하길 clustalW의 것과 동일한 것을 사용한다고 하는데 (http://bioinformatics.oxfordjournals.org/content/4/1/11.abstract) 이건 일반적으로 알고 있는 needleman이랑은 다른 것인가?
3.read trimming을 할때 pairwise alignment를 해서 barcode와 primer를 제거해야 하는데 이를 어떤식으로 할것인가?
4.CD-HIT 관련 논문
5.species richness 의 통계적 추정 관련 논문
6.Mothur program
7.쌍둥이 내장내 miocrobiome metagenomics 논문
Tuesday, March 8, 2011
metagenomics
요즘 구제역이다 뭐다 해서 가축들을 죄다 땅에 파 묻는 바람에 지하수에 구제역에 의한 오염이 있지 않나 뭐다나 해서 농진청에서 연구비를 지원하나보다. 덕분에 회사의 가장 힘없는 말단 사원인 난 metagenomics 세계로 뛰어 들게 된다(근데 들어보니 구제역은 바이러스 때문이라는데..). 평소에 metagenomics에 대해 생각이 없었는데.. 예전에 천교수님 발표 할때 들어보고.. 아 꽤 시장이 크구나라고 느낀게 전부인데.. 나는야 까라면 쪼금 반항해보고 결국 까고 마는 말단 사원이다(아.. 연구원이다.. 사원보다 월급 적게 받는).
뭐 덕분에 공부한다고 생각하고 하나하나 정리해보자.
metagenomics 란 무엇인가?
rRNA
metagenome 시퀀싱을 하면 일반적으로 rRNA를 시퀀싱한다 (물론 그냥 gDNA를 culture해서 orf도 prediction하고 protein 시퀀스를 이용해서 functional annotation도 하지만). 아직 까지 내가 아는 지식으론 아마도 그 orgamism들의 구성도를 보기 위해서? 여튼.. 아래 위키 for rRNA explanation
http://en.wikipedia.org/wiki/Ribosomal_RNA ribosomal RNAs는 LSU(large subunit), SSU(small subunit) 으로 구성되어 있는데 prokaryote의 경우 LSU로 50S가 SSU로 30S 가 있고 그 30S를 구성하는 rRNA가 바로 16S rRNA. 보통 rRNA sequencing 중 16S rRNA 시퀀싱을 많이 하는데 그 이유를 생각해 보자면 http://en.wikipedia.org/wiki/16S_ribosomal_RNA 에 마지막에 보면 16S rRNA에 universal primer를 쓸수 있을 정도로 conserved 한 region도 있고 반면에 굉장히 변화가 심한 hypervariable region도 있기 때문에 아마도 species를 구분하기에 적당해서가 아닐까.
참고로 다음 논문도 읽어볼만 할듯하다.
Ribosomal RNA : a key to phylogeny
http://www.fasebj.org/content/7/1/113.full.pdf#page=1&view=FitH
metagenomics 분석 어떻게 해야 하나?
http://mmbr.asm.org/cgi/content/short/72/4/557
metagenomics를 위한 bioinfomatic 가이드라는 제목의 review인데.. 꼭 읽어봐야 할듯. intro 바로 처음에 나오듯이 이 리뷰는 functional metagenomics (특정 activity가 있는 것만 골라내서 cloning 해서 시퀀싱 한거)랑 구분하여 50Mbp 이상의 randomly sampled sequnces를 분석하는 가이드.
관련 데이터 베이스
들어보니 Silva, greengenes, EZ_taxon 이렇게 3개가 가장 많이 사용되는거 같다. 몇개 찾아보니 Silva가 가장 잘 되어 있는 느낌(?)이 드는데 우선 관련 논문
<Silva>
http://nar.oxfordjournals.org/content/35/21/7188.full?keytype=ref&ijkey=pwbw9T96ADMbJBk
일단 이러한 데이터 베이스의 목적은 넘쳐나는 rRNA데이터를 careful inpection, 그러니까 curration을 통해 rRNA가 biodiversity 연구에 도움이 되도록 하는데 있다(unified quality control & alignment of rRNA datasets).
논문을 보니까 rRNA 를 이용한 phylogeny의 연구에 ARB 라는 software와 이를 위한 db를 많이 썼었던걸로 보인다. ARB 말고도 rRNA curation을 위한 3개의 main project를 소개한다(greengenes, RDP,그리고 하나가 european rRNA 데이터 베이스인데 이것이 Silva로 들어 간것으로 보인다.). 아 그리고 하나 greengene에서는 ARB compatible dataset을 가지고 있긴 한데 full length인것만 대해서만. 그리고 요즘은 LSU rRNA도 많이 사용한다네(특히 eukaryote의 경우). intro을 본 결론은 4개의 DB 그중 ARB랑 european rRNA은 Silva로 편입된거 같다.
-Sequence data
Silva의 버젼은 EMBL과 버젼이 똑같다. 곧 RNA와 관련된 키워드 모두 검색해서 EMBL에서 RNA 시퀀스를 가져온다는 말. 그리고 seed alignment를 제공한다는데.. silva의 예전 버젼 격인 ARB에서 release 한것을 그대로 유지한다는데.. 이 seed alignment라는게 뭔지 잘 모르겠다..
-Quality checks
1.unaligned uncleotides 중 300bp보다 짧거나, 2. 2%이상 ambiguities가 있거나, 3. 아니면 2%이상의 homopolymer (homotetramer(homo-4bp)이상)가 있거나, 4. vector랑 5%이상 매치되면 제거. 그리고 이 세가지(2,3,4 항목)의 평균을 구해서 100에서 빼면 이것이 sequence quality가 된다. 이후 필터링 통과한 시퀀스들은 seed alingment에 대해 SINA(silva incremental aligner)에 의해 alignment가 되어 진다. 근데 이 sequence quality로 뭐하는 것인지.. 이미 4가지 항목으로 필터링 했는데 그 뒤에 이 sequence quality를 왜 구하는건지..이 역시 아직 잘 모르겠음
-Aligner
ARB의 suffix tree[1] 방식을 이용해서 seed alignment에서 최대 40개까지 유사한 시퀀스를 찾는다. 이렇게해서 찾아진 시퀀스 들은 partial order graph[2]로 옮기고 이 graph 위에다가 query를 needleman 방식으로 align 한다. 이 과정에서 alignment quality와 basepair score를 구하고 이는 0~100 사이 값으로 normalized 한다. alignment를 마친뒤에 aligned된 bp가 300bp보다 작으면 버린다.
-Anomaly check
이건 seed sequence의 anomaly를 체크 하기 위한 것이거 같은데. pintail이란 프로그램을 사용한단다. seed sequence들 전보를 20 개의 sequence로 된 한 그룹에 대해 pairwise check를 하는데 만약 대부분의 alignment가 anomalous 하게 나오면 seed에서 제거한다는거 같은데.. 저 20개의 sequence가 정확히 뭔지 모르겠다.. 모르는거 투성이네. 에이
-Taxonomy
-Nomenclature
-SSU and LSU rRNA databases for ARB
Ref databases: Parc database의 subset, 1.length cutoff :거의 full length의 시퀀스(최소 1200bp). archaea의 경우 800bp. LSU의 경우 1900bp. 2.alignment curoff : alignment score가 SSU의 경우 50, LSU의 경우 30 이상. 이 뒤에 positional variability filtering이 있는데 잘 이해 안됨.
Parc databases: 위의 quality가 확인된 모든 sequences
[1]suffix tree: 이진트리나 레드블랙트리는 봤어도 suffix tree는 사실 제대로 본적이 없다. 금선생이 추천해준 책에 몇챕터에 걸쳐서 나오는데.. 아.. 역시 모든 지식은 연결된듯하다. 여튼 급한데로 훓어보는데.. http://graphy21.blogspot.com/2011/03/suffix-tree.html
[2]http://bioinformatics.oxfordjournals.org/content/18/3/452.full.pdf#page=1&view=FitH
뭐 덕분에 공부한다고 생각하고 하나하나 정리해보자.
metagenomics 란 무엇인가?
rRNA
metagenome 시퀀싱을 하면 일반적으로 rRNA를 시퀀싱한다 (물론 그냥 gDNA를 culture해서 orf도 prediction하고 protein 시퀀스를 이용해서 functional annotation도 하지만). 아직 까지 내가 아는 지식으론 아마도 그 orgamism들의 구성도를 보기 위해서? 여튼.. 아래 위키 for rRNA explanation
http://en.wikipedia.org/wiki/Ribosomal_RNA ribosomal RNAs는 LSU(large subunit), SSU(small subunit) 으로 구성되어 있는데 prokaryote의 경우 LSU로 50S가 SSU로 30S 가 있고 그 30S를 구성하는 rRNA가 바로 16S rRNA. 보통 rRNA sequencing 중 16S rRNA 시퀀싱을 많이 하는데 그 이유를 생각해 보자면 http://en.wikipedia.org/wiki/16S_ribosomal_RNA 에 마지막에 보면 16S rRNA에 universal primer를 쓸수 있을 정도로 conserved 한 region도 있고 반면에 굉장히 변화가 심한 hypervariable region도 있기 때문에 아마도 species를 구분하기에 적당해서가 아닐까.
참고로 다음 논문도 읽어볼만 할듯하다.
Ribosomal RNA : a key to phylogeny
http://www.fasebj.org/content/7/1/113.full.pdf#page=1&view=FitH
metagenomics 분석 어떻게 해야 하나?
http://mmbr.asm.org/cgi/content/short/72/4/557
metagenomics를 위한 bioinfomatic 가이드라는 제목의 review인데.. 꼭 읽어봐야 할듯. intro 바로 처음에 나오듯이 이 리뷰는 functional metagenomics (특정 activity가 있는 것만 골라내서 cloning 해서 시퀀싱 한거)랑 구분하여 50Mbp 이상의 randomly sampled sequnces를 분석하는 가이드.
관련 데이터 베이스
들어보니 Silva, greengenes, EZ_taxon 이렇게 3개가 가장 많이 사용되는거 같다. 몇개 찾아보니 Silva가 가장 잘 되어 있는 느낌(?)이 드는데 우선 관련 논문
<Silva>
http://nar.oxfordjournals.org/content/35/21/7188.full?keytype=ref&ijkey=pwbw9T96ADMbJBk
일단 이러한 데이터 베이스의 목적은 넘쳐나는 rRNA데이터를 careful inpection, 그러니까 curration을 통해 rRNA가 biodiversity 연구에 도움이 되도록 하는데 있다(unified quality control & alignment of rRNA datasets).
논문을 보니까 rRNA 를 이용한 phylogeny의 연구에 ARB 라는 software와 이를 위한 db를 많이 썼었던걸로 보인다. ARB 말고도 rRNA curation을 위한 3개의 main project를 소개한다(greengenes, RDP,그리고 하나가 european rRNA 데이터 베이스인데 이것이 Silva로 들어 간것으로 보인다.). 아 그리고 하나 greengene에서는 ARB compatible dataset을 가지고 있긴 한데 full length인것만 대해서만. 그리고 요즘은 LSU rRNA도 많이 사용한다네(특히 eukaryote의 경우). intro을 본 결론은 4개의 DB 그중 ARB랑 european rRNA은 Silva로 편입된거 같다.
-Sequence data
Silva의 버젼은 EMBL과 버젼이 똑같다. 곧 RNA와 관련된 키워드 모두 검색해서 EMBL에서 RNA 시퀀스를 가져온다는 말. 그리고 seed alignment를 제공한다는데.. silva의 예전 버젼 격인 ARB에서 release 한것을 그대로 유지한다는데.. 이 seed alignment라는게 뭔지 잘 모르겠다..
-Quality checks
1.unaligned uncleotides 중 300bp보다 짧거나, 2. 2%이상 ambiguities가 있거나, 3. 아니면 2%이상의 homopolymer (homotetramer(homo-4bp)이상)가 있거나, 4. vector랑 5%이상 매치되면 제거. 그리고 이 세가지(2,3,4 항목)의 평균을 구해서 100에서 빼면 이것이 sequence quality가 된다. 이후 필터링 통과한 시퀀스들은 seed alingment에 대해 SINA(silva incremental aligner)에 의해 alignment가 되어 진다. 근데 이 sequence quality로 뭐하는 것인지.. 이미 4가지 항목으로 필터링 했는데 그 뒤에 이 sequence quality를 왜 구하는건지..이 역시 아직 잘 모르겠음
-Aligner
ARB의 suffix tree[1] 방식을 이용해서 seed alignment에서 최대 40개까지 유사한 시퀀스를 찾는다. 이렇게해서 찾아진 시퀀스 들은 partial order graph[2]로 옮기고 이 graph 위에다가 query를 needleman 방식으로 align 한다. 이 과정에서 alignment quality와 basepair score를 구하고 이는 0~100 사이 값으로 normalized 한다. alignment를 마친뒤에 aligned된 bp가 300bp보다 작으면 버린다.
-Anomaly check
이건 seed sequence의 anomaly를 체크 하기 위한 것이거 같은데. pintail이란 프로그램을 사용한단다. seed sequence들 전보를 20 개의 sequence로 된 한 그룹에 대해 pairwise check를 하는데 만약 대부분의 alignment가 anomalous 하게 나오면 seed에서 제거한다는거 같은데.. 저 20개의 sequence가 정확히 뭔지 모르겠다.. 모르는거 투성이네. 에이
-Taxonomy
-Nomenclature
-SSU and LSU rRNA databases for ARB
Ref databases: Parc database의 subset, 1.length cutoff :거의 full length의 시퀀스(최소 1200bp). archaea의 경우 800bp. LSU의 경우 1900bp. 2.alignment curoff : alignment score가 SSU의 경우 50, LSU의 경우 30 이상. 이 뒤에 positional variability filtering이 있는데 잘 이해 안됨.
Parc databases: 위의 quality가 확인된 모든 sequences
[1]suffix tree: 이진트리나 레드블랙트리는 봤어도 suffix tree는 사실 제대로 본적이 없다. 금선생이 추천해준 책에 몇챕터에 걸쳐서 나오는데.. 아.. 역시 모든 지식은 연결된듯하다. 여튼 급한데로 훓어보는데.. http://graphy21.blogspot.com/2011/03/suffix-tree.html
[2]http://bioinformatics.oxfordjournals.org/content/18/3/452.full.pdf#page=1&view=FitH
Subscribe to:
Posts (Atom)
