Thursday, January 20, 2011

만화로 배우는 미분적분

통계학 입문책 저자가 맘에 들어서 그리고 다음 스텝인 수리통계를 대비하기 위해 그냥 미적분이 본지 너무 오래 되서 다시 한번 되새김질을 하기 위해 구매한 책.
생각보다 쉽지 않게 되어 있다. 다른건 모르겠고 정석에서 배웠던거랑은 약간 다르게 공식에 접근한다. 공식만 따라가다 보면 내가 지금 뭐하고 있지란 생각이 들지만 다시 처음과 끝을 보게 되면 신기하게도 말이 되게끔 해놨다.


다른건 모르겠고 확률 밀도 함수와 확률 분포 함수의 관계를 나타낸 섹션이 인상적이였다. 확률 분포 함수를 구할때 확률 밀도 함수를 적분하게 되는게 아무생각 없이 그냥 면적을 더할려고 한다고 생각했는데 두 그래프를 모아놓고 보니 느낌이 오는...


이 책.. 내가 보기엔 정석보다 어렵다. 헐.. 미적분 모르는 사람이 보면 힘들고 아는 사람이 보면 좀 다른 각도로 접근하기 때문에 신선하다. 절대 쉽게 미적분을 배우려는 사람에게는 비추하는 책. 

1000 genome supplementary note


nature에 나온 1000 genome 논문의 supplementary information을 정리한다.


2. Samples
YRI (Yoruba in Ibadan, Nigeria), CEU (ancestry from Northern and Western Europe), CHB (Han Chinese in Beijing, Chian), JPT (Japanese in Tokyo, Japan), LWK (from the Luhya in Webuye, Kenya), TSI (Toscani in Italia), CHD(the Chinese in Metropolitan Denver, CO, USA)


4. Read mapping and generation of BAM files
-quality recalculated -> remap -> merge lanes from the same library (Picard MergeSamFiles) -> remove duplicate (samtools : rmdup for paired end, rmdupse for single end) -> merge libraries to the plaform level -> remove duplicate (Picard MarkDuplicates)


4.1 Reference genome
-NCBI36, revised Cambridge reference sequence instead of mtDNA. sex-specific reference (Y chr only for male, psudoautosomal region masked in Y chr)


4.2 Mapping of Illumina Data
-Maq v0.7 -u -a 1000


4.5 Recalibration of Base Quality Values
-recalibrate qulity after initial alignment. this algorithm(covariate-aware base quality recalibration algorithm) is implemented in GATK software.
http://www.broadinstitute.org/gsa/wiki/index.php/Base_quality_score_recalibration 
-effect of recalibaration : the total number of variants called decreased by 2.8%. changing Ti/Tv ratio from 1.07 to 1.96 (true variants around 2. random 0.5)
Ti/Tv ratio : 
http://www.cbs.dtu.dk/staff/dave/roanoke/genetics980415f.htm
http://paup.csit.fsu.edu/paupfaq/paupans.html


4.6 Comparison of Read Data to known HapMap Genotypes
-genotype log likelihood  (samtools pileup -g) was used for matching expected genotype, and if the best genotype did not seperate well from the others(1.2 separation), then removed.  
likelihood:
http://www.aistudy.co.kr/math/likelihood.htm
genotype likelihood : maq paper(http://graphy21.blogspot.com/2011/01/maq.html)


5.SNP calling 
-maq에서 나온 genotype likelihood(GLij(g) = P(Bij,Qij | Gij =g))를 이용해서 snp를 call한다. 
P(Gij = g|Bij,Qij) = P(Bij,Qij | Gij = g) P(Gij=g) / Kij , Kij = Σg P(Bij, Qij| Gij = g) P(Gij = g)  
말로 풀어서 다시 말하면 maq에서 나온 공식으로 genotype likelihood를 구하고 bayesian공식으로 poterior probability, 즉 데이터가 나왔을때 어떤 genotyp이냐를 추즉한다.
이렇게 snp가 call되면  post-processing step으로 false positive를 제거하고 VCF (variant call format) 형식으로 저장한다.
-post-processing filtering {
--expected depth보다 너무 낮거나 높은거(평균 depth의 반 or 두배), 아마도 CNV에 의한 paralog로 잘못 mapping된거라 생각되서
--snp call 부위의 local realignment, indel에 의한 misalignment를 방지 하기 위해(보통 gap open penalty가 mismatch보다 크다)
--poor mapping quality 제거 , reference 자체가 완벽하지 않기때문에 unrepresented region에서 나온 read가 잘못 맵핑될수 있다(경험상 잘못 mapping되는 region을 6.1에 있다). }


5.1 Low-Coverage SNP calling


5.3 Exon project SNP calls