Content
- Important Questions in Human Genetics
- Concepts Underlying the Study Design
- Capturing Common Variation
- Genotyping Technologies
- Study Design
- Association Test
- Replication and Meta Analysis
Important Questions in Human Genetics
- human genetics 의 핵심적인 목표는 common complex disease의 유전적 위험 요소를 찾는것. 여러 기술과 study design이 있는데 그중 하나가 GWAS.
- 유전적 위험 요소를 찾는 GWAS의 적용사례 중 하나가 age-related macular degeneration (AMD) 의 원인이 되는 Complement Factor H gene을 찾은 것
- GWAS를 통한 personalized medicine 분야의 적용도 또다른 human genetics의 목표라 할 수 있음
- GWAS를 통한 항응고제인 wafarin 복용량 결정이 한 예
Concetps Underlying the Study Design
- 가장 일반적인 SNP을 이용함. SNP 은 일반적으로 MAF (minor allele frequency) 가 높은 single base substitution 을 뜻함
- rare disorder 의 경우 특정 소수 혹은 단일의 유전자에 의한 것이 많기 때문에 몇몇의 가계도를 분석하는 linkage analysis를 통해 genetic risk factor 가 잘찾아짐. 하지만 common disease의 경우 linkage analysis 가 효과가 없었음
- common disease는 다르게 접근해야 한다는 생각과 common disease의 원인 유전자가 몇몇 common variant (MAF가 높은 SNP) 이라는 발견과 맞물려 common disease의 원인은 common variant 라는 CD/CV (common disease / common variant) 가정이 성립됨. 이를 바탕으로 하는 것이 GWAS
- CD/ CV 에 서 분파된 하나의 생각은 common variant가 disease에 영향을 주기 때문에 그 영향의 크기는 상대적으로(rare variant to rare disease에 비해) 적을 것이다(=low penetrance)
- common variant가 low penentrance이지만 질병이 유전된기때문에 multiple SNP이 원인이 되는게 아닐까 생각하게 됨.
- 위 두가지 생각으로 family-based에서 population-based study로 초점이 옮겨가게 됨
- SNP의 allele frequency와 그 SNP에 의한 질병의 위험도(effect size)가 중요 요소가 genetic study design의 핵심. 위 그림에서 우측 하단이 GWAS 연구하기 좋은 케이스
- The National Human Genome Institute GWAS catalog 에 GWAS 를 통한 disease causal SNP 이 정리 되어 있음
Capturing Common Variation
CD / CV 가설을 제대로 테스트 하기 위해서는 몇가지 체계적 접근이 필요함
- Common variant (SNP) 의 파악 필요.
- 연구해야 할 SNP들이 어떤것이 있는지 또한 genome 상의 위치 의 정보 필요
- population 간 SNP의 차이에 대한 이해 필요
- population 간에 차이를 고려 하지 않으면 GWAS연구에서 target trait 관련 SNP이 아니라 population 간의 차이가 나는 SNP이 뽑힐 수 있음
- SNP간의 correlation 정보 필요
- 중복된 정보를 제거하기 위해 혹은 효율적인 연구를 위해
- 위 3가지 목적에서 생긴 것이 The International HapMap Project
- 1.6 M SNPs
- 11 human population
- LD (linkage disequilbrium) 측정
- SNP 이 chromosome의 동일선상에 있을 경우 연관되어 있는 정도를 나타내는 것
- african이 generation 이 다른 population에 비해 높기 때문에 LD 영역이 상대적으로 적음
- recombination 이 일어나면 두 SNP은 LD가 깨짐, 곧 linkage equilibrium
- LD의 지표로 \(D' \) 와 \( r^2\) 를 많이 사용
- \(D'\)는 0 ~ 1 사이값을 갖음. 1 이 complete LD를 의미, 0 은 HWE 상태 하에 두 SNP이 독립일 경우.
- \[ D' = \left\{\begin{array}{r1} \frac{\pi_{AB}\pi_{ab} - \pi_{Ab}\pi_{aB}}{\mbox{min}(\pi_A\pi_b,\pi_a\pi_B)} & if \pi_{AB}\pi_{ab} - \pi_{Ab}\pi_{aB} > 0 \\ \frac{\pi_{AB}\pi_{ab} - \pi_{Ab}\pi_{aB}}{\mbox{min}(\pi_A\pi_B,\pi_a\pi_b)} & if \pi_{AB}\pi_{ab} - \pi_{Ab}\pi_{aB} < 0 \end{array} \right\} \]
- \( r^2\) 은 correlation 식
- \[r^2 = \frac{(\pi_{AB}\pi_{ab} - \pi_{Ab}\pi_{aB})^2}{\pi_A\pi_b\pi_a\pi_B} \]
- LD 분석을 통해 tagSNP 이 선택되어짐(LD block내 대표 SNP). population마다 LD가 다르기 때문에 tagSNP도 달라짐
- 이 LD로 인해 GWAS로 뽑힌 결과가 꼭 질병과 direct하게 연관되어 있다는 보장은 없음. 뽑힌 SNP의 LD 관계에 있는 SNP이 질병의 직접적인 원인 SNP 일 수 있음.
Genotyping Technologies
Illumina 와 Affymerix 사의 SNP chip이 많이 사용됨. 요즘은 sequencing으로 많이 함.
Study Design
case control design 과 quantitative design
- quantitative design
- target trait (혹은 disease)의 지표가 quantitative 함. 곧 양적으로 측정됨
- 통계적으로 유의한 genetic effect를 파악하기 쉬운 경향이 있음
- heart disease의 지표가 될수 있는 HDL, LDL 등의 lipid level이 quantitative trait의 예
- case control design
- trait가 affected VS unaffected 식으로 이원화 된 경우의 study
Association Test
사실상 GWAS분석이라는 것은 SNP 하나하나를 독립적으로 phenotype과 연관성이 있나 검사하는 것임
- quantitative design
- GLM(depedent variable를 함수로 변형시켜 linear 하게 만든 것) 또는 ANOVA로 분석
- case control design
- contingency table method(chi-square test, Fisher's exact test), logistic regression을 사용
- logistic regression은 covariates 의 보정을 할수 있어 contingency table 보다 더 많이 쓰임
genotype data를 숫자로 변경하는 "data encoding" 하는 방식 선택도 테스트의 통계적 검정력에 영향이 있음(genotype-based group의 숫자에 따라 자유도 변화등).
- allelic VS genotypic
- allelic : SNP 의 하나의 allele과 phenotype의 연관성을 봄
- genotypic : 한쌍의 allele 을 하나의 값으로 치환함.
- dominant, recessive, multiplicative, addictive model이 있음.
- population substructure를 고려해야 하는 이유 : 예를 들어 폐암 환자그룹에 특정 population이 많이 있다면 폐암 관련 유전자가 아니라 population specific한 SNP이 뽑힐것임.
- STRUCTURE나 ENGENSTART 방법으로 보정 필요. HapMap의 인종별 allele freuncy를 참고하거나 아니면 PCA를 이용.
SNP하나하나에 대한 통계적 분석이기 떄문에 multiple test correction 필요
- Bonferroni correction : 모든 SNP이 independent 하다는 가정
- FDR (false discover)
- permutation testing
- genome-wide significance : 특정 population 의 LD의 분포를 바탕으로 독립적인 "effective" genetic region 이 있음을 바탕으로 correction 을 해야하는 test 갯수를 기준으로 p-value threshold를 정함, 유럽인의 경우 7.2e-8
Replication and Meta Analysis
- replication : GWAS 결과에서 얻어진 SNP을 검증하는 실험
- meta analysis : 여러 study를 합쳐서 분석하는 방법
* 위 내용은 http://www.ncbi.nlm.nih.gov/pubmed/23300413 과 http://bioinformatics.org.au/ws09/presentations/ 의 day3 jstankovich의 pdf를 바탕으로 함
우왕 굳~ :)
ReplyDelete