Throw a stone at me: GWAS 2

일전에 GWAS (Genome-Wide Association Study) 에 대해 간략하게 포스팅을 한적이 있었는데 이번에 조금 더 자세하게 정리해 보려 한다.

Content


Important Questions in Human Genetics
Concepts Underlying the Study Design
Capturing Common Variation
Genotyping Technologies
Study Design
Association Test
Replication and Meta Analysis

Important Questions in Human Genetics

human genetics 의 핵심적인 목표는 common complex disease의 유전적 위험 요소를 찾는것. 여러 기술과 study design이 있는데 그중 하나가 GWAS.

유전적 위험 요소를 찾는 GWAS의 적용사례 중 하나가 age-related macular degeneration (AMD) 의 원인이 되는 Complement Factor H gene을 찾은 것

GWAS를 통한 personalized medicine 분야의 적용도 또다른 human genetics의 목표라 할 수 있음

GWAS를 통한 항응고제인 wafarin 복용량 결정이 한 예

Concetps Underlying the Study Design

가장 일반적인 SNP을 이용함. SNP 은 일반적으로 MAF (minor allele frequency) 가 높은 single base substitution 을 뜻함
rare disorder 의 경우 특정 소수 혹은 단일의 유전자에 의한 것이 많기 때문에 몇몇의 가계도를 분석하는 linkage analysis를 통해 genetic risk factor 가 잘찾아짐. 하지만 common disease의 경우 linkage analysis 가 효과가 없었음
common disease는 다르게 접근해야 한다는 생각과 common disease의 원인 유전자가 몇몇 common variant (MAF가 높은 SNP) 이라는 발견과 맞물려 common disease의 원인은 common variant 라는 CD/CV (common disease / common variant) 가정이 성립됨. 이를 바탕으로 하는 것이 GWAS

CD/ CV 에 서 분파된 하나의 생각은 common variant가 disease에 영향을 주기 때문에 그 영향의 크기는 상대적으로(rare variant to rare disease에 비해) 적을 것이다(=low penetrance)
common variant가 low penentrance이지만 질병이 유전된기때문에 multiple SNP이 원인이 되는게 아닐까 생각하게 됨.
위 두가지 생각으로 family-based에서 population-based study로 초점이 옮겨가게 됨
SNP의 allele frequency와 그 SNP에 의한 질병의 위험도(effect size)가 중요 요소가 genetic study design의 핵심. 위 그림에서 우측 하단이 GWAS 연구하기 좋은 케이스
The National Human Genome Institute GWAS catalog 에 GWAS 를 통한 disease causal SNP 이 정리 되어 있음

Capturing Common Variation

CD / CV 가설을 제대로 테스트 하기 위해서는 몇가지 체계적 접근이 필요함

Common variant (SNP) 의 파악 필요.

연구해야 할 SNP들이 어떤것이 있는지 또한 genome 상의 위치 의 정보 필요

population 간 SNP의 차이에 대한 이해 필요

population 간에 차이를 고려 하지 않으면 GWAS연구에서 target trait 관련 SNP이 아니라 population 간의 차이가 나는 SNP이 뽑힐 수 있음

SNP간의 correlation 정보 필요

중복된 정보를 제거하기 위해 혹은 효율적인 연구를 위해

위 3가지 목적에서 생긴 것이 The International HapMap Project

1.6 M SNPs
11 human population
LD (linkage disequilbrium) 측정

SNP 이 chromosome의 동일선상에 있을 경우 연관되어 있는 정도를 나타내는 것
african이 generation 이 다른 population에 비해 높기 때문에 LD 영역이 상대적으로 적음
recombination 이 일어나면 두 SNP은 LD가 깨짐, 곧 linkage equilibrium
LD의 지표로 \(D' \) 와 \( r^2\) 를 많이 사용

\(D'\)는 0 ~ 1 사이값을 갖음. 1 이 complete LD를 의미, 0 은 HWE 상태 하에 두 SNP이 독립일 경우.
\[ D' = \left\{\begin{array}{r1} \frac{\pi_{AB}\pi_{ab} - \pi_{Ab}\pi_{aB}}{\mbox{min}(\pi_A\pi_b,\pi_a\pi_B)} & if \pi_{AB}\pi_{ab} - \pi_{Ab}\pi_{aB} > 0 \\ \frac{\pi_{AB}\pi_{ab} - \pi_{Ab}\pi_{aB}}{\mbox{min}(\pi_A\pi_B,\pi_a\pi_b)} & if \pi_{AB}\pi_{ab} - \pi_{Ab}\pi_{aB} < 0 \end{array} \right\} \]
\( r^2\) 은 correlation 식
\[r^2 = \frac{(\pi_{AB}\pi_{ab} - \pi_{Ab}\pi_{aB})^2}{\pi_A\pi_b\pi_a\pi_B} \]
LD 분석을 통해 tagSNP 이 선택되어짐(LD block내 대표 SNP). population마다 LD가 다르기 때문에 tagSNP도 달라짐
이 LD로 인해 GWAS로 뽑힌 결과가 꼭 질병과 direct하게 연관되어 있다는 보장은 없음. 뽑힌 SNP의 LD 관계에 있는 SNP이 질병의 직접적인 원인 SNP 일 수 있음.

Genotyping Technologies

Illumina 와 Affymerix 사의 SNP chip이 많이 사용됨. 요즘은 sequencing으로 많이 함.

Study Design

case control design 과 quantitative design

quantitative design

target trait (혹은 disease)의 지표가 quantitative 함. 곧 양적으로 측정됨
통계적으로 유의한 genetic effect를 파악하기 쉬운 경향이 있음
heart disease의 지표가 될수 있는 HDL, LDL 등의 lipid level이 quantitative trait의 예

case control design

trait가 affected VS unaffected 식으로 이원화 된 경우의 study

Association Test

사실상 GWAS분석이라는 것은 SNP 하나하나를 독립적으로 phenotype과 연관성이 있나 검사하는 것임

quantitative design

GLM(depedent variable를 함수로 변형시켜 linear 하게 만든 것) 또는 ANOVA로 분석

case control design

contingency table method(chi-square test, Fisher's exact test), logistic regression을 사용
logistic regression은 covariates 의 보정을 할수 있어 contingency table 보다 더 많이 쓰임

genotype data를 숫자로 변경하는 "data encoding" 하는 방식 선택도 테스트의 통계적 검정력에 영향이 있음(genotype-based group의 숫자에 따라 자유도 변화등).

allelic VS genotypic

allelic : SNP 의 하나의 allele과 phenotype의 연관성을 봄
genotypic : 한쌍의 allele 을 하나의 값으로 치환함.

dominant, recessive, multiplicative, addictive model이 있음.

sex, age, study site, population substructure등의 covariate 보정필요

population substructure를 고려해야 하는 이유 : 예를 들어 폐암 환자그룹에 특정 population이 많이 있다면 폐암 관련 유전자가 아니라 population specific한 SNP이 뽑힐것임.
STRUCTURE나 ENGENSTART 방법으로 보정 필요. HapMap의 인종별 allele freuncy를 참고하거나 아니면 PCA를 이용.

SNP하나하나에 대한 통계적 분석이기 떄문에 multiple test correction 필요

Bonferroni correction : 모든 SNP이 independent 하다는 가정
FDR (false discover)
permutation testing
genome-wide significance : 특정 population 의 LD의 분포를 바탕으로 독립적인 "effective" genetic region 이 있음을 바탕으로 correction 을 해야하는 test 갯수를 기준으로 p-value threshold를 정함, 유럽인의 경우 7.2e-8

Replication and Meta Analysis

replication : GWAS 결과에서 얻어진 SNP을 검증하는 실험
meta analysis : 여러 study를 합쳐서 분석하는 방법

* 위 내용은 http://www.ncbi.nlm.nih.gov/pubmed/23300413 과 http://bioinformatics.org.au/ws09/presentations/ 의 day3 jstankovich의 pdf를 바탕으로 함

Throw a stone at me

Tuesday, January 27, 2015

GWAS 2

1 comment: