0. Contents
1. Basics 2. Wrinkle #1: 사람들은 일반적으로 여러 인종 혹은 혈통(popuy)을 조상으로 갖는다 (특히나 미국의 경우). 3. Wrinkle #2: 어떤 DNA 혹은 chromosome이 엄마, 아빠에서 온건지 알수 없다. 4. Ancestry Composition Overview 5. Prep 1: The DataSet 6. Prep 2: Population selection 7. Step 1: Phasing 8. Step 2: Window Classification 9. Step 3: Smoothing 10. Step 4: Calibration 11. Step 5: Aggregation & Reporting 12. Using Close Family Members 13. Testing & Validation 14. Ancestry Composition's Future
Basics
특정 DNA marker와 지리학적 위치의 연관성의 정보를 가지고 조상을 추측하는 것.
예를 들면 mtDNA haplogroup 의 한 종류인 haplogroup H 는 유럽에서 많이 발견되고 호주나 미국에서는 거의 발견되지 않는다. 만약 누군가 haplogroup H에 관련된 DNA marker를 가지고 있다면 그 사람은 유럽인일 확률이 크고 native american 확률은 작게 된다. 이렇듯 여러 DNA marker를 이용하여 혈통을 추측하는 것이다.
Wrinkle #1: 사람들은 일반적으로 여러 인종 혹은 혈통을 조상으로 갖는다
문제는 어떤이는 조상이 여러 위치에서 온 혹은 여러 인종이 뒤섞여 있을 수 있다는 것.곧 admixture (the genetic mixing together of previously-separate populations), 원래는 유전적으로 분리가 되어 있던 집단이 서로 섞이는 것. 유럽인의 경우 조상이 유럽전역에 걸쳐 뒤섞인 경우.
Wrinkle #2: 어떤 DNA 혹은 chromosome이 엄마, 아빠에서 온건지 알수 없다.
chip 을 통한 genotyping은 unphased 상태, 곧 서로 다른 locus의 genotype이 같은 chromosome에서 왔지는 알 수 없는 상태이다. phased 상태의 SNP이 정보가 더 많다.Ancestry Composition Overview
admixture and unknown phase 의 genotype 정보에서 혈통을 추측하기 위해- 조상을 찾고자 하는 snp chip을 phasing을 통해 haplotype을 추정한다.
- 다음에 각 chromosome 을 특정 window 사이즈별로 겹치지 않게 구획을 나눠 reference genome과 비교하여 각 window 별 조상을 찾는다. 각 window는 여러 조상의 genotype이 섞인 것이 아니라 하나의 조상으로 부터 유래한다는 가정하이다.
- "smoothing"을 통한 phasing correction
- 결과의 정확성을 위한 calibrate result
Prep 1: The DataSet
10,000여 명의 데이터- 23andMe 자체 데이터 : 조부모, 부모의 출생지가 같은 회원의 정보
- public resource : Human Genome Diversity Project, HapMap, 1000 Genomes project
reference 중 너무 genetic relationship이 가까운 개체는 제외. outlier로 판단되는 개체도 제외. 대략 10% 정보 제거됨
Prep 2: Population selection
위는 유럽인들의 유전정보만을 가지고 PCA를 그린 결과이다. 왼쪽 상단의 Finns 들의 경우 명확하게 isolation되는 것을 확인할 수 있다. 그러나 역사적으로 집단이 섞인 경우가 있어서 구분이 뚜렷하지 않은 경우도 있다. 이렇듯 구분이 되는 reference population 을 선택하였다.Step1: Phasing
BEAGLE 프로그램을 customized 해서 Finch라는 프로그램을 개발, 이 프로그램을 통해서 haplotype phasing을 한다. BEAGLE은 phasing을 할 모든 데이터가 프로그램을 돌릴 때 갖춰져야 한다는 가정하에 있는데 추가적으로 고객이 발생하는 상황에서는 이 가정이 여의치 않기 때문에 이를 효과적으로 해결하기 위해 Finch를 개발.Step2: Window Classification
phasing을 마친 후에 chromosome 을 100개의 marker 사이즈의 window로 쪼갠다. 보통 chromosome당 5,000 ~ 40,000 개의 marker가 존재. marker DNA 서열을 input으로 reference population에 의해 training 된 SVM 을 이용하여 각 window 의 ancestry를 결정한다.Step3: Smoothing
SVM을 통해 ancestry 가 결정된 window의 정보는 first draft 이다. 여기에는 2가지의 에러가 포함 될 수 있다.- window에 ancestry를 할당할 때 비슷한 정도의 ancestry candidate가 있을 경우 잘못된 ancestry를 할당하는 에러
- phasing step에서 haplotyping의 에러
위 두가지의 오류를 HMM (Hidden Markov Model)을 통해 수정하는 단계를 smoothing이라고 한다.
예를 들어 X, Y, Z 3개의 집단이 있고 SVM을 통해 아래와 같이 각 chromosome 의 window 별 ancestry 가 할당되었다고 할 때
parent1 의 뒤에서 두번째 window가 X라고 되어 있는데 이는 Z와 유사한 정도의 ancestry확률을 갖고 있어서 SVM이 잘못된 판단을 한 것일 수 있다. 또한 phasing step에서의 에러로 parent1 의 첫 4개 윈도우 X-X-Y-X는 parent 2의 Z-Z-Z-Z와 바뀌었을 확률이 높다.
이를 Hidden Markov Model 을 이용해서 correction을 하면 아래와 같게 된다.
위의 예는 smoothing을 설명하기 위해 단순화 한것이고 사실은 아래와 같이 각 window에 대해 모든 집단의 확률을 구한다.
위 그림은 African-American customer의 chromosome2에 대한 smoothing의 결과이다. 아래쪽 패널을 보게 되면 왼쪽부터 핑크-그린-핑크 (african-american-african)가 나오는 걸 확인할 수 있다.
Step4: Calibration
위 단계에서 나온 그래프가 옳은지 우리는 어떻게 알 수 있을까? 시뮬레이션을 통해 systematic bias가 있는지 알아보고 이 systematic bias를 보정하는 recalibration단계를 추가한다.Step5: Aggregation & Reporting
threshold를 정해서 그 threshold를 넘는 ancestry의 사이즈 에 비례해서 최종적으로 ancestry를 report하게 된다. 예를 들면 위 그림에서 오른쪽 부위의 green segment은 비록 이 region은 다른 집단에서 유래할 확률( orange segment :east asia)이 있더라도 70%의 threshold를 넘겼기 때문에 너비에 비례한 만큼 (전체 chromosome에서 0.26 % 차지) native americas 의 확률에 더하게 된다. 좌측 중간의 blue segment의 경우 threshold를 넘긴 특정 european population이 없기 때문에 report를 하지 않게 된다. 이런 경우에는 각 집단의 확률의 합이 threshold를 넘길 경우 이 집단들을 포괄하는 group 인 Broadly Northern European 으로 report를 하게 된다.
Using Close Family Members
부모나 자식의 데이터가 있다면 Finch를 통한 phasing 이 매우 정확해진다. 이는 higher-resolution result로 연결된다. 자식보다는 한명의 부모의 데이터가, 한명의 부모의 데이터보다는 두명의 부모 데이터가 있는 것이 조금 더 정확해진다.13. Testing & Validation
14. Ancestry Composition's Future
* 위 내용은
https://www.23andme.com/ancestry_composition_guide/
http://blog.23andme.com/wp-content/uploads/2012/11/20121027_ancestry_painting_methods_poster.pdf
를 참조함