Throw a stone at me: Ancestry Composition in 23andMe

23andMe에서 Ancestry Composition 이라는 자신의 혈통적 뿌리가 어디서 유래 했는가를 알수 있는 서비스를 제공한다. 이는 아마도 23andMe 라는 회사가 기반을 둔 미국의 다인종 혼혈 상황에서 자신의 뿌리에 대한 사람들의 관심에 대한 결과가 아닐까 한다.

0. Contents

1. Basics

2. Wrinkle #1:  사람들은 일반적으로 여러 인종 혹은 혈통(popuy)을 조상으로 갖는다 (특히나 미국의 경우).

3. Wrinkle #2: 어떤 DNA 혹은 chromosome이 엄마, 아빠에서 온건지 알수 없다.

4. Ancestry Composition Overview

5. Prep 1: The DataSet

6. Prep 2: Population selection

7. Step 1: Phasing

8. Step 2: Window Classification

9. Step 3: Smoothing

10. Step 4: Calibration

11. Step 5: Aggregation & Reporting

12. Using Close Family Members

13. Testing & Validation

14. Ancestry Composition's Future

Basics

특정 DNA marker와 지리학적 위치의 연관성의 정보를 가지고 조상을 추측하는 것.

예를 들면 mtDNA haplogroup 의 한 종류인 haplogroup H 는 유럽에서 많이 발견되고 호주나 미국에서는 거의 발견되지 않는다. 만약 누군가 haplogroup H에 관련된 DNA marker를 가지고 있다면 그 사람은 유럽인일 확률이 크고 native american 확률은 작게 된다. 이렇듯 여러 DNA marker를 이용하여 혈통을 추측하는 것이다.

Wrinkle #1: 사람들은 일반적으로 여러 인종 혹은 혈통을 조상으로 갖는다

문제는 어떤이는 조상이 여러 위치에서 온 혹은 여러 인종이 뒤섞여 있을 수 있다는 것.
곧 admixture (the genetic mixing together of previously-separate populations), 원래는 유전적으로 분리가 되어 있던 집단이 서로 섞이는 것. 유럽인의 경우 조상이 유럽전역에 걸쳐 뒤섞인 경우.

Wrinkle #2: 어떤 DNA 혹은 chromosome이 엄마, 아빠에서 온건지 알수 없다.

chip 을 통한 genotyping은 unphased 상태, 곧 서로 다른 locus의 genotype이 같은 chromosome에서 왔지는 알 수 없는 상태이다. phased 상태의 SNP이 정보가 더 많다.

Ancestry Composition Overview

admixture and unknown phase 의 genotype 정보에서 혈통을 추측하기 위해

조상을 찾고자 하는 snp chip을 phasing을 통해 haplotype을 추정한다.
다음에 각 chromosome 을 특정 window 사이즈별로 겹치지 않게 구획을 나눠 reference genome과 비교하여 각 window 별 조상을 찾는다. 각 window는 여러 조상의 genotype이 섞인 것이 아니라 하나의 조상으로 부터 유래한다는 가정하이다.
"smoothing"을 통한 phasing correction
결과의 정확성을 위한 calibrate result

Prep 1: The DataSet

10,000여 명의 데이터

23andMe 자체 데이터 : 조부모, 부모의 출생지가 같은 회원의 정보
public resource : Human Genome Diversity Project, HapMap, 1000 Genomes project

reference 중 너무 genetic relationship이 가까운 개체는 제외. outlier로 판단되는 개체도 제외. 대략 10% 정보 제거됨

Prep 2: Population selection

위는 유럽인들의 유전정보만을 가지고 PCA를 그린 결과이다. 왼쪽 상단의 Finns 들의 경우 명확하게 isolation되는 것을 확인할 수 있다. 그러나 역사적으로 집단이 섞인 경우가 있어서 구분이 뚜렷하지 않은 경우도 있다. 이렇듯 구분이 되는 reference population 을 선택하였다.

Step1: Phasing

BEAGLE 프로그램을 customized 해서 Finch라는 프로그램을 개발, 이 프로그램을 통해서 haplotype phasing을 한다. BEAGLE은 phasing을 할 모든 데이터가 프로그램을 돌릴 때 갖춰져야 한다는 가정하에 있는데 추가적으로 고객이 발생하는 상황에서는 이 가정이 여의치 않기 때문에 이를 효과적으로 해결하기 위해 Finch를 개발.

Step2: Window Classification

phasing을 마친 후에 chromosome 을 100개의 marker 사이즈의 window로 쪼갠다. 보통 chromosome당 5,000 ~ 40,000 개의 marker가 존재. marker DNA 서열을 input으로 reference population에 의해 training 된 SVM 을 이용하여 각 window 의 ancestry를 결정한다.

Step3: Smoothing

SVM을 통해 ancestry 가 결정된 window의 정보는 first draft 이다. 여기에는 2가지의 에러가 포함 될 수 있다.

window에 ancestry를 할당할 때 비슷한 정도의 ancestry candidate가 있을 경우 잘못된 ancestry를 할당하는 에러
phasing step에서 haplotyping의 에러

위 두가지의 오류를 HMM (Hidden Markov Model)을 통해 수정하는 단계를 smoothing이라고 한다.

예를 들어 X, Y, Z 3개의 집단이 있고 SVM을 통해 아래와 같이 각 chromosome 의 window 별 ancestry 가 할당되었다고 할 때

parent1 의 뒤에서 두번째 window가 X라고 되어 있는데 이는 Z와 유사한 정도의 ancestry확률을 갖고 있어서 SVM이 잘못된 판단을 한 것일 수 있다. 또한 phasing step에서의 에러로 parent1 의 첫 4개 윈도우 X-X-Y-X는 parent 2의 Z-Z-Z-Z와 바뀌었을 확률이 높다.

이를 Hidden Markov Model 을 이용해서 correction을 하면 아래와 같게 된다.

위의 예는 smoothing을 설명하기 위해 단순화 한것이고 사실은 아래와 같이 각 window에 대해 모든 집단의 확률을 구한다.

위 그림은 African-American customer의 chromosome2에 대한 smoothing의 결과이다. 아래쪽 패널을 보게 되면 왼쪽부터 핑크-그린-핑크 (african-american-african)가 나오는 걸 확인할 수 있다.

Step4: Calibration

위 단계에서 나온 그래프가 옳은지 우리는 어떻게 알 수 있을까? 시뮬레이션을 통해 systematic bias가 있는지 알아보고 이 systematic bias를 보정하는 recalibration단계를 추가한다.

Step5: Aggregation & Reporting

threshold를 정해서 그 threshold를 넘는 ancestry의 사이즈 에 비례해서 최종적으로 ancestry를 report하게 된다. 예를 들면 위 그림에서 오른쪽 부위의 green segment은 비록 이 region은 다른 집단에서 유래할 확률( orange segment :east asia)이 있더라도 70%의 threshold를 넘겼기 때문에 너비에 비례한 만큼 (전체 chromosome에서 0.26 % 차지) native americas 의 확률에 더하게 된다. 좌측 중간의 blue segment의 경우 threshold를 넘긴 특정 european population이 없기 때문에 report를 하지 않게 된다. 이런 경우에는 각 집단의 확률의 합이 threshold를 넘길 경우 이 집단들을 포괄하는 group 인 Broadly Northern European 으로 report를 하게 된다.

Using Close Family Members

부모나 자식의 데이터가 있다면 Finch를 통한 phasing 이 매우 정확해진다. 이는 higher-resolution result로 연결된다. 자식보다는 한명의 부모의 데이터가, 한명의 부모의 데이터보다는 두명의 부모 데이터가 있는 것이 조금 더 정확해진다.

13. Testing & Validation

14. Ancestry Composition's Future

* 위 내용은
https://www.23andme.com/ancestry_composition_guide/
http://blog.23andme.com/wp-content/uploads/2012/11/20121027_ancestry_painting_methods_poster.pdf
를 참조함

Throw a stone at me

Tuesday, March 3, 2015

Ancestry Composition in 23andMe