Throw a stone at me: 05/14/11

Galaxy에 이어 DNAnexus도 알아본다. DNAnexus는 사실 회사라 이용할려면 돈을 내야 한다. 듣기로 데이터 10기가에 얼마.. 뭐 이런식으로 돈을 받는다고 하는거 같은데 정확한 정보는 아니다.

DNAnexus는 Amazon의 cloud computing 을 이용하여 기가 혹은 테라 단위의 large-scale whole-genome sequencing 데이터를 저장 및 분석할 수 있는 web-based platform을 제공하고 있다. 그러니까 사용자는 NGS 데이터와 돈만 있으면 데이터의 저장 및 각종 분석이 web browser에서 클릭으로 수행되어 진다. 편하다. 그럼 어떤 분석들을 제공하냐.. 아래와 같다(아래 내용은 DNAnexus에서 제공하는 whitepaper를 해석한 정도다, white paper는 계정 만들고 나면 conduct new analysis에서 experiment type 저하면 옆에 생긴 link에 있다).

-분석 모듈-

1. RNA-Seq / Transcriptome-based quantification
Annotated transcript의 발현양을 profiling 하기 위한 분석 타입. Annotated trascript의 발현 양을 분석하는 것이기 때문에 novel한 splice site나 novel 3’ end를 찾지는 않는다(이를 위해서는 3번 과 9번 타입의 분석을 이용할 것). Splice junction을 포함한 transcript로 부터의 데이터가 있을 수 있기 때문에 genomic mapping을 사용하지 않고 Refseq이나Ensembl과 같은 데이터베이스에서 얻은 reference transcriptome에 re-align 한다. Reference의 transcript에다가 read를mapping 한 뒤에 RPKM 값을 구함으로서 normalization을 한다. 하나 이상의 trascript를 갖는 유전자의 경우 가장 높은 RPKM 값을 같는 transcript가 report 된다.

2. 3SEQ / Transciptome-based quantification

3SEQ protocol 에 의해 만들어진 library를 분석 할 때 이용하는 분석 타입. 1번 분석 타입과의 차이라면 3SEQ library의 데이터를 이용한다는 것. 일반적인 RNA-seq 은 trascript의 전반에 걸쳐 read가 나오는 반면 3SEQ library는transcript의 3’ end(대부분 3’ UTR) 부분에서 read가 나온다. read 하나가 transcript 하나를 의미. 그렇기에 RPKM을 이용하지 않고 posterior probability를 이용한 weight를 준 read count 값을 이용해서 transcript 양을 측정한다. 샘플 간의 비교를 할 때는 read수로 normalize 하거나 아니면 Z score를 계산해서 비교한다.

3. 3SEQ / Expressed regions in genome

3SEQ protocol에 의해 만들어진 library를 이용하여 reference annotation에는 없는 novel한 유전자나 alternative 3’UTR을 찾을 때 사용하는 분석 타입. Kernel density estimator방법으로 read의 start site의 smoothed profile을 계산한다. Strand 별로 read의 enrichement peak를 찾고 minimum region enrichment, minimum region length, minimum reads의 3가지 filtering 조건으로 peak를 filtering 한다(4번 타입의 분석 방법과 유사하다).

4. ChIP-Seq / Peaks or regions

ChIP 데이터를 분석하기 위한 분석 타입. 이 분석에 있어서 Peak랑 region의 개념 차이가 중요한데, peak는 single genomic site에 의한 것이고 region은 single site에 의한 것이 아닌 좀 더 broad 한 영역에 걸쳐진 것. 그래서 promoter binding protein의 ChIP-seq 데이터의 경우 peak-based analysis를 해야 하고 histone binding protein의 경우 regional analysis를 선택해야 한다.

Kernel Density Smoothing : 일단은 read를 groupping해서 read density mapping을 만든다. 이때 이용하는 방식이KDEs(kernel density estimators). Posterior probability가 90% 가 넘는 mapped read들의 mapping position의 중점을 그read의 위치로 생각해서 genome 상의 position마다의 read 개수를 합한다. 그리고 이 density map을 smoothing 하게 하기 위해 KDE를 사용하는데 K, 즉 kernel은 정규분포를 이용하고 h, breadth는 분석 샘플에 따라 다르게 한다(transcription factor의 경우 30, RNA polymerase의 경우 60, histon biding protein의 경우 100, 숫자가 클수록density가 좀 더 부드러워 진다). Regional analysis의 경우 expected extent of the region을 위한 parameter를 제공해야 하는데 이는 나중에 q-value를 구할 때 이용된다.

Combinding forward and reverse strands : ChIP-seq 자체가 read의 끝을 읽는 것이므로 각 strand의 한쪽 끝에서read가 나오기 때문에 원래 하나의 peak가 생겨야 할 곳에 library의 길이의 반 만큼 shift 되서 양쪽에 두개의 peak가 생긴다. 그래서 이 두 개의 peak를 library 길이 반 만큼 shift 해서 합쳐서 원래의 peak를 추론하게 된다.

Experiment versus Background/Input Samples : peak의 KDE값을 normalize 하기 위해 uniformCoverage를 구한다. 이는peak가 없을 때, 곧 총 mappable read가 고루 genome 상에 분포 하였을때의 depth를 구하고 이를 peak의 KDE 값에 나누어 주어 KDE 값을 normalize한다. 만약 input 데이터(immunoprecipitation을 하지 않은 데이터)가 이용 가능 하다면 sample의 normalized KDE/ input의 normalized KDE 값을 이용한다.

False Discovery Rate :

5. Enriched regions in genome

DNase1 hypersensitivity experiment나 open chromatin의 region을 찾는 실험과 같은 특정 실험에서 생성된 read가enrichment된 region을 찾는데 이용되는 분석 타입. 분석 방법은 strand에 상관없이 하나의 density profile을 만든다는 것을 제외하곤 4번 타입의 ChIP-seq 분석방법과 동일하다. 또한 중요 parameter 3가지는 3번째 타입인 3SEQ / region 과 동일하다.

6. Nucleotide-level variation

Sample의 genome과 reference 간에 차이를 확인하기 위한 분석 타입. 차이라고 하는 것은 SNP, MNP, insertion, deletion을 뜻한다.

7. Cancer nucleotide variation

Cancer 관련 variation을 찾기 위한 분석 방법. 6번 분석 방법과 동일한데 두 개의 sample 그러니까 cancer sample과normal sample의 reference에 대한 variation 분석이 동시에 진행된다.

8.Restriction enzyme quantification

Methyl-seq (methylation-sensitive restriction enzymes을 이용하여 methylated 된 DNA를 잘라서 시퀀싱 한 것)과 같이 reference genome에 대한 restriction site를 찾기 위한 분석 타입

9. Alternative splicing, Exome

알려진 exon의 novel splice junction을 찾기 위한 분석 타입. Novel 한 splicing junction을 찾음과 동시에 expression quantification이 가능하다.

10.Population allele frequency

Multiple population에 걸쳐서 일어나는 variation을 찾기 위한 분석 방법. 6번 타입의 분석 방법을 기초로population의 그룹 간의 비교를 가능하게 해준다

Saturday, May 14, 2011

DNAnexus