아.. 난 metagenome 논문 보고 싶었는데.. 급하게 exome capture kit 비교 했던거 정리하란다. 해야지. 목표는 단순하다. 3가지의 exome capture kit의 coverage를 비교하는 것. 결코 이 표에 대한 accuracy는 보증하지 않는다. confidential 한 문제도 있고 해서리..
하려는 걸 단순화 해보자.
exome capture kit들을 (SeqCap EZ Human Exome Library v2.0, SureSelect , TruSeq Exome Enrichment Kit )의 genome coverage를 비교하자. exome capture kit이니까 특히 exon 부분의 coverage를 유념해서 본다. 그럼 exome region의 definition은 뭘로 할거냐. 여러가지가 있겠지만 refseq과 ccds로 한다.
<결과>
%이 표에서 단순 coverage는 probe design position 과 exon의 position 만 단순하게 비교. 그렇기 때문에 한 probe가 genome 상의 한 위치에서 디자인 됐지만 똑같은 시퀀스가 genome 상의 다른 위치에 존재할 때 원리적으로는 다른 곳도 커버하는 것이지만 그것까지 카운트 하지 않음.
<출처 >
1.SeqCap EZ Human Exome Library v2.0 : Roche 홈피에 오픈
2.SureSelect : 이는 agilent errary인가에 오픈되어 있는걸로 알고 있는데 아직 확실치 않다.
3.TruSeq Exome Enrichment Kit : 이는 web에 오픈되지 않음.
4.exome region : UCSC의 table에서 가져옴.
< 이번 작업을 하면서 알게 된것 혹의 주의 할점 >
1.bed 파일과 UCSC의 데이터의 모든 좌표의 start position은 0-based고 end position은 아니다.
2.refseq과 ccds의 특정 gene들에 대한 record가 여러번 나오는데, 다시 말하면 동일 유전자가 genome 상의 서로 다른 위치에 존재 할수 있기 때문에 같은 gene accession id 를 갖는 record가 있을 수 있다(ccds의 경우 23개, refseq의 경우 2991개).
그런데 하나 이상한건.. refseq. 동일한 gene acc가 여러개의 record가 나온다는 걸 난 동일 유전자가 서로다른 genome상에 위치 하기에 그렇다고 해석했는데.. 그렇다면 동일한 gene acc를 갖는 record들은 최소한 exon 의 갯수와 그 genome size가 동일해야 하는데 refseq의 경우 다수 record를 갖는 gene acc가 2991인데 그중에 613개의 gene acc의 record는 그것이 다르다는 것(ccds의 경우 23개 모두 record가 동일). 이게 어찌된 일인지.. 누가 알려주세요..
No comments:
Post a Comment