Tuesday, September 7, 2010

evolution of methylome

dna methylation의 진화에 대한 생각들..

-사전에 생각해야 할점들. 
methylation sequencing을 하게 되면 여러 cell들을 pool (물론 type은 비슷하겠지만)이 모여서 된다는 것. 그렇기때문에 methylation 정도가 read수로 아날로그적으로 나오게 될것. 사실 완벽하게 하나의 cell로만 한다면 0,1 식으로 정확하게 나올테지만.. 이 문제를 어떻게 고려 할 것이냐. 문뜩 떠오르는 생각 종간에 dna 시퀀스를 비교할때 어떻게 보면 종에서 한명의 dna를 가지고 비교한다. 정확하게 비교 할려면 사실 종을 대표할 수 있는 시퀀스를 비교해야 한다. 그렇다면 대표할 수 있는 시퀀스라는 건 무언인가. 쉽게 생각하면 가장 빈도수가 많이 나온 DNA. 즉 이말은 SNP를 제외하면 된다는 것. 이걸 변형 없이 고대로 methylation cell pool의 대표 sequence를 찾는 곳에 대입을 하면 SNP를 자르는 기준을 넣던지 아니면 50%이상의 리드에서 methylation이 나왔을때 이를 1로 표현하는것. 이는 경험론 적으로 접근해야 할것 같다.

genome의 범위? sims의 논문을 보면 intron인가 intergenic 부위만 가지고 phylogeny를 그렸다. 이것으로 충분하다고. 그러면 methylation은 genome의 어떤부위를 가지고 그려야 할까?기본적으로 논문에 나온것처럼 transposon부위와 gene의 부위만 본다. 아니면 그런거에 상관없이 CpG가 있는 부위, 아니면 methylation이 조금이라도 나오는 부위만 모아서

tissue별 methylation이 다른데 이는 어떻게 할것이냐? tissue 별 methylation이 얼마나 다른가? 다른 정도가 심각한가? 곧 profile의 변화가 큰가? 그렇지 않다는걸 보이고 특정 데이터를 선택해서 사용

다른 하나는 methylated dna 를 M이라고 표현한다면, 상보적인 DNA인 G는 어떻게 할것인가. 
가장 기본적으로 떠오르는 생각은 상보적인 G를 표현하는 다른 alphabet을 추가한다. 그렇게 했을 때 profile의 변화는 어떻게 될것인가?... 생각이 필요

-methylated DNA 를 다섯번째 DNA로 생각해서 얻을 수 있는 궁극적인 결과가 무엇인가? 

두가지 가설 DNA methylation을 시퀀스에 넣는다면 
1.phylogeny가 변화가 없다.
2.dna 만 가지고 그린 phylogeny와 다르게 tree가 그려진다.

예상하기론 phylogeny의 트리는 변화가 없을것으로 생각되어진다. 그럼 만약 1번의 경우처럼 나온다면 어떻게 해석을 해야 할것이냐. 우선 methylated DNA 를 넣는다 하더도 A,G,T,C에 의한 종간의 sequence similarity의 영향이 커서 별로 영향이 없어서 그렇다.그럼 여기서 봐야 할점, methylated cytosine의 영향력 정도. random하게 methylation pattern을 넣었을때에 비해 어떠한 효과가 나타나느냐. 최고의 결과는 가까운 것들 (species) 간에 거리가 타이트 해진다. 그러면 methylation을 넣음으로서 확실한 관계도가 나타나는 것이나. 아무래도 예상하기로 tree의 section 별로 어떤 section은 가까워 지고 어떤 section은 멀어지고 하는 경향이 나올것으로 예상.

만약 2번의 상황이 벌어진다면.. 음.. 

-ffp를 disease의 diagnostic classification에 쓸수 잇는가?

-만약 위의 것이 가능하다면 database화도 생각할수 있다. 그러니까 bisulfite-sequencing을 하고 나서 이것이 어떠한 individual 내지는 어떠한 series의 experiment와 유사한가를 찾아주는 database

-development에서의 현상을 species의 evolution과 연관시 킬수 있는가?
이게 맞을 지 모르겠지만 development의 여러단계의 cell의 methylated cytosine의 정보를 넣은 시퀀스를 phylogeny에서 가장 가까이 분기한 종과 비교햇을때... 음..


추가적으로 between species 를 고려 하는게 아니라 아예 human 관련 데이터만 가지고 해본다. developmental stage 별로 나온 데이터, tissue 별 데이터 disease별 데이터릍 통으로 하면 어떤 결과가 나올까? 혹시 cancer의 methylation 패턴이 hESC과 비슷하게 나오지 않을까? 아예 DNA 알파벳을 methylated cytosine과 그 이외의 것 이렇게 두개로만 하면 어떻게 될까?


###################
우선은 human의 bisulfite-seq을 한 데이터를 다 모은다.(카페나 site를 만들어서 공유). 좀더 멀리 보면 SRA나 GEO에서 automatic 하게 bisulfite data를 모으는 방법을 생각한다.

우선은 tissue별 methylation의 차이를 반드시 확인해야 한다. 왜냐면 특정 데이터를 쓸때 그것의 methylation이 영향력이 크게 bias 되어 있다면 그걸 종간 비교로 쓰기에 문제가 있기때문에.

그리고 methylation rate 에 대해서는 다른 논문에서와 같이 5단계로 frequency를 나누고 각 단계별로의 profile을 따로 만든 다음에 각각의 profile에 대한 distance에다가 frequency에 따라 weight를 줘서 sum을 한다.

###################
논문을 보다가 느낀건데 여러군데서 methylation의 영향이 bimodal 하다는 경향이 많이 나타난다. evolution에서도 그러한 경향을 찾을 수 있고 유전자의 expression에 따른 percentile로 나눠서 methylation정도와의 그래프를 그려도 그렇고 promoter부위는 methylation 이 많이 된 반면 exon부분은 오히려 intron보다 methylation이 많이 되어 있는 예가 그러하다. methylation은 expression과 영향이 있다. 또한 분명 위에서의 예와 같이 bimodal한 성향이 있다. 그러면 이걸 구분해 주는 무언가가 있어야 한다. dna 시퀀스에 찾아야 하나 아니면 다른 epigenetic factor (histone modification)과 연관지어 설명을 해야 하나.. 전혀 감이 오지 않는다. 이 또한 좋은 연구 주제가 될것 같다.

##################
histone modification과 methylation이 transcriptional regulation에 작용을 한다고 생각한다. 이게 사실이라면 histone modification을 methylation 처럼 base resolution으로 나타낼수 있다면 이것 역시 시퀀스로 표현이 가능하고 그렇게 된다면 expression을 보지 않고 오히려 histone modification과 methylation이 들어가 잇는 시퀀스를 가지고 diagnostic test가 타당 할수 있겠다.

GSE19418