Tuesday, September 7, 2010

evolution of methylome

dna methylation의 진화에 대한 생각들..

-사전에 생각해야 할점들. 
methylation sequencing을 하게 되면 여러 cell들을 pool (물론 type은 비슷하겠지만)이 모여서 된다는 것. 그렇기때문에 methylation 정도가 read수로 아날로그적으로 나오게 될것. 사실 완벽하게 하나의 cell로만 한다면 0,1 식으로 정확하게 나올테지만.. 이 문제를 어떻게 고려 할 것이냐. 문뜩 떠오르는 생각 종간에 dna 시퀀스를 비교할때 어떻게 보면 종에서 한명의 dna를 가지고 비교한다. 정확하게 비교 할려면 사실 종을 대표할 수 있는 시퀀스를 비교해야 한다. 그렇다면 대표할 수 있는 시퀀스라는 건 무언인가. 쉽게 생각하면 가장 빈도수가 많이 나온 DNA. 즉 이말은 SNP를 제외하면 된다는 것. 이걸 변형 없이 고대로 methylation cell pool의 대표 sequence를 찾는 곳에 대입을 하면 SNP를 자르는 기준을 넣던지 아니면 50%이상의 리드에서 methylation이 나왔을때 이를 1로 표현하는것. 이는 경험론 적으로 접근해야 할것 같다.

genome의 범위? sims의 논문을 보면 intron인가 intergenic 부위만 가지고 phylogeny를 그렸다. 이것으로 충분하다고. 그러면 methylation은 genome의 어떤부위를 가지고 그려야 할까?기본적으로 논문에 나온것처럼 transposon부위와 gene의 부위만 본다. 아니면 그런거에 상관없이 CpG가 있는 부위, 아니면 methylation이 조금이라도 나오는 부위만 모아서

tissue별 methylation이 다른데 이는 어떻게 할것이냐? tissue 별 methylation이 얼마나 다른가? 다른 정도가 심각한가? 곧 profile의 변화가 큰가? 그렇지 않다는걸 보이고 특정 데이터를 선택해서 사용

다른 하나는 methylated dna 를 M이라고 표현한다면, 상보적인 DNA인 G는 어떻게 할것인가. 
가장 기본적으로 떠오르는 생각은 상보적인 G를 표현하는 다른 alphabet을 추가한다. 그렇게 했을 때 profile의 변화는 어떻게 될것인가?... 생각이 필요

-methylated DNA 를 다섯번째 DNA로 생각해서 얻을 수 있는 궁극적인 결과가 무엇인가? 

두가지 가설 DNA methylation을 시퀀스에 넣는다면 
1.phylogeny가 변화가 없다.
2.dna 만 가지고 그린 phylogeny와 다르게 tree가 그려진다.

예상하기론 phylogeny의 트리는 변화가 없을것으로 생각되어진다. 그럼 만약 1번의 경우처럼 나온다면 어떻게 해석을 해야 할것이냐. 우선 methylated DNA 를 넣는다 하더도 A,G,T,C에 의한 종간의 sequence similarity의 영향이 커서 별로 영향이 없어서 그렇다.그럼 여기서 봐야 할점, methylated cytosine의 영향력 정도. random하게 methylation pattern을 넣었을때에 비해 어떠한 효과가 나타나느냐. 최고의 결과는 가까운 것들 (species) 간에 거리가 타이트 해진다. 그러면 methylation을 넣음으로서 확실한 관계도가 나타나는 것이나. 아무래도 예상하기로 tree의 section 별로 어떤 section은 가까워 지고 어떤 section은 멀어지고 하는 경향이 나올것으로 예상.

만약 2번의 상황이 벌어진다면.. 음.. 

-ffp를 disease의 diagnostic classification에 쓸수 잇는가?

-만약 위의 것이 가능하다면 database화도 생각할수 있다. 그러니까 bisulfite-sequencing을 하고 나서 이것이 어떠한 individual 내지는 어떠한 series의 experiment와 유사한가를 찾아주는 database

-development에서의 현상을 species의 evolution과 연관시 킬수 있는가?
이게 맞을 지 모르겠지만 development의 여러단계의 cell의 methylated cytosine의 정보를 넣은 시퀀스를 phylogeny에서 가장 가까이 분기한 종과 비교햇을때... 음..


추가적으로 between species 를 고려 하는게 아니라 아예 human 관련 데이터만 가지고 해본다. developmental stage 별로 나온 데이터, tissue 별 데이터 disease별 데이터릍 통으로 하면 어떤 결과가 나올까? 혹시 cancer의 methylation 패턴이 hESC과 비슷하게 나오지 않을까? 아예 DNA 알파벳을 methylated cytosine과 그 이외의 것 이렇게 두개로만 하면 어떻게 될까?


###################
우선은 human의 bisulfite-seq을 한 데이터를 다 모은다.(카페나 site를 만들어서 공유). 좀더 멀리 보면 SRA나 GEO에서 automatic 하게 bisulfite data를 모으는 방법을 생각한다.

우선은 tissue별 methylation의 차이를 반드시 확인해야 한다. 왜냐면 특정 데이터를 쓸때 그것의 methylation이 영향력이 크게 bias 되어 있다면 그걸 종간 비교로 쓰기에 문제가 있기때문에.

그리고 methylation rate 에 대해서는 다른 논문에서와 같이 5단계로 frequency를 나누고 각 단계별로의 profile을 따로 만든 다음에 각각의 profile에 대한 distance에다가 frequency에 따라 weight를 줘서 sum을 한다.

###################
논문을 보다가 느낀건데 여러군데서 methylation의 영향이 bimodal 하다는 경향이 많이 나타난다. evolution에서도 그러한 경향을 찾을 수 있고 유전자의 expression에 따른 percentile로 나눠서 methylation정도와의 그래프를 그려도 그렇고 promoter부위는 methylation 이 많이 된 반면 exon부분은 오히려 intron보다 methylation이 많이 되어 있는 예가 그러하다. methylation은 expression과 영향이 있다. 또한 분명 위에서의 예와 같이 bimodal한 성향이 있다. 그러면 이걸 구분해 주는 무언가가 있어야 한다. dna 시퀀스에 찾아야 하나 아니면 다른 epigenetic factor (histone modification)과 연관지어 설명을 해야 하나.. 전혀 감이 오지 않는다. 이 또한 좋은 연구 주제가 될것 같다.

##################
histone modification과 methylation이 transcriptional regulation에 작용을 한다고 생각한다. 이게 사실이라면 histone modification을 methylation 처럼 base resolution으로 나타낼수 있다면 이것 역시 시퀀스로 표현이 가능하고 그렇게 된다면 expression을 보지 않고 오히려 histone modification과 methylation이 들어가 잇는 시퀀스를 가지고 diagnostic test가 타당 할수 있겠다.

GSE19418

Monday, September 6, 2010

essential utility (cvs)

아무래도 cvs를 이용하게 될지모른다는 기분좋은 예감이 든다. 그래서 cvs 에 대해 정리하려 한다.


CVS

-CVS에 의한 프로젝트 파일 버전 관리-

1.CVS 소개

CVS (Concurrent Versions System)는 여러사람이 공동으로 프로젝트를 수행할 때 발생할 수 있는 소스 충돌이나 소스 동기화 문제들을 해결하기 위해서 나왔다. 이는 RCS의 확장에 의해 만들어 졌다.


2.CVS 서버 설정

cvs -v 명령을 내려보면 CVS가 설치되어 있는지 알 수 있다.
없으면 설치하고
프로젝트에서 사용할 프로젝트 파일들을 보관하는 저장소 디렉토리를 생성한다.
mkdir /home/cvs
그뒤 저장소 디렉토리를 초기화한다(초기화란 저장소 디렉토리에 CVS에서 사용하는 제어 파일들이 들어 있는 디렉토리를 생성하는 일).
cvs -d /home/cvs init
cvs 유저를 등록하고 저장소 디렉토리에 대한 접근 권한을 설정한다.
adduser cvs ; chown root.cvs /home/cvs -R ; chmod 770 /home/cvs -R

정리하려 했으나 내가 하려는 것과 완전 똑같은(같은 책을 참조하나 보다) 블로그를 발견하고 링크를 걸고 여기서 정리하기로 한다.
http://blog.naver.com/woorara7?Redirect=Log&logNo=20012018776

high-throughput sequencing data submission to NCBI (GEO, SRA)

The most papers upload their data into GEO or SRA. Therefore, understanding of format which is supported in those databases is needed. Here are links for the format.

soft file format :
http://www.ncbi.nlm.nih.gov/geo/info/soft-seq.html

submitting sequencing data :
http://www.ncbi.nlm.nih.gov/geo/info/seq.html


Why certain NGS data are in SRA database, while some are in GEO :  Whole genome sequencing, metagenome, survey sequencing data and original short read format sequence files belong to SRA database.


SOFT (Simple Omnibus Format in Text) file format is just instruction about submission of data. Actual real data (fastq) can be contained or not.

Tip for checking of inclusion of
1.raw data : if SOFT file contain raw data, there should be "!Sample_raw_file...".
2. processed data : "!Sample_supplementary_file...".


Friday, September 3, 2010

NP-hard

bioinformatics 논문을 보다보면 종종 NP-hard 라는 용어를 많이 본다. 구글을 뒤져보라. 뒤질거 같다.ㅋ
다음 링크가 참 친절하다.
http://blog.naver.com/dekarno?Redirect=Log&logNo=140019592031

Thursday, September 2, 2010

cloud computing, grid computing... parallelism

nature genetics reveiw 에 'computational solutions to large-scale data management and analysis'라는 제목으로 논문이 나왔다. 이는 삼세대 시퀀싱 기계가 나옴에 따라 엄청난 양의 데이터와 high-dimensional 데이터를 어떻게 핸들링하는냐의 문제를 computational한 초점에서 바라본 논문이다.
여기서 내용을 간단하게 요약하자면 자신이 가지고 있는 데이터의 특성을 잘 파악하여 cluster computing, cloud computing, grid computing, heterogeneous computing등의 플랫폼을 선택하여 알고리즘의 병렬화를 통해서 해결하라는 거다.

그리드던 클라우드던 클러스터던 거기서 거기인거 같고 구분이 안되서 참고자료를 링크한다.
특히 그리드랑 클라우드 차이가 뭔지.. 아직도.. 잘.. ㅋ

http://blog.naver.com/happypcb?Redirect=Log&logNo=90077847232

아래는 병렬 컴퓨팅의 간략한 소개이다(메모리 접근 방식에 따른 분류)
http://blog.naver.com/belief_jesus?Redirect=Log&logNo=120102897585
간략하게 요약하면 메모리 접근 방식에 따라

Sunday, August 29, 2010

Genome-Wide Evolutionary Analysis of Eukaryotic DNA Methylation

I had an idea about evolution of methylation in these days from the fact that methylation pattern is conserved in othologous region between species. I decided to dig about this concept, so I did googling first. I had scarcely searched the google when the title of this post was appeared. 



This paper which is published in SCIENCE.  


Here is the PPT.



this link is also good to read.
http://blog.lib.umn.edu/denis036/thisweekinevolution/2010/05/evolution_of_dna_methylation_i.html

(열혈강의) 오용철의 데이터베이스 모델링

학부때 unigene 데이터를 다루면서 sql을 공부하고 이용해봤지만 데이터베이스라는 과목의 체계적인 컨셉이 부족하다고 생각하여 본 책. 물론 아직 뒤 두과 정도 (상향식 설계, 통합적 설계) 남았지만 미리 리뷰를 해보련다.

이책의 느낌 마치 내가 대학교 2학년때 컴퓨터 학부에 가서 자료구조를 들었던 느낌? 이랄까.. 다 읽어 보면 나름 편안하게 설명하고 있다는걸 느끼게 되지만 도입부의 설명의 적극성과 친근성이 떨어져서 아무것도 모르는 초짜에겐 아마도 지루함과 "왜 "라는 의문이 들 책이다.

나와 같은 데이터베이스를 아주 약간 알지만 정리를 해보고 싶은 사람에겐 쉽게 읽을 수 있는 아주 편한 책이나 정말 아무것도 모르는 이에게는 비추인 책이다.

간단하게 내용을 정리하자면 오른쪽 그림과 같다.
1.데이터베이스화 하고자 하는 세계를 데이터수집과 분석을 거쳐 정리하고
2.이를 먼저 개념적 설계과정을 거쳐 ER model (diagram)을 만든다.
3.그 뒤 논리적 설계과정(하향식, 상향식,통합식) 구현 데이터 모델을 만든다(이 책에서는 관계형 모델을 설명한다).
4.마지막으로 물리적 설계과정을 거쳐 실질적인 물리적 모델을 만든다.

각 단계별 설명과 실직적인 예가 있으며 책에서 담고 있는 내가 몰랐던 중요한 키워드를 꼽자면 정규화, 인덱스, PL/SQL, 트리거, 커서 등이다.

마지막으로 아쉬운 점을 꼽자면 figure에 오타가  많고 각 단계별 schema(개념적, 논리적, 물리적 스키마)에서 같은 개념 대한 서로 다른 용어를 혼란스럽게 사용한다는 점을 들 수 있겟다.