cufflinks의 사용법(단순 command 및 약간의 tip) 을 정리한다.
다음은 단지 cufflinks의 manual을 정리한 것이다.
설명 format은
숫자.명령어 (예: 1.tophat -r 50 ref read1.fastq read2.fastq) 다음 output 및 그 밖의 사항 설명
1.bowtie-build ref_seq.fa ref_seq
이는 tophat이 mapping을 할때 bowtie를 사용하는데 bowtie의 reference에 대한 index 파일을 생성한다. bowtie manual에 따르면 4개의 파일이 생성되야 하는데 실제론 6개의 파일이 생성된다(정확한 이유는 모르겠음).
2.tophat -r 50 -o tophat_result ref_seq read1.fq read2.fq
이를 실행하면 tophat_result 폴더에 tophat의 결과파일이 생성된다. accepted_hits.bam 파일이 read를 mapping 한 결과 파일이며 이것들을 정리한 것이 deletions.bed, insertion.bed, junction.bed. junction.bed 파일을 보자면 마지막 두 column이 junction의 size와 시작점을 나타낸다. junction의 시작점은 island의 시작점(그러니까 read가 overlap된 bundle)이 아니라 junction을 포함한 read의 시작점이다.
2.1.samtools index accepted_hits.bam
read가 align된 것을 samtools의 tview로 보기 위해서는 bam 파일을 indexing 해야 한다.
2.2.samtools tview accepted_hit.bam ref_seq
tview 통해 read의 alignment를 확인할 수 있다.
3.cufflinks -o cufflink_result tophat_result/accepted_hits.bam
결과는 cufflink_result 폴더 안에 transcripts.gtf 라는 파일이 생성. gtf1 파일 포멧은 다음 링크에 설명되어 있다.
3.1.cuffmerge -s ref_seq.fa assemblies.txt
위 명령어를 실행하면 merged_asm/merged.gtf 생성. 원래 cufflinks manual에 보면 human의 여러 tissue의 샘플로 위의 3번까지 진행하는데 각 tissue 별로 3번까지 진행해서 나온결과를 merge 한다.
3.2.cuffcompare -s ref_seq.fa -r known_annotation.gtf merged_asm/merged.gtf
이는 이미 알려진 annotation 데이터(여기서는 known_annotation.gtf) 파일과 비교해서 novel한 gene이나 isoform을 찾는다.
위에까지는 그냥 그냥 하는거고 differentially expressed and regulated gene을 찾는 방법 2가지를 workflow를 설명한다. 하나는 novel 한 gene을 안찾고 그냥 기존의 annotation file로다가 찾겠다는 거고, 다른 하나는 novel한 gene까지 찾아가겠다는걸로 후자 역시 기존의 annotation file 이용가능하다. 이건 그냥 cufflinks manual 보자
---------------------------reference-----------------------------
1.gff 파일 : gff 파일은 general feature format의 약자로 여러가지 버젼이 있는데 그중 cufflnks에서는 gtf2(general trascfer format)랑 gff3 만 인식한단다.
-gtf2 : column은 tab으로 분리 되어야 함
No comments:
Post a Comment