Wednesday, May 4, 2011

submission of genome - 5

이번에는 annotation을 내가 만든거 말고 NCBI의 staff이 추천한 PGAAP를 써볼려한다. in-house annotation pipeline의 문제는 naming.. 아.. product랑 gene 이름 참.. 난감하다. 또한 사실 내가 만든 annotation보다 이게 좀 강점이 있다. 거의 비슷하긴 하지만.. 여튼 해서 PGAAP를 어떻게 이용하는지 알아본다.

PGAAP를 쓰려면 (링크는 다음)
1. 일단 그렇듯 먼저 genome project를 등록한다. 결정적으로 locus_tag prefix를 써야하기 때문에 ..
2. 그 담엔 PGAAP submission을 위한 3개의 필수 파일와 추가적인 하나의 파일(옵션), 그러니까 총 4개 파일이 필요하다. 
3. 파일을 만들기 전이나 후에 ncbi로 컨택해야 한다. 그러면 ftp 계정을 만들어 준다. 그 곳으로 파일을 올리고 다시 메일을 보내서 파일을 업로드 했음을 통지해야 한다.


스텝 2에서의 파일의 내용은 아래와 같다.

 *.email, *.fasta, *.template 파일이 필수. 파일 이름은 _. 인데 locus_tag는 1번 단계에서 등록했거 쓰고 under bar 한다음에 날짜.

*.email 에는 NCBI와 contact 할 메일 주소.
*.fasta 에는 sequence가 들어가는데 head에 >gnl|LrgU|Contig01 [organism=Bacterium bacterius 253] [strain=253] [gcode=11] 과 같은 내용이 꼭 들어가야 한다. 그리고 시퀀스는 IUPAC base만 들어갈것.
*.template 파일은 submitter와 그 organization에 대한 정보가 ASN.1 파일 형식으로다가.. 이거 Sequin 프로그램 쓰면 만들수 있단다.


% 주의 사항 %
2번 스텝에서 sequin으로 template 파일을 만드는데 topology 정보를 넣는 옵션을 찾을 수가 없는데 메일을 보내봤더니 답장에 링크와 같이 fasta 파일의 header에다가 넣으란다.
3번 스텝에서 ftp 접속시 linux로 바로 접속해서 파일을 업로드 한다(뻘짓하지 말고 ftp <주소>, mput * 하면 됨).