Wednesday, April 20, 2011

submission of genome - 4

NCBI submit 하면서 Q&A 와 최종 정리


genbank에 있는 genome의 annotation은 정해진 규칙이 없다. 곧 각자 어느정도의 로직을 가지고 annotation을 한것이며 NCBI에서 체크하는 것은 각 sequence의 id가 겹치지 않게끔 체계를 갖게 하는것 뿐이다. 


protein_id 는 locus tag를 따르기를 권유한다. genome submit하고 나면 나중에 protein들에 대한 accession number가 NCBI로 부터 할당되어 통보된다.


<Sequin 프로그램에서 주의 사항>
1. topology 변경
2. codon table 변경
3. protein page랑 annotation page는 넘겨도 된다. 나중에 sequin feature table로 로드하면 됨.
4. gene이 reverse strand 일때 annotation input 파일에서 end position이 start position보다 앞에 나와야 한다.
5.다 만들었다 싶으면 search에서 validate를 실행.


Sequin 프로그램이 오작동 하면 이건 input 파일이 잘못 된거다(내가 겪은 예로 genome 이 circular 인데 orf가 -strand로 genome 끝에서 다시 처음으로 연결된 orf가 있었다. 이때 위의 3번 주의 사항으로다가 아무 생각없이 annotation input file을 만들었더니 계속 오류가 나더라. 결국 다시 genome 셋팅하고 annotation position 다 바꿈).