Monday, February 13, 2017

OMIM.org


OMIM (Online Medelian Inheritance) 은 의사인 Victor A. McKusick에 의해 1966년에 출판되기 시작한  유전자와 유전적 표현형의 정보와 그 사이의 관계를 정리한 내용의 MIM (Mendelian Inheritance in Man) 이 시초로 1987년 검색 가능하도록 온라인화 된 것이다. 다른 데이터베이스와는 다르게 OMIM 은 전문가들에 의한 생명과학 및 의학 관련 문서의 리뷰를 바탕으로 정보를 제공한다.  

2014년 10월 30일 기준으로 14,831개의 유전자와 7,894의 표현형의 정보를 담고 있다. (https://omim.org/static/omim/data/mim2gene.txt 를 보면 OMIM의 담고 있는 유전자와 phenotype의 갯수를 파악할 수 있다)





OMIM SOURCE MATERIAL
45개 이상의 저널, PubMed의 타겟 검색, Current Contents, 그리고 저자 기반의 전체 논문을 리뷰한다. 유전자와 표현형의 관계에 대한 통찰력을 줄수 있는 인간 생물학, 또는 질병에 대한 임상적 특성, 질병의 발생 원인에 관한 내용의 논문을 우선시 한다.



OMIM STRUCTURE
OMIM의 구조는 아래 그림과 같다. OMIM에서 하나의 유전자에서의 각각의 변이(variant)는 서로 다른 표현형과 연관되어 있을 수 있기 때문에 유전자와 표현형은 분리 시켰다. 그리고 변이 관한 정보는 유전자에 포함되고 임상적 개요나 임상적 묘사는 표현형에 포함시켰다. 
OMIM의 식별자인 MIM number는 6자리 숫자로 되어 있으며 첫번째 숫자가 1,2,6일 경우에는 Autosomal entry, 3으로 시작하면 X-linked entry, 4로 시작하면 Y-linked entry, 5로 시작하면 mitochondrial entry 이며 소숫자리 4자리는 variant 의 식별자로 사용된다.


MIM number (OMIM의 일련 번호) 앞에 붙어 있는 심볼은 아래의 분류에 따라 붙이게 된다.
  • asterisk (*) : 유전자를 의미, mim2gene.txt 파일에서 "gene"이라고 분류되어 있음

  • number symbol (#) : 표현형을 의미. molecular basis known. 하나의 유일한 locus 에 의한 표현형이 아니라 여러 유전자 혹은 하나의 유전자에 의한 것이라도 발병의 원인이 다양한 경우(homozygous or compound heterozygous mutation)의 표현형. mim2gene.txt 파일에서 "phenotype"이라고 분류되어 있음

  • plus sign (+) : 유전자 이자 표현형. mim2gene.txt 에서 "gene / phenotype"으로 분류되어 있음

  • percent sign (%) : 확인된 mendelian phenotype 혹은 phenotypic locus이긴 하나 정확한 기작은 모르는 경우(원인 variant까지는 모르는 경우). no known inheritance pattern or molecular basis.  mim2gene.txt 파일에서 "phenotype"이라고 분류되어 있음

  • No symbol ( ) : mendelian 기반의 phenotype으로 보이나 의심스럽거나 다른 entry와의 구분이 명확해보이지 않은 표현형. mim2gene.txt 파일에서 "predominantly phenotype"이라고 분류되어 있음

  • caret (^) : legacy, 곧 다른 mim number로 바뀐 entry


OMIM의 entry는 gene 과 phenotype로 구분되어 있다.
  • gene 은 위 심볼에서 "*" 과 "+" 를 갖는 entry 이다. 
  • gene은 아래의 것들을 포함한다. 
    • protein-coding gene
    • regulatory elements
    • micro-RNA
    • non-coding RNA
    • 그 밖의 functional element 들이다.

  • phenotype 은 MIM number 앞에 "#", "%", no symbol 의 심볼이 붙는 entry이다. 
  • phenotype은 아래의 것들을 포함한다.
    • single gene mendelian disorder, 
    • phenotypic traits (머리색같은 것들), 
    • susceptibility to drug reaction (와파린에 대한 감수성 같은 것), 
    • reaction to infection (HIV 의 감염에 따른 AIDS의 발병과 같은 것), 
    • germline susceptibility to cancer(BRCA1/2 같은 것),  
    •  recurrent deletion and duplication syndromes



CLINICAL SYNOPSES
clinical synopses (임상 개요)라는 것은 문헌으로 부터 뽑아낸 phenotypic feature를 semi-controlled vocabulary 로 정리한 것. 이는 HPO, SNOMED CT, UMLS 등의 vocabulary DB에 mapping되어 있다.



THE GENE, MORBID AND SYNIOSIS MAPS

  • Gene Map : 유전자의 cytogenetic location
  • Morbid Map : disorder(phenotype)의 cytogenetic location

OMIM에서 gene map table 로 검색을 하게 되면 정보를 유전자, locus와 그것에 관련된 phenotype정보를 테이블 형식으로 나타낸다. 곧 gene, phenotype, 그리고 게놈상의 위치 정보를 정리된 표로 나타낸다. 
이 표에 phenotype column에서 사용되는 기호의 의미는 아래와 같다.
  • brackets [] : non-diseases. 질병이 아님. 실험실에서  비정상적인 테스트 값을 나타내는 유전 변이.
  • braces {} : 천식이나 당뇨병과 같은 multifactorial disorder (다원인 질병, complex disease) 나 감염에 대한 감수성과 관련된 phenotype
  • question mark ? : phenotype과 gene과의 관계가 잠정적인 경우를 의미. comment 부분에 더 자세한 설명이 되어 있다.

또한 표의 pheno map key에 컬럼의 숫자의 의미는 아래와 같다.
  • 1 : The disorder was positioned by mapping of the wild type gene.
  • 2 : The disease phenotype itself was mapped (The disorder was placed on the map by statistical method).
  • 3 : The molecular basis of the disorder is known.
  • 4 : The disorder is a chromosome deletion or duplication syndrome.



REPRESENTATION OF GENE-PHENOTYPE RELATIONSHIPS
AV (Allelic Variant)는 OMIM의 gene-phenotype 관계에서 핵심이 되는 부분으로 아래의 기준으로 선별된 변이들이다.
  • The first mutation to be discovered
  • high population frequency
  • distinctive phenotype
  • historic significance
  • unusual mechanism of mutation
  • unusual pathogenetic mechanism or distinctive inheritance

NGS의 기술로 인해 variant가 급격하게 밝혀짐에 따라 2013년 1월 부터 OMIM은 gene-phenotype 관계가 성립되기 위한 아래의 기준들을 마련하였다.
  • 동일한 유전자의 pathogenic variant를 가진 서로 관계가 없는 다수의 개인들이 존재할 경우
  • multiplex family(질환을 있는 환자의 1 또는 2촌 가족 구성원이 같은 유전 질환을 갖는 가족) 에서 variant가 phenotype에 따라 segregation될 경우
  • variant가 통계적으로 유의한 숫자의 개인에게서 de novo로 발생할 경우

qualified gene-phenotype relationship을  위한 기준은 아래와 같다.
"variant에 대해 오직 하나의 multiplex family 의 경우만 밝혀진 경우" AND "supportive functional data가 있는 경우 (in vitro, in vivo 의 유전자 활성 실험이라던지 모델 생물체에서의 비교할만한 phenotype 데이터가 있다던지)" 



OMIM PHENOTYPIC SERIES
비슷한 phenotype들의 genetic heterogeneity (하나의 phenotype 가 여러 개의 원인, 곧 allelic variant나 non-allelic variant에 의한 것)를 표의 형태로 나타낸 것. 정의가 잘 된 phenotype의 새로운 원인 유전자가 발견되거나 different mapping (genome상의 다른 위치에 관련이 있게 된다거나)이 될 때 series('PS'로 시작되는 identifier)를 생성하여 관련 phenotype을 연결시켜 놓는다. 현재 387 개의  series가 있다.


이 글은 Evernote에서 작성되었습니다. Evernote는 하나의 업무 공간입니다. Evernote를 다운로드하세요.

No comments:

Post a Comment