Tuesday, June 14, 2016

chapter 2: Measures of Disease Occurrence

아래 내용은 Staistics for Epidemiology 의 chapter 2 의 내용의 요약이다.


1. Prevalence and incidence
point prevalence 란 질병에 걸릴 가능성이 있는 사람들 중에 특정 시점에서 질병에 걸려 있는 사람의 비율을 뜻한다. 

interval prevalance 란 질병에 걸릴 가능성이 있는 사람들 중에 특정 시간 구간내에 질병에 걸려 있는 사람의 비율을 뜻한다.

incidence proportion (=cumulative incidence proportion) 질병에 걸릴 가능성이 있는 사람들 중에 특정 시간의 구간 안에서 질병 걸린 사람의 비율을 뜻한다. 그렇기 때문에 prevalance와는 달리 조사 시점 시작 전에 질병에 걸려 있던 사람은 제외한다. 

집단의 크기가 100명이라는 가정아래 figure 1 에서 특정 시점 t에서의 point prevalence는 4/100 혹은 4/99 이다. 4/99 인 이유는 case4를 질병에 걸릴 가능성이 있느냐의 여부에 따른다(특정 질병의 경우 질병이 걸리고 회복이 되면 질병에 면역력이 생겨서 다시 걸릴 가능성이 없어진다. 이럴 경우는 계산 대상에서 빠지게 된다). [t0, t1] 시간 구간의 incidence proportion은 4/98 이다 (case4 와 case1은 조사 시작이 되기 전에 이미 질병에 걸려 있었기 때문에 계산에서 제외된다).

incidence와 prevalence의 차이는 incidence는 특정 조사 시간 내에서 병이 시작된 사람들만 포함을 한다는 것이다.

prevalence 는 질병의 발생뿐만 아니라 질병의 지속 시간(duration) 에 의존적이기 때문에 사용에 문제가 있을 수 있다. 

초기 사망이 많은 CHD (coronary heart disease)의 예인 아래 table1 의 통계를 보면 prevalence 사용의 문제점을 확인할 수 있다. 이는 1966년에 30~59 세의 남성의 콜레스테롤과 CHD의 상관성에 대한 연구이다. 이 연구에서는 콜레스테롤 수치를 4단계로 구분하였고 highest와 lowest가 아래 표의 high와 low에 해당한다. 표에서 보듯이 10년기간의 incidence 에서는 콜레스테롤이 높은 집단에서 확연하게 CHD 의 비율이 높은 것이 확인된다 (incidence에서 콜레스테롤 수치는 연구 기간 시작 시점에서의 콜레스테롤 수치이다). 그러나 10년 마지막 시점에서 조사한 prevalence 를 보면 콜레스테롤 높낮이와 CHD의 발병률에 차이가 없음을 확인 할 수 있다(prevalence에서의 콜레스테롤 수치는 연구기간 10년의 마지막 시점에서 측정한 수치이다). 


이와 같이 prevalence 에서 별 차이가 나지 않는 이유는 콜레스테롤에 의한 CHD는 조기 사망이 높아서 일 수 있다. 콜레스테롤 수치가 높아서 CHD가 걸린 사람들은 질병 발생 초반에 사망을 했을 수 있기 때문에 counting이 되지 않았기 때문이다. 또 다른 이유는 CHD에 걸려 살아 남은 사람들이 콜레스테롤 수치를 조절하여 낮췄을 수 있기 때문이다. 

이 예는 prevalence 데이터를 질병과 risk factor의 인과관계의 해석에 사용하였을 경우 발생할 수 있는 위험을 보여준다.

이 글에서 소개되는 통계적인 방법은 prevalence와 incidence 둘 다에서 사용될 수 있으나 이 글은 incidence를 가정한다. 이는 질병과 위험 인자의 인과성을 연구하기 위해서는 당연히 incidence 수치를 사용해야 하기 때문이다.


2. Disease rates
시간 구간이 너무 길고 특정 그룹의 발병이 초기단계에 일어나면 incidence proportion의 사용이 유용하지 않을 수 있다. 

이럴 경우 proportion 대신 rate를 사용하여 시간 구간 동안의 발병의 시간을 조절한다.

incidence rate (=average incidence rate) 는 발병 개체 수 나누기 발병까지의 총 시간으로 나눈 값이다.

아래 figure2 는 5명의 집단에 대한 예이다. o 표시는 사망을 의미하고 x는 disease의 발생을 의미한다.
t =0 시점에서의 point prevalence 는 0 / 5 = 0 이고 t = 5 시점에서의 point prevalence 는 1/2 = 0.5 이다.
t=0 ~ t=5 의 incidence proportion은 3/5 = 0.6 이며
incidence rate 는 3/(5+1+4+3+1) = 3/14 = 0.21 per year 이다.

만약 집단 크기와 연구 기간이 명확하지 않거나 혹은 한사람이 여러번 질병에 걸릴 수 있다면 incidence rate의 단위를 0.21 cases per person-year (per person per year)로 한다.



3. The hazard function
시간 구간 동안 집단이 질환의 발병이 급격하게 변화한다면 이와 같은 현상을 잡아내기 위해서는 시간 구간을 작은 부분 구간으로 나눌 필요가 있다. 집단의 크기가 작으면 발병 횟수 자체가 작아서 이런 접근을 시도 할 수 없지만 집단의 크기가 충분히 크다면 시간 구간을 작은 부분구간으로 나누어 부분 구간별 incidence rate를 계산할 수 있다. 이 부분 구간이 이론적으로 굉장히 작다면 이 부분 구간의 incidence rate를 hazard function, h(f) 라고 한다. figure 3 은 남성의 나이 별 사망률(motality)에 대한 hazard function 의 그림이다. 나이는 x 축으로 motality rate, 곧 hazard function 값은 y 축으로 표현했다. 이 그림에 대한 해석은 N = 1000 이고 시간 t 에서의 hazard function 의 값이 0.005/year 라면 시점 t를 중심으로 한 1년 기간 동안에 질병 발생(여기서는 사망) 횟수가 5 가 되는 것이다. 


시간 구간 [0, T] 에 대해 0<= t <= T 인 시간 t의 hazard function, h(t) 과 시간 구간 [0, t] 의 incidence proportion 간에 아래 식과 같은 직접적인 관계가 있다 (단 질병이 발생한 개체의 경우 더 이상 발병 위험에 노출되지 않는다고 가정한고, 또한 위험에 노출되지 않는 경우는 오직 이 경우 밖에 없다고 가정한다). 
I(t) 는 incidence proportion을 나타내기 때문에 d I (t) / dt 는 incidence proportion 의 시간 t 에서의 기울기를 의미하여 1 - I(t) 는 위험에 노출되어 있는 개체 비율, 곧 질병에 걸릴 수 있는 개체 비율을 의미한다. 

만약에 관심이 있는 것이 질병이 아닌 질병에 의한 사망에 있다면 보통 incidence proportion 대신 1 - incidence proportion 인 survival function 을 사용한다( S(t) = 1 - t(t) ).

아래 figure 4는 figure 3 에 대한 survival function을 나타낸 그림이다. 


hazard function 의 이점은 손쉽게 시간 변화에 따른 발병 정보인 dynamic information을 얻을 수 있다는 것이다.

예를 들면 figure 3 과 figure 4 모두 같은 데이터를 표현한 그림이지만 생의 첫해의 사망 위험과 60대의 사망 위험이 크게 다르지 않다는 정보를 figure 3의 hazard function이 더 쉽게 표현하고 있다 (figure4 에서는 t = 0 과 t = 60 의 y 값 수치가 상당히 차이가 있다). 또한 65 이후 사망률이 크게 올라가기 시작한다는 것을 figure3을 통해 더 쉽게 파악할 수 있다.




이 글은 Evernote에서 작성되었습니다. Evernote는 하나의 업무 공간입니다. Evernote를 다운로드하세요.