Throw a stone at me: November 2014

Thursday, November 20, 2014

odds ratio VS relative risk

odds ratio(OR), relative risk(RR).
어떤 연구는 odds ratio를 쓰고 어떤 연구는 relative risk를 쓰고.

대략적으로 구글링을 해보면 cohort 연구와 같은 prospective study (특정 결과에 영향이 있는 원인을 기준으로 샘플을 분류하고 시간이 흐름에 따라 결과가 어떻게 나오는지 연구하는 것) 에서는 RR을 쓰는 것이 맞고 case-control 과 같은 retrospective study 에서는 RR대신에 OR을 쓴다 정도로 설명이 나온다.

이 설명이 별로 와닿지가 않는데.. 그냥 수치를 넣고 테이블 값을 변형해서 OR과 RR 값을 구해보면 왜 RR이 아닌 OR을 사용하는지 이해될 수 있다.

흡연과 폐암의 예를 들어보자.

실제적 전체인구가 20000 명인데 흡연과 폐암간의 관계가 아래 표와 같다고 하자 (RR이 2, OR 이 2.11 이다).

	cancer	non-cancer
smoker	1000	9000	10000
non-smoker	500	9500	10000
	1500	18500

prospective study 는 smoker와 non-smoker 를 나누고 시간이 흐른뒤에 각각의 group에서 cancer, non-cancer 의 비율을 본다. 전체 인구에서 smoker 100 명을 sampling하고 non-smoker 100명을 샘플링 해서 오랜시간 동안 cancer의 발생 환자 수를 확인해보면 ideal한 경우에 아래 표와 같은 결과가 나타날 것이다.

	cancer	non-cancer
smoker	10	90	100
non-smoker	5	95	100
	15	185

여기서는 smoker 그룹을 먼저 샘플링 했기때문에, 곧 smoker 100명의 집단을 정해놓고 그 안에서 cancer 가 발생한 사람수를 확인 한 것이기때문에 smoker일 경우 cancer 가 걸릴 확률 (10/100) 을 구해도 괜찮다. 곧 RR을 구해도 된다. RR을 구하면 2가 나오고 OR 을 구하면 2.11이 나온다.

그런데 case-control study 처럼 cancer 환자군을 모집하고 그 안에서 smoker와 non-smoker를 나누고 마찬가지로 non-cancer 집단을 모집해서 그안에서 smoker와 non-smoker를 구해서 prospective study와 같은 확률 구하면 어떻게 될까? (cancer 환자 100명을 모집하면 모집단의 표에서 smoker와 non-smoker의 비율이 2:1이기에 대략적으로 67:33 명의 smoker 와 non-smoker가 뽑힐 것이다)

	cancer	non-cancer
smoker	67	49	116
non-smoker	33	51	84
	100	100

위의 표 수치를 가지고 smoker 긴데 cancer 가 걸릴 확률을 구하면 67/116 으로 말도 안되는 값이 나온다. 당연히 smoker 그룹을 정해놓고 그안에서 cancer의 발병 확률을 계산한게 아니라 cancer 환자수 non-cancer 정상인 따로따로 사람을 모집하고 smoker를 기준으로 위와 같은 계산을 하니 엉뚱한 값이 나온다. RR은 1.47이 나온다. OR은 2.11 이 나온다(cancer 내의 smoker, non-smoker 수를 반올림 하였기 때문에 ideal 값과는 약간의 차이가 난다).

예에서 볼수 있듯이 OR이 RR에 비해 robust한 것을 알수 있다. 물론 RR이 확률값의 비율을 나타낸 것이기에 직관적이고 정확하나 case-control study와 같은 경우에는 RR 을 구하면 엉뚱한 값을 구하게 된다.