실험계획의 주요 관점
- 어떤 요인이 반응에 유의한 영향을 주고 있는가를 파악하고 그 영향이 양적으로 어느정도 큰가?
- 유의한 영향을 미치는 요인들이 어떠한 조건에서 가장 바람직한 반응을 얻을 수 잇는가?
실험계획법 용어
- 인자(factor) : 실험 결과에 영향을 주는 무수히 많은 요인들중에서 실험에서 직접 취급되어 관리되는 요인을 인자(factor), 또는 요인이라고 함.
- 수준(level) : 요인의 조건들을 요인의 수준이라 부름
- 예 : 온도를 요인으로 택하고, 온도를 150도에서부터 200도까지 10도 단위로 6개로 분류하고 이에 따라 실험을 실시했다면 6개의 온도 값이 온도라는 요인의 수준이 됨
- 랜덤화(randomization) : 실험을 통해 얻은 자료에 대해 의미 있는 통계분석을 하기 위해서는 요인(또는 요인들의 조합)의 각 수준에서 실험단위의 배정 또는 실험순서들을 임의로 배정하는 램덤화를 구현해야 함. 이는 관심있어하는 요인들만 신경쓰고 다른 요인들의 영향은 상쇄하기 위한것.
- 실험계획법(design of experiment) : 실험을 계획적, 합리적으로 설계하는 방법
위의 자료의 분석 중에 많이 사용하는 것이 분산 분석(analysis of variance).
분산분석(analysis of variance)의 개념
- 특성치의 변동을 제곱합(sum of square)으로 나타내고, 이를 실험과 관련된 요인들의 제곱합과 오차의 제곱합으로 분해하여 오차에 비해 영향이 큰 요인이 무엇인가를 찾아내는 분석 방법이다.
- 각 요인의 제곱합을 그 요인의 자유도로 나누면 그 요인의 평균제곱이 되는데 이 값이 오차의 분산에 비하여 얼마나 큰가를 비교한다.
- 만약 어떤 요인의 평균 제곱 값이 오차의 분산보다 매우 크다면 그 요인은 특성치의 변동을 유의하게 설명해주는 요인이라고 할수 있다.
위의 그림 중 이원배치법은 반복수가 없는 경우의 것에 해당한다. 만약에 반복수가 여러 번인 경우에는 요인 a에 의한 변동, 요인 b에 의한 변동, a와 b 두 요인에 의한 상호작용에 의한 변동, 오차에 의한 변동으로 분해 할 수 있다.
일원배치법(one-way factorial design) :
- 어떤 관심이 있는 특성치에 대하여 하나의 요인(factor)의 영향을 조사하기 위하여 쓰이는 실험계획법이다.
- 예 : 어떤 공정의 수율을 변화시키는 요인들 중에 반응 온도의 영향을 조사하는 실험에서 관심 있는 3개의 수준(150도, 160도, 170도)에서 수율의 모평균간에 차이가 있는가? 라는 문제에서 factor인 반응온도에만 관심이 있는 것이기 때문에 이는 일원배치법에 해당하며 관심 factor 이외의 요인들은 일정하게 고정시키게 된다.
위와 같은 자료 구조에서 총 변동을 수준간 편차(변동), 수준내 편차(변동)으로 분해하게 된다.
일원배치 모형
정리하자면,
관심있는 인자를 여러 수준에서 랜덤화해서 샘플링을 한다. 각 수준에서 샘플링을 한다는 의미는 그 수준에서의 다른 요인들의 영향을 상쇄시키기 위한것. 모든 샘플의 전체 평균에 대한 변동을 각 수준의 평균과 전체 평균의 차이, 즉 요인의 영향값과 각 수준에서 샘플과 수준의 평균의 차이, 즉 오차의 영향값으로 분해해서 이 요인의 영향값이 오차의 영향값보다 큰지 작은지를 판단해서 요인이 중요한 역할을 했는지 아니면 일반 오차보다도 중요한 역할을 하지 못햇는지를 판단하는것.
이러한 변동을 분해해서 정리한 표를 분산분석표(ANOVA table)이라 한다.
요인A의 자유도는 수준의 갯수의 - 1이고, 오차의 자유도는 전체의 자유도(전체 샘플 갯수 - 1)에서 요인 A의 자유도를 뺀 값이다.
평균 제곱(mean square) : 제곱합을 자유도로 나눠준 것. 평균제곱의 비를 가지고 검정이 이뤄짐.
위와 같은 분산 분석표에서 F값을 구해서 아래와 같은 방법으로 주효과 요인 A의 가설을 검정하게 된다.
위와 같은 방법으로 그룹이 3개 이상인 경우의 평균 비교가 가능하다.
요인 A의 i수준에서 모평균의 추정
요인 A의 두수준 i와 i' 에서의 모평균의 차이의 추정
관심있는 인자를 여러 수준에서 랜덤화해서 샘플링을 한다. 각 수준에서 샘플링을 한다는 의미는 그 수준에서의 다른 요인들의 영향을 상쇄시키기 위한것. 모든 샘플의 전체 평균에 대한 변동을 각 수준의 평균과 전체 평균의 차이, 즉 요인의 영향값과 각 수준에서 샘플과 수준의 평균의 차이, 즉 오차의 영향값으로 분해해서 이 요인의 영향값이 오차의 영향값보다 큰지 작은지를 판단해서 요인이 중요한 역할을 했는지 아니면 일반 오차보다도 중요한 역할을 하지 못햇는지를 판단하는것.
이러한 변동을 분해해서 정리한 표를 분산분석표(ANOVA table)이라 한다.
요인A의 자유도는 수준의 갯수의 - 1이고, 오차의 자유도는 전체의 자유도(전체 샘플 갯수 - 1)에서 요인 A의 자유도를 뺀 값이다.
평균 제곱(mean square) : 제곱합을 자유도로 나눠준 것. 평균제곱의 비를 가지고 검정이 이뤄짐.
위와 같은 분산 분석표에서 F값을 구해서 아래와 같은 방법으로 주효과 요인 A의 가설을 검정하게 된다.
위와 같은 방법으로 그룹이 3개 이상인 경우의 평균 비교가 가능하다.
요인 A의 i수준에서 모평균의 추정
요인 A의 두수준 i와 i' 에서의 모평균의 차이의 추정
위의 그림에서 마지막 마지막 네모친 식을 최소 유의차 라 한다.
No comments:
Post a Comment