본문 바로가기
전산통계/강의노트

chapter 7 - 가설검정

by 세인트킴 2023. 6. 3.

가설(hypothesis)

아직 입증되지 않은 주장

통계적 가설

모집단의 분포에 대한 가설

$H_0: \mu = 3 VS H_1: \mu \neq 3$

$H_0: \mu = 81 VS H_1: \mu < 81$

$H_0: p = \frac{7}{10} VS H_1: p > \frac{7}{10}$

$H_0: \mu_1 = \mu_2 VS H_1: \mu_1 > \mu_2$

가설의 종류 

  • 귀무가설(null hypothesis) - $H_0$: 기존에 알려져 있던 사실
  • 대립가설(alternative hypothesis) - $H_1$: 새로운 사실 또는 주장

예제 

더보기

1.

어느 공장에서는 공정온도. 100'c에서 제조. 제품의 강도는 정규분포$N(60, 2^2)$. 

공정온도를 변화시켰을 때 평균 강도에 차이가 있을까?

귀무가설:$H_0: \mu = 60$

대립가설:$H_1: \mu \neq 60$

더보기

2. 

담배회사의 기존 타르 함량은 4.1mg, 새로 개발한 담배 36개의 타르 함량은 3.641mg, 새로 개발한 담배의 평균 타르 함량은 평균 4.1mg이하라고 주장

귀무가설:$H_0: \mu = 4$

대립가설:$H_1: \mu < 4.1$

더보기

3.

제약회사 드링크제의 용량 95ml. 정기적으로 10개 조사, 평균 용량이 95m를 벗어나면 생산 공정 중단.

10개 조사 평균 98.93, 표준편차5.99, 생산공정에 이상이 있는가?

귀무가설:$H_0: \mu = 95$

대립가설:$H_1: \neq 95$

가설 검정의 원리

귀무가설이 참이라고 가정 - 귀무가설이 참일 때 표본의 값이 나타날 가능성(확률)계산

  • 채택역 - 신뢰도(95% or 99%)내의 값이면 귀무가설 고수
  • 기각역 - 유의수준(5% or 1%)내의 확률로 관측될 수 있는 값이면 귀무가설 기각
  • 임계값 - 기각역과 채택역의 경계, 임계값은 평균과 표준편차에 따라 변한다.
검정통계량이 임계값보다 크면 대립가설 채택 가능

가설검정

모표준편차를 알거나 대표본일 때 

가설:$H_0:\mu = 120 H_1:\mu > 120$H_1: \mu > 120, a=5%

Reject H0 if $Z_0 = \frac{\bar X - 120}{\sigma / \sqrt(n)} > 1.645$

모표준편차를 모르고 소표본일 때, t분포 사용

가설:$H_0: \mu = 120 H_1: \mu > 120$, a=5%

Reject H0 if$Z_0 = \frac{\bar X - 120}{S/\sqrt n} > t_n-1(\alpha)$

가설 검정의 오류

  H0 참 H0 거짓
Reject HO 제 1종 오류 옳은 결정
Accept H0 옳은 결정 제 2종 오류

유의수준 = P(제 1종 오류) = P(Reject HO | H0), 오류들끼리는 서로 비례관계, 1종 오류를 줄이면 2종 오류가 늘어난다. 하지만 1종 오류를 범하는게 더 위험한 오류이다.

가설검정 예

더보기

가설설정:$H_0: \mu = 120 VS H_1: \mu > 120$

검정통계량과 그 분포:$Z_0 = \frac{\bar X - \mu_0}{\sigma / \sqrt(n)} \sim N(0,1)$

유의수준: 0.05, 임계값: 1.645

검정통계량 값:$Z_0 = \frac{124 - 120}{30 / \sqrt(100)} = \frac{4}{3} = 1.33$

기각역: Reject if 1.33 =$Z_0$ < 1.645

결과해석:1.33 = $Z_0$ < 1.645이므로 귀무가설 채택.

더보기

담배회사의 기존 타르 함량은 4.1mg, 새로 개발한 담배 36개의 타르 함량은 3.641mg, 새로 개발한 담배의 평균 타르 함량은 평균 4.1mg이하라고 주장

가설설정:$H_0: \mu = 4$ VS $H_1: \mu < 4.1$

검정통계량과 그 분포:$Z_0 = \frac{\bar X - \mu_0}{\sigma / \sqrt(n)} \sim N(0,1)$

유의수준:0.05, 임계값: -2.33

검정통계량 값: 4.1 - 3.641 / 0.871 / sqrt(36) = -3.162

기각역: Reject if H0 = -3.162 < -2.33

결과해석: 검정통계량 값이 작으므로 귀무가설 기각

더보기

제약회사 드링크제의 용량 95ml. 정기적으로 10개 조사, 평균 용량이 95m를 벗어나면 생산 공정 중단.

10개 조사 평균 98.93, 표준편차5.99, 생산공정에 이상이 있는가?

가설설정:$H_0: \mu = 95$ VS $H_1: \neq 95$

검정통계량과 그 분포:$Z_0 = \frac{\bar X - \mu_0}{S / \sqrt(n)} \sim t(9)$

유의수준:0.05, 임계값 2.262

검정통계량 값:$Z_0 = \frac{98.3 - 95}{5.99 / \sqrt(10)} = \frac{3.3}{1.894} = 1.742$

기각역:Reject if 1.742 < $t_0.025(9) = 2.262$

결과해석: 1.742 < 2.262이므로 귀무가설을 채택한다. 

P-value를 이용한 가설검정

검정통계량 값이$t_0 = \frac{\bar X - \mu_0}{S/\sqrt(n)}$ 일 때, 확률 $P(|T| > t_0)$을 p-value(유의확률)라고 한다.

  • 한쪽검정: Reject H0 if 유의확률 / 2 < 유의수준
  • 양쪽검정: Reject H0 if 유의확률 < 유의수준

p-value가 유의수준보다 작으면 관측값이 기각역 안에 있고, 귀무가설을 기각한다. 

p-value < 0.05 = TRUE 대립가설 채택


p-value > 0.05 = TRUE 귀무가설 채택

T검정

독립표본 T검정

독립표본 T검정이란 서로 독립인 두 모집단의 평균에 대한 검정을 말한다.

통계량(두 모집단의 분산이 다를 때)

  • 평균:$\bar X, \bar Y$
  • 분산:$s^2_1 = \frac{(n-1)S^2_1+(m-1)S^2_2}{n+m-2}$
  • 검정통계량 =$t_0 = \frac{\bar X - \bar Y}{Sp\sqrt(\frac{1}{n})+\frac{1}{m}} \sim t(n+m-2)$

독립표본 T검정 절차

등분산 검정:$H_0: \sigma^2_1 = \sigma^2_2 VS H_1: \sigma^2_1 \neq \sigma^2_2$

분산이 같을 때 검정통계량 = 자유도가 (n+m-2)인 T분포 $ t_0 = \frac{\bar X - \bar Y}{\sqrt Sp(\frac{1}{n}+\frac{1}{m})} \sim t(n+m-2)$

&분산이 다를 때 검정통계량 = $t_0 = \frac{(\bar X - \bar Y)}{\sqrt\frac{S^2_1}{n}+\frac{S^2_2}{m}}$

더보기

자동차 윤활유 제조회사에서 윤활유를 오래 보관해도 점도가 지속되는지 검사
• 생산직후에 10개를 조사하고, 1년 묵은 윤활유 중 10개 조사
• 점도가 그대로 보존되는지 유의수준 5%에서 검정

가설설정:$H_0: \mu_0 = \mu_1 VS H1: \mu_0 \neq \mu_1

유의수준: 0.05

결과해석: 등분산은 성립하고, p-value:0.000 > 0.05보다 작기 때문에 귀무가설을 기각하고 대립가설을 채택한다. 즉, 보관기간이 길면 점도가 다르다. 

대응표본T검정

대응표본 T검정이란 서로 연관이 있는 두 모집단의 평균에 대한 검정을 말한다. 데이터는 항상 쌍으로 관측된다. 

통계량: 각 변수의 차:$D_i = X_i - Y_i$

평균: $\bar D$

분산: $S^2_D = \frac{1}{n-1}\sum (D_i - \bar D)^2$

$D_x - D_y = D_i$

검정통계량:$t_0 = \frac{\bar D}{SD/\sqrt n} \sim T(n-1)$

표준편차: stdev or sqrt(분산)

검정통계량: (X - Y) / (표준편차/sqrt(자유도))

검정통계량 검정 절차

표준편차 = 전 - 후 = sqrt(average(차이)^2/자유도)

검정통계량 (전 - 후)/표준편차/sqrt(n)

'전산통계 > 강의노트' 카테고리의 다른 글

chapter10 - 상관분석과 회귀분석  (0) 2023.06.05
chapter9 - 범주형 자료분석(교차분석)  (0) 2023.06.04
chapter 8 - 분산분석  (0) 2023.06.03
chapter 6 - 통계적 추정  (0) 2023.05.17