반응형

가설검정

  • 관심이 있는 특정 모집단의 특성에 대한 가설을 세우고 이 가설을 샘플데이터를 사용하여 검토하는 추론의 과정
  • 알고자 하는 질문을 2개의 대립되는 가설을 통해 참과 거짓을 수집하여 데이터를 통해 판단
  • 모집단에 대한 가설이 통계적으로 유의한지 표본을 통해 알아보는 것
귀무가설(Ho) Null Hypothesis 디폴트 가설로 특별한 사유가 없다면 받아들여지는 가설
대립가설(H1, Ha) Alternative Hypothesis 귀무가설이 충분한 증거로 기각되었을 때, 채택되는 가설
검정통계량(X) Test Statistics 샘플데이터에서의 통계량
귀무분포 Null Distribution 귀무가설을 가정했을 때의 확률분포
유의확률 P-value 귀무가설을 지지하는 정도
  • 귀무가설(영가설)
    • 데이터를 수집하기 전, 사실이라고 믿는 가설
    • 수학적으로 =(등호)를 포함
  • 대립가설
    • 귀무가설과 대립되는 가설로 우리가 사실이라고 증명하고자 하는 가설
    • 수학적으로는 =(등호)를 포함하지 않음
  • 귀무가설과 대립가설은 대립적이어야 하며, 겹쳐서는 안됨

 

가설 세우기

  • 단측 검정(one-sided test)
    • 왼쪽    H0 : 𝝁 < 𝝁0
    • 오른쪽 H1 : 𝝁 > 𝝁0
  • 양측 검정(two-sided test)
    • H0 : 𝝁 == 𝝁0
    • H1 : 𝝁 != 𝝁0
  • 1종 오류와 2종 오류
    • 1종 오류(False Positive)
      • 귀무가설이 참인데 기각
      • alpha 또는 유의수준
      • 통계적으로 유의미하다고 잘못 결론
    • 2종 오류(False Negative)
      • 귀무가설이 거짓인데 기각 X
      • beta
  귀무가설 기각 귀무가설 기각 X
귀무가설 참 1종 오류 옳은 판단
귀무가설 거짓 옳은 판단 2종 오류
  • 유의수준
    • 귀무가설이 참인데도 불구하고 기각할 확률
    • 0.05보다 작으면 귀무가설을 잘못 기각할 가능성이 5% 미만 
      -> 귀무가설을 기각할 충분한 증거를 확보했다는 의미

 

검정 방법론

  1. 신뢰구간 확인
    • 샘플데이터를 모집단으로 가정
    • 반복을 통해 샘플 추출 후 평균을 계산
    • 평균의 표본 분포를 시뮬레이트
    • 95% 신뢰구간 확인
    • 귀무가설이 표본분포의 어디에 해당하는지 확인
    • 귀무가설의 채택 및 기각 결정
  2. P-value 확인
    • 귀무가설이 맞다는 전제 하에, 통계값이 실제로 관측된 값(샘플의 통계치)이상일 확률(유의확률)
      a. 샘플데이터로 평균의 표본분포를 시뮬레이트한 뒤, 분포의 표준편차를 변수에 저장
      b. 귀무가설과 대립가설의 가장 근접한 값과 변수에 저장한 표준편차를 이용하여 귀무분포를 시뮬레이트
      c. 시뮬레이트한 귀무분포에 샘플데이터의 평균값이 어디에 있는지 확인
      d. 귀무분포에 샘플데이터의 평균값보다 큰 면적을 확인
    • p-value(유의확률) < 0.05(유의수준)
      > 귀무가설을 기각할 통계적 유의성이 있다(통계적으로 유의미하다)
      > 귀무가설을 기각했을 때, 결정이 잘못될 확률이 5%보다 작음

 

 

** 수정이 필요하다면 댓글을 부탁드립니다. 

반응형

+ Recent posts