공부 노트
[확률과 통계] 확률에 대하여(2)
오늘밤공부
2023. 2. 13. 23:09
반응형
베이지안 정리(Bayesian Theroem)
- 사전확률(Prior Probability) -> 테스트를 통한 증거 획득 -> 사후확률(Posterior Probability)
-> Posterior Probability = Prior Probability * Evidence - 하나의 사건이 있다면 이에 영향을 미치는 여러 조건들에 대한 정보에서 확률을 추론하는 것
- 가능도(likelihood)
> 사건 A가 발생할 경우, 사건 B의 확률
> 사건이 일어났다는 가정 하에, 새로 가지게 되는 자료가 관측될 확률(=데이터) - 정규화상수(Normalizing Constant) : 확률의 크기 조정
- 공식
P(A|B) = P(A⋂B) / P(B) = P(B|A)P(A) / P(B)
P(B) = 사전확률, P(A|B) = 사후확률 - 베이지안 업데이팅
> 새로운 데이터를 통해 사후확률이 사전확률이 되고, 다시 베이지안 정리를 사용 가능
> 지속적인 베이지안 업데이팅을 통해 분석의 신뢰성 확보 가능 - 이유불충분의 원리로 5:5의 확률을 가정 -> 주관적 데이터의 경우, 명확한 척도 정립이 필요
Bootstrapping 테크닉
- Bootstap : 중복추출을 허용하여 원하는 개수의 데이터를 추출하는 것(resampling)
- 샘플을 모집단이라 가정한 후, 여기서 다시 샘플을 추출하여 샘플들의 평균의 분포를 확인
- 구현방법
> for loop를 사용하여 n번 iterations 돌림
> 각 iteration마다 random.choice 메서드를 이용하여 샘플 추출 - 장점
> 가지고 있는 데이터를 통해 모집단의 모수를 이해, 추정 가능
> 부트스트랩 테크닉을 이용하여 표본분포를 simulate할 때 큰 수의 법칙 적용 가능 - 큰 수의 법칙(Law of Large Numbers)
> 샘플 사이즈가 커질수록 샘플의 통계치는 모집단의 모수에 가까워짐
> 추론한 샘플의 사이즈가 클수록 모집단의 평균을 측정하기 좋음
중심 극한 정리(Central Limit Theorem)
- 모집단의 분포에 상관없이 임의의 분포에서 추출된 표본들의 평균 분포는 정규분포를 이룸
- 표본을 추출할 때, 충분한 샘플 사이즈의 추출이 필요(일반적으로는 30 이상)
- 샘플사이즈가 클수록 분산이 작아짐
- 표본 평균의 분포는 표본의 크기에 따라 달라짐
- 모집단의 분포와 상관없이, 모집단의 모수를 추정할 수 있는 확률적 근거 제시
- 비교적 적은 수의 샘플로 특정 사건(수집한 표본의 평균)이 일어날 확률값 계산 가능
>> 수집한 표본의 통계량을 이용해 모집단의 모수를 추정할 수 있는 확률적 근거 - 큰 수의 법칙 vs. 중심극한정리(상보적 관계)
> 큰 수의 법칙 : 샘플사이즈가 커질수록 표본평균의 평균이 모수에 가까워짐
> 중심극한정리 : 샘플사이즈가 커질수록 표본평균의 분포가 정규분포를 이룸(모양)
신뢰구간(Confidence Interval)
- 모수를 포함하고 있는 구간
- 모평균 값의 범위를 제공(표본 데이터의 분포를 나타내지 않음)
- 신뢰구간으로부터 모집단에 대한 타당한 추정치가 주어짐
(표본집단의 새로운 값들에 대해 추정하지는 않음) - 신뢰도가 증가하면(95% -> 99%) 신뢰구간은 더 넓어지며 오차범위는 증가
- 모수의 값을 특정 값으로 추정 -> 불확실성 초래
> 모수의 평균을 알 수 없기 때문
> 모수가 존재할 가능성이 높은 구간(신뢰구간)을 확률(신뢰수준)과 함께 제공
-> 불확실성은 줄이고, 모수의 신뢰성을 가늠할 수 있음
정규성 가정
- 정규성 가정은 분석하려는 데이터가 정규성을 가져야 일반적인 분석이 가능
- 통계적 검정, 회귀분석을 실행하기 전에 데이터가 정규분포를 따르는지 확인
- 가정을 통해 확률분포를 이용하여 통계치 이용 가능
- 모수통계는 정규성을 만족하지 못할 경우, 분석 결과에 대한 심각한 오류를 발생시킬 수 있음
** 수정이 필요하다면 댓글을 부탁드립니다.
반응형