1. 모평균
1. 점추정
표본 평균의 특성
모집단이 정규분포인 경우
표본평균 사용
$\bar X = \frac{X_1 + X_2 + \cdots + X_n}{n} = \frac{\sum ^n _{i=1} X_1}{n}$
모평균 $\mu$의 추정에 사용되는 통계량
대표번인 경우 (n값이 30이상인경우)\
중심극한 정리에 의해 표본 평균이 정규분포를 따른다고 가정함
점추정 값 구하기
코드
colab.research.google.com/drive/1xOfF68h9IDQ2NrenWSAzr0holVS1zRr-?usp=sharing
[Programmer][Weak3] 추정.ipynb
Colaboratory notebook
colab.research.google.com
import random
import numpy as np
samples = [9, 4, 0, 8, 1, 3, 7, 8, 4, 2]
print(np.mean(samples))
2. 구간추정
모평균 $\mu$ 의 100(1 - $\alpha $ )% 신뢰구간(confidence interval)
$\mu$의 추정량) $\times \pm z_{\alpha / 2} \times$ (추정량의 표준편차)[표준 오차라고도 부름]
정규 분포에서 $\sigma$를 알때
$( \bar x - z_{\alpha /2} \frac{\sigma}{\sqrt{n}}, \bar x + z_{\alpha /2} \frac{\sigma}{\sqrt{n} })$
실용적이지 못하다고함
표본의 크기가 클떄 중심 극한 정리 사용
$\mu$의 추정량) $\times \pm z_{\alpha / 2} \times$ (추정량의 표준편차)
$( \bar x - z_{\alpha /2} \frac{S}{\sqrt{n}}, \bar x + z_{\alpha /2} \frac{S}{\sqrt{n} })$
s = 표본표준편차
예는 s 에 중심이 되는거
역시 예제가 짱이다
어떤 학교의 고1 남학생의 평균키를 추정하기 위해 36명을 표본으로 추출하여 그 표본평균과 표본표준편차를 계산하여 그 결과가 아래와 같다.
$\bar x = 173.6, s= 3.6$
평균키에 대한 95% 실뢰구관을 구하시오
이러면 $\alpha = 1- 95% $
$\alpha = 0.05$
$z_{\alpha / 2} = z_{0.025} = 표준정규분포표 참고(1.96)$
$z_{\alpha / 2}\frac{s}{\sqrt{n}} = 1.96 \times \frac{3.6}{\sqrt{36}}= 1.176$
신뢰 구간
( $\bar x$ (173.6) $\pm z_{\alpha / 2}\frac{s}{\sqrt{n}}$(1.176) )
(172.4,174.8)
농장 에서 생산된 계란 30개의 표본 무게w = [ 10.7, 11.7, 9.8, 11.4, 10.8, 9.9, 10.1, 8.8, 12.2, 11.0, 11.3, 11.1, 10.3, 10.0, 9.9, 11.1, 11.7, 11.5, 9.1 ,10.3, 8.6, 12.1, 10.0, 13.0, 9.2, 9.8, 9.3, 9.4, 9.6, 9.2]
이 계란의 평균무게에 대한 95% 신뢰구간 구하기
여기는 위에 $\bar x $ 랑 s(표준편차) 를 구해야 한다
$\alpha = 0.05$
$z_{\alpha / 2} = z_{0.025} = 표준정규분포표 참고(1.96)$
$\bar X = 10.43$
$s = 1.11$$z_{\alpha / 2}\frac{s}{\sqrt{n}} = 1.96 \times \frac{1.11}{\sqrt{30}}= 0.397$
신뢰 구간
( $\bar x$ (10.43) $\pm z_{\alpha / 2}\frac{s}{\sqrt{n}}$(0.397) )
(10.933, 10.827)
이렇게 계란을 구할 수 있다
2. 모비율
1. 확률변수 X:
n개의 표본에서 특정 속성을 갖는 표본의 개수
모비율 p 의 점추정량
$\hat p = \frac{X}{n}$
점추정
그냥 찾는거 나누기 전체 인듯
고등학교 1학년생의 흡연율을 조사 150 명중 48명이 흡연하고 있었다 (단 구라는 하지않는다)
이때 흡연율의 평균을 점추정 하시오
n = 150 , X = 48
$\hat p = frac{48}{150} = 0.32$
평균 32%로 됨
2. 구간 추정
n 이 충분히 클때
$n \hat p > 5, n (1 - \hat p ) > 5$ 일때를 의미
$X ~ N (np,np(1-p))$
확률변수 X 의 표준화
$Z = \frac{X-np}{\sqrt{n \hat p (1- \hat p)}} = \frac{\hat p - p}{\sqrt{\frac{\hat p ( 1- \hat p)}{n}}}$
근사적으로 표준 정규 분포 N(0,1)를 따름
$P(|Z| \leq z_{\alpha / 2}) = 1 - \alpha $
$ P ( -z _{\alpha /2} \leq Z \leq z_{\alpha /2} = P(-z_{\alpha / 2} \leq \frac{\hat p - p}{\sqrt{\frac{\hat p ( 1- \hat p)}{n}}} \leq z_{\alpha /2})$
$P(\hat p - z_{\frac{\alpha}{2} }\sqrt{\frac{\hat p ( 1- \hat p)}{n}} \leq p \leq \hat p + z_{\frac{\alpha}{2} }\sqrt{\frac{\hat p ( 1- \hat p)}{n}}) = 1- \alpha$
모비율 p 의 100(1 - $\alpha $) % 신뢰구간
($\hat p - z_{\frac{\alpha}{2} }\sqrt{\frac{\hat p ( 1- \hat p)}{n}}, \hat p + z_{\frac{\alpha}{2} }\sqrt{\frac{\hat p ( 1- \hat p)}{n}}$)
그럼 아까 고등학생을 이용하여 95%를 구해보자
n = 150 , X = 48, $\alpha = 0.05 , z_{0.025} = 1.96$[분포표 참조]
$\hat p = frac{48}{150} = 0.32$
대입 해보자
$\sqrt{\frac{\hat p (1- \hat p)}{n}} = \sqrt{\frac{0.32 \times 0.68}{150}}$ = 0.038
$(0.32 - 1.96 \times 0.038, 0.32 + 1.96 \times 0.038 ) = (0.245, 0.395)$
import numpy as np
import scipy.stats
x = 48
n= 150
phat = x/ n
alpha = 0.05
zalpha = scipy.stats.norm.ppf(1-alpha/2)
sd = np.sqrt(phat*(1-phat)/n)
print("phat %.3f, zalpha: %.3f, sd: %.3f"%(phat, zalpha, sd))
ci = [phat -zalpha * sd, phat + zalpha*sd]
print(ci)
'Programmers > 데브코스 인공지능' 카테고리의 다른 글
[프로그래머스 스쿨 AI] Weak 3 엔트로피 (0) | 2021.05.03 |
---|---|
[프로그래머스 스쿨 AI] Weak 3 검정 (0) | 2021.05.03 |
[프로그래머스 스쿨 AI] Weak 3 표본분포 (0) | 2021.05.03 |
[프로그래머스 스쿨 AI] Weak 2 몇가지 확률분포 (0) | 2021.05.02 |
[프로그래머스 스쿨 AI] Weak 2 확률 분포 (0) | 2021.05.02 |