Programmers/데브코스 인공지능

[프로그래머스 스쿨 AI] Weak 3 추정

1. 모평균

1. 점추정 

표본 평균의 특성 

모집단이  정규분포인 경우

표본평균 사용

$\bar X = \frac{X_1 + X_2 + \cdots + X_n}{n} = \frac{\sum ^n _{i=1} X_1}{n}$

모평균 $\mu$의 추정에 사용되는 통계량

 

대표번인 경우 (n값이 30이상인경우)\

중심극한 정리에 의해 표본 평균이 정규분포를 따른다고 가정함

 

점추정 값 구하기

코드

colab.research.google.com/drive/1xOfF68h9IDQ2NrenWSAzr0holVS1zRr-?usp=sharing

 

[Programmer][Weak3] 추정.ipynb

Colaboratory notebook

colab.research.google.com

import random
import numpy as np
samples = [9, 4, 0, 8, 1, 3, 7, 8, 4, 2]
print(np.mean(samples))

2. 구간추정

모평균 $\mu$ 의 100(1 - $\alpha $ )% 신뢰구간(confidence interval)

$\mu$의 추정량) $\times \pm z_{\alpha / 2} \times$ (추정량의 표준편차)[표준 오차라고도 부름]

정규 분포에서 $\sigma$를 알때
$( \bar x - z_{\alpha /2} \frac{\sigma}{\sqrt{n}}, \bar x + z_{\alpha /2} \frac{\sigma}{\sqrt{n} })$

 

실용적이지 못하다고함

 

표본의 크기가 클떄 중심 극한 정리 사용

$\mu$의 추정량) $\times \pm z_{\alpha / 2} \times$ (추정량의 표준편차)
$( \bar x - z_{\alpha /2} \frac{S}{\sqrt{n}}, \bar x + z_{\alpha /2} \frac{S}{\sqrt{n} })$

 

s = 표본표준편차

 

예는 s 에 중심이 되는거

 

역시 예제가 짱이다

어떤 학교의 고1 남학생의 평균키를 추정하기 위해 36명을 표본으로 추출하여 그 표본평균과 표본표준편차를 계산하여 그 결과가 아래와 같다.
$\bar x = 173.6, s= 3.6$
평균키에 대한 95% 실뢰구관을 구하시오 

이러면 $\alpha = 1- 95% $
$\alpha = 0.05$
$z_{\alpha / 2} = z_{0.025} = 표준정규분포표 참고(1.96)$
$z_{\alpha / 2}\frac{s}{\sqrt{n}} = 1.96 \times \frac{3.6}{\sqrt{36}}= 1.176$
신뢰 구간 
( $\bar x$ (173.6) $\pm z_{\alpha / 2}\frac{s}{\sqrt{n}}$(1.176) )

(172.4,174.8)

농장 에서 생산된 계란 30개의 표본  무게w = [ 10.7, 11.7, 9.8, 11.4, 10.8, 9.9, 10.1, 8.8, 12.2, 11.0, 11.3, 11.1, 10.3, 10.0, 9.9, 11.1, 11.7, 11.5, 9.1 ,10.3, 8.6, 12.1, 10.0, 13.0, 9.2, 9.8, 9.3, 9.4, 9.6, 9.2]
이 계란의 평균무게에 대한 95% 신뢰구간 구하기

여기는 위에 $\bar x $ 랑 s(표준편차) 를 구해야 한다
$\alpha = 0.05$
$z_{\alpha / 2} = z_{0.025} = 표준정규분포표 참고(1.96)$

$\bar X = 10.43$

$s = 1.11$$z_{\alpha / 2}\frac{s}{\sqrt{n}} = 1.96 \times \frac{1.11}{\sqrt{30}}= 0.397$
신뢰 구간 
( $\bar x$ (10.43) $\pm z_{\alpha / 2}\frac{s}{\sqrt{n}}$(0.397) )

(10.933, 10.827)

 

이렇게 계란을 구할 수 있다

2. 모비율

1.  확률변수 X:

n개의 표본에서 특정 속성을 갖는 표본의 개수

모비율 p 의 점추정량

$\hat p = \frac{X}{n}$

점추정

그냥  찾는거 나누기 전체 인듯

고등학교 1학년생의 흡연율을 조사 150 명중 48명이 흡연하고 있었다 (단 구라는 하지않는다)
이때 흡연율의 평균을 점추정 하시오

n = 150 , X = 48

$\hat p = frac{48}{150} = 0.32$

평균 32%로 됨

 

2. 구간 추정

n 이 충분히 클때

$n  \hat p > 5, n (1 - \hat p ) > 5$ 일때를 의미

$X ~ N (np,np(1-p))$

확률변수 X 의 표준화

$Z = \frac{X-np}{\sqrt{n \hat p (1- \hat p)}} = \frac{\hat p - p}{\sqrt{\frac{\hat p ( 1- \hat p)}{n}}}$

근사적으로 표준 정규 분포 N(0,1)를 따름

 

 

$P(|Z| \leq z_{\alpha / 2}) = 1 - \alpha  $

$ P ( -z _{\alpha /2} \leq Z \leq z_{\alpha /2} = P(-z_{\alpha / 2} \leq \frac{\hat p - p}{\sqrt{\frac{\hat p ( 1- \hat p)}{n}}} \leq z_{\alpha /2})$


$P(\hat p - z_{\frac{\alpha}{2} }\sqrt{\frac{\hat p ( 1- \hat p)}{n}} \leq p \leq \hat p + z_{\frac{\alpha}{2} }\sqrt{\frac{\hat p ( 1- \hat p)}{n}}) = 1- \alpha$

 

모비율 p 의 100(1 - $\alpha $) % 신뢰구간

($\hat p - z_{\frac{\alpha}{2} }\sqrt{\frac{\hat p ( 1- \hat p)}{n}}, \hat p + z_{\frac{\alpha}{2} }\sqrt{\frac{\hat p ( 1- \hat p)}{n}}$)

 

그럼 아까 고등학생을 이용하여 95%를 구해보자

 

n = 150 , X = 48, $\alpha = 0.05 , z_{0.025} = 1.96$[분포표 참조]  

$\hat p = frac{48}{150} = 0.32$

대입 해보자

$\sqrt{\frac{\hat p (1- \hat p)}{n}} = \sqrt{\frac{0.32 \times 0.68}{150}}$  = 0.038

$(0.32 - 1.96 \times 0.038, 0.32 + 1.96 \times 0.038 ) = (0.245, 0.395)$

 

import numpy as np
import scipy.stats
x = 48
n= 150 
phat = x/ n
alpha = 0.05
zalpha = scipy.stats.norm.ppf(1-alpha/2)
sd = np.sqrt(phat*(1-phat)/n)
print("phat %.3f, zalpha: %.3f, sd: %.3f"%(phat, zalpha, sd))
ci = [phat -zalpha * sd, phat + zalpha*sd]
print(ci)