[빅데이터] 14. 추론통계

<< 추론통계 >>

<추론통계>

1. 추론통계의 개념

= 모집단의 표본을 가지고 모집단의 특성(모수)를 추론하고, 그 결과의 신뢰성을 검정하는 통계적 방법이다.

표본의 개수가 많을수록 표본 오차는 감소한다.

일부의 데이터를 이용하여 모집단을 추정하므로 어느 정도의 오차가 있다.

2. 점 추정 (Point Estimation)

표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법

신뢰도를 나타낼 수 없는 단점이 있어 구간 추정을 주로 사용

표본평균, 표본분산, 표본비율 등이 사용된다.

점 추정 조건

- 불편성/불편의성 : 추정량의 기댓값이 모집단의 모수와 차이가 없다는 특성
(불편 = 편견이 없다)

- 효율성 : 추정량의 분산이 작을수록 좋다는 특성

- 일치성 : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다는 특성

- 충족성/충분성 : 추정량은 모수에 대하여 많은 정보를 제공할수록 좋다는 특성

모수의 점 추정량

- 모평균

n 랜덤변수들의 기대값 더한 후 n으로 나눔(평균)

- 모분산 : 표본분산 제곱

- 모비율 : 표본비율

표준오차

- 추정량은 추출된 표본의 값에 따라서 달라질 수 있다.

- 정확도를 측정하기 위해 추정량의 표준편차를 계산

- 추정량의 표준편차를 푠준오차라고 한다

3. 구간 추정

구간추정의 개념

= 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법.

항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기가 주어져야 한다.

- 신뢰수준: 측정값이 존재하는 구간에 모수가 포함될 확률

- 신뢰구간: 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위

단일 모평균 추정

- 모분산이 알려져 있는 경우: 모집단이 정규분포를 따르고 모분산이 알려져있는 경우 Z-분포를 이용한다.

- 모분산이 알려져있지 않은 경우(n>30): Z-분포를 이용

- 모분산이 알려져있지 않은 경우(n<30): T-분포를 이용

두 모평균 차이의 추정

- 모분산이 알려져있는 경우: Z-분포를 이용

- 모분산이 알려져있지 않은 경우(n>30): Z-분포를 이용

- 모분산이 알려져있지 않은 경우(n<30): T-분포를 이용

대응표본일 경우 두 모평균 차이의 추정

- 대응 표본은 실험 전후의 연구 대상을 비교할 때 많이 사용되는 비교 방법
(예시: 다이어트 약 효과의 검증을 위한 투약 전 후 검증)

- 대표본 n>30일 경우 : Z-분포를 이용

- 소표본 n<30일 경우 : T-분포를 이용

모비율의 추정

- 크기가 n인 표본에서 어떤 사건이 발생할 횟수를 확률변수 X라고 할 때, 표본비율은 X/n 이다.

- 단일 모비율 추정 : Z-분포 이용

- 두 모비율 차이의 추정 : Z-분포 이용

<비모수 통계>

비모수 통계의 개념

= 평균이나 분산 같은 모집단의 분포에 대한 모수성을 가정하지 않은 상태로 분석하는 통계적 방법.

(모수: 모집단 분포 특성을 규정짓는 척도 및 모집단의 특성치)

비모수 통계 특징

- 부호, 순위 등의 통계량 사용

비모수 통계의 장단점

장점	단점
1. 모수적 방법에 비해 통계량의 계산이 간편하고 직관적으로 이해하기 쉬움. 2. 모집단의 분포와 무관하게 사용 가능 3. 추출된 샘플의 개수가 10개 미만으로 작은 경우에도 사용 가능 4. 이상값으로 인한 영향이 적음	1. 모수 통계로 검정이 가능한 데이터를 비모수 통계를 이용하면 효율성이 떨어짐. 2. 검정통계량의 신뢰성이 부족 3. 자료의 수가 많은 경우 모수적 통계에 비해 오히려 계산 절차 복잡

비모수 통계 검정 방법의 종류

구분	비모수 통계	모수통계
단일 표본	부호 검정 윌콕슨 부호순위 검정	단일표본 T-검정
두 표본	윌콕슨 순위 합 테스트	독립표본 T-검정
대응 표본	부호검정 윌콕슨 부호 순위 검정	대응표본 T-검정
분산 분석	크루스칼-왈리스 검정	ANOVA
무작위성	런 검정	-
상관분석	스피어만 순위 상관계수	피어슨 상관계수

비모수 통계 검정 방법

(1) 부호검정

= 데이터가 중위수를 기준으로 중위수보다 큰지 작은지만을 이용하여 검정하는 방법

(2) 윌콕슨 부호 순위 검정

= 데이터와 중위수의 차이를 비교한 값을 바탕으로 순위를 부여하여 검정하는 방법

(3) 윌콕슨 순위 합 검정

= 데이터와 중위수의 차이를 통해 각 표본 내의 순위 합을 비교하여 두 그룹 간의 중위수 차이를 이용하여 검정하는 방법

(4) 분산 분석 – 크루스칼 왈리스 검정

= 세 집단 이상의 분포를 비교하는 검정 방법. 그룹별 ‘중위수’ 가 같은지를 검정

(5) 런 검정

= 두개의 값을 가지는 연속적인 측정값들이 어떤 패턴이나 경향이 없이 임의적으로 나타난 것인지를 검정하는 방법

<가설검정>

1. 가설

가설의 개념

= 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론.

가설을 검정하기 위해 알고 싶은 내용을 기술한 가설의 종류에는 두가지가 있다.

- 귀무가설 : 현재까지 주장되어 온, 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설

- 대립가설 : 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설 (=연구가설)

2. 가설검정

가설검정 개념

= 모집단에 대한 통계적 가설을 세우고 표본을 추출한 다음, 그 표본을 통해 얻은 정보를 이용하여 통계적 가설의 진위를 판단하는 과정.

표본을 활용하여 모집단에 대입해보았을 때 새롭게 제시된 대립가설이 옳다고 판단할 수 있는지를 평가하는 과정.

가설검정 절차

① 가설설정 : 귀무가설과 대립가설 설정

② 유의수준 설정 : 보통 0.05로 주어지는 경우가 많음

③ 검정통계량 계산 (P-값 산출)

④ 검정통계량>임곗값 (p-값 < 유의수준)

⑤ 의사결정 : 귀무가설의 채택 및 기각

가설검정 방법

- 양측 검정: 모수에 대해 표본자료를 바탕으로 모수가 특정값과 통계적으로 같은지 여부를 판단.

- 단측검정: 모수에 대해 표본자료를 바탕으로 모수가 특정 값과 통계적으로 큰지 작은지 여부를 판단.

3. 가설검정의 오류

가설검정 오류의 개념

= 모집단으로부터 추출된 표본을 기반으로 모집단에 대한 결론을 내리는 것이기 때문에 다음과 같은 통계적인 오류가 발생할 가능성이 항상 존재한다.

가설검정 오류의 종류

- 제1종 오류 : 귀무가설이 참인데 잘못하여 이를 기각하게 되는 오류

- 제2종 오류 : 귀무가설이 거짓인데 잘못하여 이를 채택하게 되는 오류

4. 검정통계량

= 가설검정의 대상이 뫼는 모수를 추론하기 위해 사용되는 표본 통계량

귀무가설이 참이라는 전제하에서 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산된다.

5. p-값 = 유의확률

p-값은 귀무가설이 참이라는 전제하에 실제 표본에서 구한 표본 통계량의 값보다 더 극단적인 값이 나올 확률이다.

- 귀무가설 채택 : p-값 > 유의수준(a)

- 귀무가설 기각 : p-값 < 유의수준(a)

6. 임곗값(임계치)

주어진 유의수준을 검정통계량의 값으로 환산한 값으로서 귀무가설 채택 또는 기각하는 기준

- 귀무가설 채택: 임곗값 > 검정통계량

- 귀무가설 기각: 임곗값 < 검정통계량

Post_IT

[빅데이터] 14. 추론통계

<< 추론통계 >>

티스토리툴바