<< 추론통계 >>
<추론통계>
1. 추론통계의 개념
= 모집단의 표본을 가지고 모집단의 특성(모수)를 추론하고, 그 결과의 신뢰성을 검정하는 통계적 방법이다.
표본의 개수가 많을수록 표본 오차는 감소한다.
일부의 데이터를 이용하여 모집단을 추정하므로 어느 정도의 오차가 있다.
2. 점 추정 (Point Estimation)
표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법
신뢰도를 나타낼 수 없는 단점이 있어 구간 추정을 주로 사용
표본평균, 표본분산, 표본비율 등이 사용된다.
점 추정 조건
- 불편성/불편의성 : 추정량의 기댓값이 모집단의 모수와 차이가 없다는 특성
(불편 = 편견이 없다)
- 효율성 : 추정량의 분산이 작을수록 좋다는 특성
- 일치성 : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다는 특성
- 충족성/충분성 : 추정량은 모수에 대하여 많은 정보를 제공할수록 좋다는 특성
모수의 점 추정량
- 모평균
n 랜덤변수들의 기대값 더한 후 n으로 나눔(평균)

- 모분산 : 표본분산 제곱
- 모비율 : 표본비율
표준오차
- 추정량은 추출된 표본의 값에 따라서 달라질 수 있다.
- 정확도를 측정하기 위해 추정량의 표준편차를 계산
- 추정량의 표준편차를 푠준오차라고 한다
3. 구간 추정
구간추정의 개념
= 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 방법.
항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기가 주어져야 한다.
- 신뢰수준: 측정값이 존재하는 구간에 모수가 포함될 확률
- 신뢰구간: 신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위
단일 모평균 추정
- 모분산이 알려져 있는 경우: 모집단이 정규분포를 따르고 모분산이 알려져있는 경우 Z-분포를 이용한다.
- 모분산이 알려져있지 않은 경우(n>30): Z-분포를 이용
- 모분산이 알려져있지 않은 경우(n<30): T-분포를 이용
두 모평균 차이의 추정
- 모분산이 알려져있는 경우: Z-분포를 이용
- 모분산이 알려져있지 않은 경우(n>30): Z-분포를 이용
- 모분산이 알려져있지 않은 경우(n<30): T-분포를 이용
대응표본일 경우 두 모평균 차이의 추정
- 대응 표본은 실험 전후의 연구 대상을 비교할 때 많이 사용되는 비교 방법
(예시: 다이어트 약 효과의 검증을 위한 투약 전 후 검증)
- 대표본 n>30일 경우 : Z-분포를 이용
- 소표본 n<30일 경우 : T-분포를 이용
모비율의 추정
- 크기가 n인 표본에서 어떤 사건이 발생할 횟수를 확률변수 X라고 할 때, 표본비율은 X/n 이다.
- 단일 모비율 추정 : Z-분포 이용
- 두 모비율 차이의 추정 : Z-분포 이용
<비모수 통계>
비모수 통계의 개념
= 평균이나 분산 같은 모집단의 분포에 대한 모수성을 가정하지 않은 상태로 분석하는 통계적 방법.
(모수: 모집단 분포 특성을 규정짓는 척도 및 모집단의 특성치)
비모수 통계 특징
- 부호, 순위 등의 통계량 사용
비모수 통계의 장단점
| 장점 | 단점 |
| 1. 모수적 방법에 비해 통계량의 계산이 간편하고 직관적으로 이해하기 쉬움. 2. 모집단의 분포와 무관하게 사용 가능 3. 추출된 샘플의 개수가 10개 미만으로 작은 경우에도 사용 가능 4. 이상값으로 인한 영향이 적음 |
1. 모수 통계로 검정이 가능한 데이터를 비모수 통계를 이용하면 효율성이 떨어짐. 2. 검정통계량의 신뢰성이 부족 3. 자료의 수가 많은 경우 모수적 통계에 비해 오히려 계산 절차 복잡 |
비모수 통계 검정 방법의 종류
| 구분 | 비모수 통계 | 모수통계 |
| 단일 표본 | 부호 검정 윌콕슨 부호순위 검정 |
단일표본 T-검정 |
| 두 표본 | 윌콕슨 순위 합 테스트 | 독립표본 T-검정 |
| 대응 표본 | 부호검정 윌콕슨 부호 순위 검정 |
대응표본 T-검정 |
| 분산 분석 | 크루스칼-왈리스 검정 | ANOVA |
| 무작위성 | 런 검정 | - |
| 상관분석 | 스피어만 순위 상관계수 | 피어슨 상관계수 |
비모수 통계 검정 방법
(1) 부호검정
= 데이터가 중위수를 기준으로 중위수보다 큰지 작은지만을 이용하여 검정하는 방법
(2) 윌콕슨 부호 순위 검정
= 데이터와 중위수의 차이를 비교한 값을 바탕으로 순위를 부여하여 검정하는 방법
(3) 윌콕슨 순위 합 검정
= 데이터와 중위수의 차이를 통해 각 표본 내의 순위 합을 비교하여 두 그룹 간의 중위수 차이를 이용하여 검정하는 방법
(4) 분산 분석 – 크루스칼 왈리스 검정
= 세 집단 이상의 분포를 비교하는 검정 방법. 그룹별 ‘중위수’ 가 같은지를 검정
(5) 런 검정
= 두개의 값을 가지는 연속적인 측정값들이 어떤 패턴이나 경향이 없이 임의적으로 나타난 것인지를 검정하는 방법
<가설검정>
1. 가설
가설의 개념
= 모집단의 특성, 특히 모수에 대한 가정 혹은 잠정적인 결론.
가설을 검정하기 위해 알고 싶은 내용을 기술한 가설의 종류에는 두가지가 있다.
- 귀무가설 : 현재까지 주장되어 온, 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설
- 대립가설 : 표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설 (=연구가설)
2. 가설검정
가설검정 개념
= 모집단에 대한 통계적 가설을 세우고 표본을 추출한 다음, 그 표본을 통해 얻은 정보를 이용하여 통계적 가설의 진위를 판단하는 과정.
표본을 활용하여 모집단에 대입해보았을 때 새롭게 제시된 대립가설이 옳다고 판단할 수 있는지를 평가하는 과정.
가설검정 절차
① 가설설정 : 귀무가설과 대립가설 설정
② 유의수준 설정 : 보통 0.05로 주어지는 경우가 많음
③ 검정통계량 계산 (P-값 산출)
④ 검정통계량>임곗값 (p-값 < 유의수준)
⑤ 의사결정 : 귀무가설의 채택 및 기각
가설검정 방법
- 양측 검정: 모수에 대해 표본자료를 바탕으로 모수가 특정값과 통계적으로 같은지 여부를 판단.
- 단측검정: 모수에 대해 표본자료를 바탕으로 모수가 특정 값과 통계적으로 큰지 작은지 여부를 판단.
3. 가설검정의 오류
가설검정 오류의 개념
= 모집단으로부터 추출된 표본을 기반으로 모집단에 대한 결론을 내리는 것이기 때문에 다음과 같은 통계적인 오류가 발생할 가능성이 항상 존재한다.
가설검정 오류의 종류
- 제1종 오류 : 귀무가설이 참인데 잘못하여 이를 기각하게 되는 오류
- 제2종 오류 : 귀무가설이 거짓인데 잘못하여 이를 채택하게 되는 오류
4. 검정통계량
= 가설검정의 대상이 뫼는 모수를 추론하기 위해 사용되는 표본 통계량
귀무가설이 참이라는 전제하에서 모집단으로부터 추출된 확률표본의 정보를 이용하여 계산된다.
5. p-값 = 유의확률
p-값은 귀무가설이 참이라는 전제하에 실제 표본에서 구한 표본 통계량의 값보다 더 극단적인 값이 나올 확률이다.
- 귀무가설 채택 : p-값 > 유의수준(a)
- 귀무가설 기각 : p-값 < 유의수준(a)
6. 임곗값(임계치)
주어진 유의수준을 검정통계량의 값으로 환산한 값으로서 귀무가설 채택 또는 기각하는 기준
- 귀무가설 채택: 임곗값 > 검정통계량
- 귀무가설 기각: 임곗값 < 검정통계량