< 표본추출 >
표본추출의 개념
= 모집단 일부를 일정한 방법에 따라 표본으로 선택하는 과정 (표본 표집, 표본 선정)
| 전수조사 | 표본조사 | |
| 모집단의 크기 | 모집단이 작을 때 | 모집단이 클 때 |
| 모집단의 분산 | 분산이 클 때 | 분산이 작을 때 |
| 시간과 비용 | 충분할 때 | 부족할 때 |
| 측정 형태 | 대상이 비파괴성일 때 | 대상이 파괴성일 때 |
표본추출 기법
- 단순 무작위 추출 : 모집단에서 정해진 규칙 없이 표본ㅇ르 추출하는 방식 (표본이 클수록 정확도가 높아짐)
- 계통 추출 : 모집단을 일정한 간격으로 추출하는 방식 (1부터 멀어지며)
- 층화 추출 : 모집단을 여러 계층으로 나누고 계층별로 추출을 수행하는 방식
- 군집 추출 : 모집단을 여러 군집으로 나누고 일부 군집의 전체를 추출하는 방식
<확률 분포>
1. 확률 및 기본통계이론
(1) 확률의 개념
= 비슷한 현상이 반복해서 일어날 경우에 어떤 사건이 발생할 가능성을 0과 1 사이의 숫자로 표현하는 방법
확률의 계산
P = na / ns = A개수/S개수
S=전체 개수 / A=사건, 관심있는 부분
(2). 조건부 확률
= 어떤 사건이 일어난다는 조건에서 다른 사건이 일어날 확률
- 사건A가 조건일 때, 사건B의 조건부 확률 = P = AB공집합/A
(3) 전 확률의 정리
= 나중에 주어지는 사건 A의 확률을 구할 때 사건의 원인을 나누어 각 원인에 대한 [조건부 확률]과 그 원인이 되는 [확률]의 곱에 의한 가중합으로 구하는 방법.
(4). 베이즈 정리
베이즈 정리의 개념
- 어떤 사건에 대해 관측 전 원인에 대한 가능성과, 관측 후 원인 가능성 사이의 관계를 설명하는 확률이론.
- 사건 B가 여러 원인(A1, A2, A3, ..., An) 중 하나로 인해 발생할 때, 실제로 B가 일어났을 때 그 원인 중 하나(A)가 일어났을 확률을 계산하는 방법입니다.

예시: A 마트에서 50만원을 구매할 시 당첨될 확률은 1%이다. B 마트에서 30만원을 구매할 시 당첨될 확률은 2%이다. C 마트에서 20만원을 구매할 시 당첨될 확률은 3%이다. 당첨된 물건을 집었을 때 그 물건이 C마트에서 구매했을 확률을 구하시오.

2. 확률분포 및 확률변수
확률분포의 개념
= 확률변수가 특정한 값을 가질 확률을 나타내는 분포
확률변수의 개념
= 특정 확률로 발생하는 결과를 수치적 값으로 표현하는 변수 (대문자 X로 주로 표시)
확률변수의 종류
- 이산확률변수 : 셀 수 있는 확률변수
- 연속확률변수 : 연속적인 구간 내의 실숫값을 가진 확률변수
확률변수 – 기댓값
= 확률변수의 값에 해당하는 확률을 곱하여 모두 더한 값.
해당 확률분포에서 평균적으로 중심 위치를 설명해주는 값
3. 확률분포 종류
(1) 이상확률분포
= 이산확률변수 X가 가지는 확률분포이다.
이상확률분포의 종류
- 포아송분포 : 주어진 시간 또는 영역에서 “어떤 사건의 발생 횟수”를 나타내는 확률분포
- 베르누이분포 : “성공 또는 실패” 두 가지의 결과 중 하나를 얻는 확률분포
- 이항분포 : n번 “시행 확률”이 p 일 때, k번 성공할 확률분포
- 초기하분포 : N개 중 r개가 “특정 그룹”이고, n번 추출 했을 때 특정 그룹에서 x개가 뽑힐 확률의 분포.

확률 질량 함수 (PMF; Probability Mass Function)
= 특정 값에 대한 확률을 나타내는 함수
(예시: 주사위를 굴릴 때 숫자 1,2,3.. 각각이 나올 확률은 1/6,1/6,1/6…)
누적 질량 함수 (CMF; Cumulative Mass Function)
= 이산확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수
(예시: 주사위를 굴릴 때 1이하가 나올 확률, 2이하로 나올 확률, 3이하로 나올 확률…은 1/6, 2/6, 3/6…)
(2) 연속확률분포
= 확률변수 X가 연속적인 값을 취할 때 이를 연속확률변수라고 부르며, 이러한 연속확률변수 X가 가지는 확률분포를 연속확률분포라고 부른다.
연속확률분포 종류
- 정규분포
- 표준정규분포 (Z-분포)
- T-분포
- 지수분포
- X2 분포 (카이-제곱분포)
- 감마분포
- F-분포
확률밀도함수 (PDF: Probability Density Function)
= 연속확률변수의 분포를 나타내는 함수
누적밀도함수 (CDF: Cumulative Density Function)
= 연속확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수
4. 표본분포
= 모집단에서 추출한 일정한 개수의 표본에 대한 분포 상태
- 모집단: 정보를 얻고자 하는 집단 전체
- 모수: 모집단의 특성을 나타내는 대푯값
- 표본집단: 모집단에서 선택된 일부
- 통계량: 평균이나 표준오차와 같은 값 (모수 추정)
표본추출(Sampling) 방법
- 복원추출: 한번 뽑은 표본을 모집단에 다시 넣고 추출하는 방식
- 비복원추출: 한번 뽑은 표본을 모집단에 다시 넣지 않고 추출하는 방식
표본조사 용어
- 표본오차 : 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론할 때 생기는 오차 (표본의 크기가 클수록 오차는 작아짐)
- 비표본오차 : 표본 오차를 제외한 모든 오차, 즉 조사 과정에서 발생하는 실수나 원인불명 등 모든 오차. (조사 대상이 클수록 오차가 커짐)
표본분포와 관련된 법칙
- 큰 수의 법칙 : 데이터를 많이 뽑을수록 표본평균의 분산은 0에 가까워진다. (데이터의 퍼짐이 적어져 정확해짐)
- 중심 극한 정리 : 데이터의 크기가 커지면 그 데이터가 어떠한 형태이든 그 데이터 표본의 분포는 최종적으로 정규분포를 따른다는 법칙
'Post 빅데이터분석' 카테고리의 다른 글
| [빅데이터] 15. 분석 모형 설계 (0) | 2025.05.07 |
|---|---|
| [빅데이터] 12. 기술통계 ① : 데이터 요약 (0) | 2025.05.04 |
| [빅데이터] 10. 데이터 탐색 (0) | 2025.05.02 |
| [빅데이터] 9. 분석 변수 처리 (1) | 2025.04.30 |
| [빅데이터] 8. 데이터 전처리 & 텍스트 전처리 (0) | 2024.09.23 |