본문 바로가기
Post 빅데이터분석

[빅데이터] 13. 기술통계 ② : 표본추출과 확률분포

by IT포스트잇 2025. 5. 5.

< 표본추출 >

 

표본추출의 개념

= 모집단 일부를 일정한 방법에 따라 표본으로 선택하는 과정 (표본 표집, 표본 선정)

 

  전수조사 표본조사
모집단의 크기 모집단이 작을 때 모집단이 클 때
모집단의 분산 분산이 클 때 분산이 작을 때
시간과 비용 충분할 때 부족할 때
측정 형태 대상이 비파괴성일 때 대상이 파괴성일 때

 

표본추출 기법

-      단순 무작위 추출 : 모집단에서 정해진 규칙 없이 표본ㅇ르 추출하는 방식 (표본이 클수록 정확도가 높아짐)

-      계통 추출 : 모집단을 일정한 간격으로 추출하는 방식 (1부터 멀어지며)

-      층화 추출 : 모집단을 여러 계층으로 나누고 계층별로 추출을 수행하는 방식

-      군집 추출 : 모집단을 여러 군집으로 나누고 일부 군집의 전체를 추출하는 방식

 

 

<확률 분포>

 

1. 확률 및 기본통계이론

 

(1) 확률의 개념

= 비슷한 현상이 반복해서 일어날 경우에 어떤 사건이 발생할 가능성을 0 1 사이의 숫자로 표현하는 방법

 

확률의 계산

P = na / ns = A개수/S개수

S=전체 개수 / A=사건, 관심있는 부분

 

(2). 조건부 확률

= 어떤 사건이 일어난다는 조건에서 다른 사건이 일어날 확률

-      사건A가 조건일 때, 사건B의 조건부 확률 = P = AB공집합/A

 

(3) 전 확률의 정리

= 나중에 주어지는 사건 A의 확률을 구할 때 사건의 원인을 나누어 각 원인에 대한 [조건부 확률]과 그 원인이 되는 [확률]의 곱에 의한 가중합으로 구하는 방법.

 

(4). 베이즈 정리

 

베이즈 정리의 개념

-      어떤 사건에 대해 관측 전 원인에 대한 가능성과, 관측 후 원인 가능성 사이의 관계를 설명하는 확률이론.

-      사건 B가 여러 원인(A1, A2, A3, ..., An) 중 하나로 인해 발생할 때, 실제로 B가 일어났을 때 그 원인 중 하나(A)가 일어났을 확률을 계산하는 방법입니다.

 

 

예시: A 마트에서 50만원을 구매할 시 당첨될 확률은 1%이다. B 마트에서 30만원을 구매할 시 당첨될 확률은 2%이다. C 마트에서 20만원을 구매할 시 당첨될 확률은 3%이다. 당첨된 물건을 집었을 때 그 물건이 C마트에서 구매했을 확률을 구하시오.

 

 

2. 확률분포 및 확률변수

 

확률분포의 개념

= 확률변수가 특정한 값을 가질 확률을 나타내는 분포

 

확률변수의 개념

= 특정 확률로 발생하는 결과를 수치적 값으로 표현하는 변수 (대문자 X로 주로 표시)

 

확률변수의 종류

-      이산확률변수 : 셀 수 있는 확률변수

-      연속확률변수 : 연속적인 구간 내의 실숫값을 가진 확률변수

 

확률변수  기댓값

= 확률변수의 값에 해당하는 확률을 곱하여 모두 더한 값.

해당 확률분포에서 평균적으로 중심 위치를 설명해주는 값

 

3. 확률분포 종류

 

(1) 이상확률분포

= 이산확률변수 X가 가지는 확률분포이다.

 

이상확률분포의 종류

-      포아송분포 : 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률분포

-      베르누이분포 : “성공 또는 실패 두 가지의 결과 중 하나를 얻는 확률분포

-      이항분포 : n 시행 확률 p 일 때, k번 성공할 확률분포

-      초기하분포 : N개 중 r개가 특정 그룹이고, n번 추출 했을 때 특정 그룹에서 x개가 뽑힐 확률의 분포.

 

 

확률 질량 함수 (PMF; Probability Mass Function)

= 특정 값에 대한 확률을 나타내는 함수

(예시: 주사위를 굴릴 때 숫자 1,2,3.. 각각이 나올 확률은 1/6,1/6,1/6…)

 

누적 질량 함수 (CMF; Cumulative Mass Function)

= 이산확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수

(예시: 주사위를 굴릴 때 1이하가 나올 확률, 2이하로 나올 확률, 3이하로 나올 확률 1/6, 2/6, 3/6…)

 

(2) 연속확률분포

= 확률변수 X가 연속적인 값을 취할 때 이를 연속확률변수라고 부르며, 이러한 연속확률변수 X가 가지는 확률분포를 연속확률분포라고 부른다.

 

연속확률분포 종류

-      정규분포

-      표준정규분포 (Z-분포)

-      T-분포

-      지수분포

-      X2 분포 (카이-제곱분포)

-      감마분포

-      F-분포

 

확률밀도함수 (PDF: Probability Density Function)

= 연속확률변수의 분포를 나타내는 함수

 

누적밀도함수 (CDF: Cumulative Density Function)

= 연속확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수

 

 

4. 표본분포

= 모집단에서 추출한 일정한 개수의 표본에 대한 분포 상태

-      모집단: 정보를 얻고자 하는 집단 전체

-      모수: 모집단의 특성을 나타내는 대푯값

-      표본집단: 모집단에서 선택된 일부

-      통계량: 평균이나 표준오차와 같은 값 (모수 추정)

 

표본추출(Sampling) 방법

-      복원추출: 한번 뽑은 표본을 모집단에 다시 넣고 추출하는 방식

-      비복원추출: 한번 뽑은 표본을 모집단에 다시 넣지 않고 추출하는 방식

 

표본조사 용어

-      표본오차 : 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론할 때 생기는 오차 (표본의 크기가 클수록 오차는 작아짐)

-      비표본오차 : 표본 오차를 제외한 모든 오차, 즉 조사 과정에서 발생하는 실수나 원인불명 등 모든 오차. (조사 대상이 클수록 오차가 커짐)

 

표본분포와 관련된 법칙

-      큰 수의 법칙 : 데이터를 많이 뽑을수록 표본평균의 분산은 0에 가까워진다. (데이터의 퍼짐이 적어져 정확해짐)

-      중심 극한 정리 : 데이터의 크기가 커지면 그 데이터가 어떠한 형태이든 그 데이터 표본의 분포는 최종적으로 정규분포를 따른다는 법칙