[빅데이터] 13. 기술통계 ② : 표본추출과 확률분포

< 표본추출 >

표본추출의 개념

= 모집단 일부를 일정한 방법에 따라 표본으로 선택하는 과정 (표본 표집, 표본 선정)

	전수조사	표본조사
모집단의 크기	모집단이 작을 때	모집단이 클 때
모집단의 분산	분산이 클 때	분산이 작을 때
시간과 비용	충분할 때	부족할 때
측정 형태	대상이 비파괴성일 때	대상이 파괴성일 때

표본추출 기법

- 단순 무작위 추출 : 모집단에서 정해진 규칙 없이 표본ㅇ르 추출하는 방식 (표본이 클수록 정확도가 높아짐)

- 계통 추출 : 모집단을 일정한 간격으로 추출하는 방식 (1부터 멀어지며)

- 층화 추출 : 모집단을 여러 계층으로 나누고 계층별로 추출을 수행하는 방식

- 군집 추출 : 모집단을 여러 군집으로 나누고 일부 군집의 전체를 추출하는 방식

<확률 분포>

1. 확률 및 기본통계이론

(1) 확률의 개념

= 비슷한 현상이 반복해서 일어날 경우에 어떤 사건이 발생할 가능성을 0과 1 사이의 숫자로 표현하는 방법

확률의 계산

P = na / ns = A개수/S개수

S=전체 개수 / A=사건, 관심있는 부분

(2). 조건부 확률

= 어떤 사건이 일어난다는 조건에서 다른 사건이 일어날 확률

- 사건A가 조건일 때, 사건B의 조건부 확률 = P = AB공집합/A

(3) 전 확률의 정리

= 나중에 주어지는 사건 A의 확률을 구할 때 사건의 원인을 나누어 각 원인에 대한 [조건부 확률]과 그 원인이 되는 [확률]의 곱에 의한 가중합으로 구하는 방법.

(4). 베이즈 정리

베이즈 정리의 개념

- 어떤 사건에 대해 관측 전 원인에 대한 가능성과, 관측 후 원인 가능성 사이의 관계를 설명하는 확률이론.

- 사건 B가 여러 원인(A1, A2, A3, ..., An) 중 하나로 인해 발생할 때, 실제로 B가 일어났을 때 그 원인 중 하나(A)가 일어났을 확률을 계산하는 방법입니다.

예시: A 마트에서 50만원을 구매할 시 당첨될 확률은 1%이다. B 마트에서 30만원을 구매할 시 당첨될 확률은 2%이다. C 마트에서 20만원을 구매할 시 당첨될 확률은 3%이다. 당첨된 물건을 집었을 때 그 물건이 C마트에서 구매했을 확률을 구하시오.

2. 확률분포 및 확률변수

확률분포의 개념

= 확률변수가 특정한 값을 가질 확률을 나타내는 분포

확률변수의 개념

= 특정 확률로 발생하는 결과를 수치적 값으로 표현하는 변수 (대문자 X로 주로 표시)

확률변수의 종류

- 이산확률변수 : 셀 수 있는 확률변수

- 연속확률변수 : 연속적인 구간 내의 실숫값을 가진 확률변수

확률변수 – 기댓값

= 확률변수의 값에 해당하는 확률을 곱하여 모두 더한 값.

해당 확률분포에서 평균적으로 중심 위치를 설명해주는 값

3. 확률분포 종류

(1) 이상확률분포

= 이산확률변수 X가 가지는 확률분포이다.

이상확률분포의 종류

- 포아송분포 : 주어진 시간 또는 영역에서 “어떤 사건의 발생 횟수”를 나타내는 확률분포

- 베르누이분포 : “성공 또는 실패” 두 가지의 결과 중 하나를 얻는 확률분포

- 이항분포 : n번 “시행 확률”이 p 일 때, k번 성공할 확률분포

- 초기하분포 : N개 중 r개가 “특정 그룹”이고, n번 추출 했을 때 특정 그룹에서 x개가 뽑힐 확률의 분포.

확률 질량 함수 (PMF; Probability Mass Function)

= 특정 값에 대한 확률을 나타내는 함수

(예시: 주사위를 굴릴 때 숫자 1,2,3.. 각각이 나올 확률은 1/6,1/6,1/6…)

누적 질량 함수 (CMF; Cumulative Mass Function)

= 이산확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수

(예시: 주사위를 굴릴 때 1이하가 나올 확률, 2이하로 나올 확률, 3이하로 나올 확률…은 1/6, 2/6, 3/6…)

(2) 연속확률분포

= 확률변수 X가 연속적인 값을 취할 때 이를 연속확률변수라고 부르며, 이러한 연속확률변수 X가 가지는 확률분포를 연속확률분포라고 부른다.

연속확률분포 종류

- 정규분포

- 표준정규분포 (Z-분포)

- T-분포

- 지수분포

- X2 분포 (카이-제곱분포)

- 감마분포

- F-분포

확률밀도함수 (PDF: Probability Density Function)

= 연속확률변수의 분포를 나타내는 함수

누적밀도함수 (CDF: Cumulative Density Function)

= 연속확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수

4. 표본분포

= 모집단에서 추출한 일정한 개수의 표본에 대한 분포 상태

- 모집단: 정보를 얻고자 하는 집단 전체

- 모수: 모집단의 특성을 나타내는 대푯값

- 표본집단: 모집단에서 선택된 일부

- 통계량: 평균이나 표준오차와 같은 값 (모수 추정)

표본추출(Sampling) 방법

- 복원추출: 한번 뽑은 표본을 모집단에 다시 넣고 추출하는 방식

- 비복원추출: 한번 뽑은 표본을 모집단에 다시 넣지 않고 추출하는 방식

표본조사 용어

- 표본오차 : 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론할 때 생기는 오차 (표본의 크기가 클수록 오차는 작아짐)

- 비표본오차 : 표본 오차를 제외한 모든 오차, 즉 조사 과정에서 발생하는 실수나 원인불명 등 모든 오차. (조사 대상이 클수록 오차가 커짐)

표본분포와 관련된 법칙

- 큰 수의 법칙 : 데이터를 많이 뽑을수록 표본평균의 분산은 0에 가까워진다. (데이터의 퍼짐이 적어져 정확해짐)

- 중심 극한 정리 : 데이터의 크기가 커지면 그 데이터가 어떠한 형태이든 그 데이터 표본의 분포는 최종적으로 정규분포를 따른다는 법칙

'Post 빅데이터분석' 카테고리의 다른 글

[빅데이터] 15. 분석 모형 설계 (0)	2025.05.07
[빅데이터] 12. 기술통계 ① : 데이터 요약 (0)	2025.05.04
[빅데이터] 10. 데이터 탐색 (0)	2025.05.02
[빅데이터] 9. 분석 변수 처리 (1)	2025.04.30
[빅데이터] 8. 데이터 전처리 & 텍스트 전처리 (0)	2024.09.23

Post_IT

[빅데이터] 13. 기술통계 ② : 표본추출과 확률분포

'Post 빅데이터분석' 카테고리의 다른 글

티스토리툴바

[빅데이터] 13. 기술통계 ② : 표본추출과 확률분포

'Post 빅데이터분석' 카테고리의 다른 글

관련글

티스토리툴바