본문 바로가기
Post 빅데이터분석

[빅데이터] 12. 기술통계 ① : 데이터 요약

by IT포스트잇 2025. 5. 4.

<<기술통계>>

여기서의 기술 Technology가 아니라 기술하다(descriptive)의 기술이다.

기술통계는 수집된 데이터를 확률, 통계적으로 정리 및 요약하는 기초적인 통계이다.

데이터 분포의 특징을 파악하려는 목적으로 산출한다.

 

 

<데이터 요약>

1. 대푯값

= 주어진 자료 전체에서 중심 위치를 나타내는 값

 

(1) 평균

 

산술 평균

= 자료를 모두 더한 후 자료 개수로 나눈 값 (이상값에 민감하다)

 

여기서 모집단 = 연구자가 관심 갖는 전체 집합 / 표본집단 = sample. 일부 데이터의 집합

 

## 위 공식을 풀어보면 아래와 같다. ##

 

 시그마 = 덧셈을 나타내는 기호

X = 데이터 값 요소 하나하나

i = X값 인덱스 (1부터 시작하라는 의미)

N = 존재하는 X 인덱스 최대값 (= X값의 개수)

 

1. X n개일 때, n개수만큼 X 모두 더해주고

2. N의 개수로 나누어주기 (일반적인 평균구하기와 똑같음)

 

μ 모양은 = 모평균

X 모양은 = 표본평균

이렇게 외워두자.

 

기하 평균

= 숫자들을 모두 곱한 후 거듭제곱근을 취해서 얻는 평균이다.

(성장률, 백분율과 같이 자료가 비율 또는 배수와 같이 곱의 관계일 때 사용)

 

## 위 공식을 풀어보면 아래와 같다. ##

 

∏ = 곱셈을 나타내는 기호

X = 데이터 값 요소 하나하나

N = X의 개수

V = N 제곱근 (X 개수의 제곱근)

 

만약 X1, X2, X3 = [4,8,16] 이라면

4 x 8 x 16 = 512 이다.

N 제곱근은 2V512 = 8 x 8 x 8 =  8이 기하평균값이 된다.

 

조화 평균

= 자료들의 역수에 대해 산술 평균을 구한 후

그것을 역수로 취한 형균이다.

(속도의 평균, 평균 성장률과 같은 곳에 사용한다)

 

 

(2) 중위수(중윗값)

 

중위수 개념

= 모든 데이터값을 오름차순으로 순서대로 배열하였을 때 중앙에 위치한 데이터값.

(이상값의 영향을 받지 않는다)

만약 X = [90,75,45,100,85,70,65,70] 값이 있다면

1. 먼저 오름차순으로 정렬하기 [45,65,70,70,75,85,90,100]

2. N=8 (데이터값의 개수)

3. 중위수의 위치는 8+1 나누기 2 =  4.5 위치에 있는 값이다.

4. 4번째 숫자가 70, 5번째 숫자가 75이므로 두 값의 평균인 72.5가 중위수!

 

(3) 최빈수

= 빈도수가 가장 높은 데이터값 (가장 여러 번 나타난 값)

(이산형&범주형 데이터 처리에 적합 / 연속형 데이터에는 X)

 

(4) 사분위수

 

사분위수 개념

= 데이터값을 순서대로 배열한 후, 4등분한 지점에 있는 값

 

-      1 사분위수: 데이터를 오름차순 했을 때 첫번째 사등분점

-      2 사분위수: 데이터를 오름차순 했을 때 두번째 사등분점 (=중위수)

-      3 사분위수: 데이터를 오름차순 했을 때 세번째 사등분점

 

(5) 백분위수

 

백분위수 개념

= 모든 데이터값을 순서대로 배열하였을 때 100등분한 지점에 있는 값

 

-      25 백분위수 = 1사분위수

-      50 백분위수 = 2사분위수 (=중앙값)

-      75 백분위수 = 3사분위수

 

 

2. 산포도

= 주어진 자료의 흩어진 정도를 나타내는 값

 

(1) 분산

= 평균으로부터 얼마나 떨어져 있는지를 나타내는 값

양의 편차와 음의 편차를 더할 경우 0이 될 수 있으므로 각 데이터값을 제곱 한 후 모두 더함.

 

1. X라는 데이터값에서 평균을 빼고 제곱하기

2. N개수만큼 X를 같은 방식으로 계산한 값들을 모두 더해주기.

3. 그 더한 값에 N개수로 나누기.

 

(2) 표준편차

= 분산에 양의 제곱근을 구한 값

 

(3) 범위

= 자료의 최댓값과 최솟값의 차이

 

(4) IQR (Inter Quartile Range)

=  3사분위와 제1사분위수의 차이 값

 

(5) 사분편차

= IQR의 절반 값

 

(6) 변동계수

= 표준편차를 평균으로 나눈 값

측정 단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용.

 

 

3. 데이터 분포

= 데이터 분포의 형태와 대칭성을 설명할 수 있는 통계량

 

(1) 첨도

= 데이터 분포의 뾰족한 정도를 설명하는 통계량

첨도가 높을수록 표준정규분포보다 더 좁아지고 높아짐

첨도가 낮을수록 표준정규분포보다 더 넓어지고 낮아짐

 

(2) 왜도

= 데이터 분포의 기울어진 정도를 설명하는 통계량 (비대칭성)

왜도가 높을수록 좌측이 높고 우측으로 낮게 긴 꼬리가 생김

왜도가 낮을수록 좌측이 낮고 긴 꼬리가 생기며 우측이 높음

 

 

4. 공분산

= 2개의 변수 사이의 관련성을 나타내는 통계량

 

공분산 종류

 

(1) 모공분산

X 모집단과 Y 모집단 변수 사이의 상관 정도를 나타낸 값

(만약 X Y 두 집단이 같으면 분산계산법과 같아짐)

 

(2) 표본공분산

 

공분산 해석

-      Cov > 0 = 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값도 상승하는 경향을 보인다면 공분산의 값은 양수가 됨

-      Cov < 0 = 2개의 변수 중 하나의 값이 상승하는 경향을 보일 때, 다른 값이 하강하는 경향을 보인다면 공분산의 값은 음수가 됨

 

공분산의 특징

-      상관관계의 상승 또는 하강하는 경향을 파악할 수 있다.

 

(예시)

X 모집단 = [2,1,3] , Y 모집단 = [4,2,6]

각 집단의 평균은 x=2, y=4 이다.

두 집단의 공분산을 계산하면

최종 공분산 값이 0보다 크기 때문에 두 변수는 같은 경향을 보이는 것으로 해석할 수 있다.

(X모집단은 2->1->3 으로 감소증가 경향 / Y모집단도 4->2->6으로 감소증가 경향)

 

 

공분산 행렬

= 각 변수간의 분산을 나타내는 행렬이다.

공분산 행렬에서 대각선 요소는 해당 변수의 분산이고, 비대각 요소는 변수 간의 공분산이다.

 

 

5. 상관계수

= 두 변수 사이의 연관성을 수치상으로 객관화하여 두 변수 사이의 방향성과 강도를 표현하는 방법.

 

상관계수의 개념

-      모상관계수 : 모집단을 대상으로 계산된 상관계수

-      표본상관계수 : 표본 집단을 대상으로 계산된 상관계수

-      두 변수 간에 직선 관계가 있는지를 나타내는 통계량

 

상관계수의 특징

-      상관계수가 높으면 두 변수가 같이 커지거나 같이 작아지는 경향을 보인다.

-      상관계수가 높은 변수가 여럿 존재하면 파라미터 수가 불필요하게 증가하여 차원 저주에 빠질 우려가 있다.

-      신경망 등 기계 학습 모델은 상관 계수가 큰 변수들이 많을 경우 성능이 떨어질 수 있다. (단순히 비슷한 정보를 반복해서 제공하는 것보다는, 핵심적이고 독립적인 정보를 제공하는 변수들을 선별하여 사용하는 것이 모델의 성능과 해석에 더 도움이 되기 때문이다.
마치 책을 쓸 때 비슷한 이야기만 반복해서 하기보다는 조금 다르지만 연관성이 있는 확실한 정보들이 더 높은 인사이트를 가져오는 것과 마찬가지이다)

 

상관계수 해석

= 상관계수는 -1 이상, 1 이하의 값을 가진다.

 

상관계수의 종류

-      피어슨 상관계수: 수치적 데이터일 경우 두 변수 사이의 연관성을 계량적으로 산출하여 분석하는 방법 (예를 들면 키와 몸무게)

-      스피어만 순위상관계수 : 순서적 데이터일 경우 두 변수 사이의 연관성을 계량적으로 산출하여 분석하는 방법 (예를 들면 영어점수 순위와 수학점수 순위)

-      카이제곱 검정 : 명목적 데이터일 경우 두 변수 사이의 연관성을 분석하는 방법 (예를 들면 지역 또는 종교의 종류)