본문 바로가기
Post 빅데이터분석

[빅데이터] 10. 데이터 탐색

by IT포스트잇 2025. 5. 2.

데이터 탐색

 

<데이터 탐색 개요>

 

데이터 탐색의 개념

= 수집한 데이터 분석 초기에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 직관적으로 보는 분석 방법 (변수의 분포 등을 도표 / 그래프 / 요약 통계 등 시각화)

 

탐색적 데이터 분석 (EDA ; Exploratory Data Analysis)

-      탐색적 데이터 분석의 개념
= 
데이터의 특성, 패턴, 관계를 파악하고 시각화하여 데이터를 탐색하는 과정
데이터 이해, 전처리, 모델링 등의 후속 분석에 대한 방향성을 제시한다.

-      탐색적 데이터 분석의 필요성
= 
데이터의 분포 및 값을 검토함으로 데이터의 현상을 이해하고 잠재적인 문제 또는 패턴을 발견할 수 있으며, 이를 바탕으로 기존의 가설을 수정 또는 새로운 가설 제시 가능.

 

탐색적 데이터 분석의 4가지 주제

-      저항성
: 
수집된 자료에 오류점, 이상값, 데이터 부분 변동이 있어도 영향을 적게 받는 성질

-      잔차 해석
: 
관찰 값들이 주 경향으로부터 벗어난 정도를 보여주는 잔차를 해석하여 데이터 특징 탐색

-      자료 재표현
: 
분석과 해석을 단순화하기위해, 원래 변수를 적당한 척도로 바꾸어 데이터 구조 파악에 도움.
(
로그변환, 제곱근 변환, 역수 변환 등을 사용)

-      현시성
: 
자료 안에 숨어있는 정보를 시각적으로 표현하고 전달하여 자료의 구조를 효율적으로 파악.
(
데이터 시각화, Visualization, Display 등으로도 불림)

 

개별 변수 탐색 방법

-      범주형 데이터 (질적 데이터)
: 
명목 척도와 순위 척도에 대한 데이터 탐색.
빈도수, 최빈수, 비율, 백분율 등으로 데이터의 분포 특성을 파악
(
막대형 그래프 주로 사용)

>> 명목형: 이름에 의미 부여 (현대=1, 기아=2, 르노=3)
>> 
순서형: 순서에 의미 부여 (초졸=1, 중졸=2, 고졸=3)

-      수치형 데이터 (양적 데이터)
: 
등간 척도와 비율 척도에 대한 데이터 탐색.
평균, 분산, 표준편차, 첨도, 왜도 등을 이용하여 데이터 분포 특성을 파악
(
히스토그램 또는 박스플롯 주로 사용)
>> 
이산형: 변수가 취할 수 있는 값을 하나씩 셀 수 있는 경우 (방개수,사람수)
>> 
연속형: 변수가 구간 안의 모든 값을 가질 수 있는 경우 (모든 값)

 

다차원 데이터 탐색 방법

-      범주형-범주형
: 
빈도수와 비율, 교차 빈도, 백분율 분석등을 통해 데이터간 연관성 분석.
(
막대 그래프로 시각화)

-      수치형-수치형
: 
산점도와 기울기를 통해 데이터간 연관성 분석.
(
산점도로 시각화 / 공분산을 통해 방향성 파악)

-      범주형-수치형
: 
데이터의 항목들을 그룹으로 간주하고, 그룹별 수치형 변수의 기술 통계량 차이를 비교.
(
박스플롯으로 시각화)

 

 

 

<상관관계 분석>

 

상관관계 분석 개념

= 두개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 강도를 측정하고 분석하는 방법.

(: 기업의 광고비 지출과 매출액 증가의 상호 연관성 파악)

 

변수 사이의 상관관계 종류

-      (+)의 상관관계
: 
한 변수의 값이 증가하면 다른 변수 값도 증가하는 경향

-      (-)의 상관관계
: 
한 변수의 값이 증가할 때 다른 변수 값은 반대로 감소하는 경향

-      상관관계 없음
: 
한 변수의 값이 변화해도 아무 상관 없는 경향

 

상관관계의 표현 방법

-      산점도 (Scatter Plot)를 통한 표현 방법

 

 

 

<기초통계량 추출 및 이해>

 

중심 경향성의 통계량

-      평균값

-      중위수 : 값을 순서대로 배열하였을 때 중앙에 위치한 데이터값

-      최빈수 : 빈도수가 가장 높은 데이터값

-      사분위수 : 4등분한 지점에 있는 값

-      백분위수 : 100등분한 지점에 있는 값

 

산포도 통계량

= 흩어진 정도인 산포도를 표현한 기초통계량

-      분산 : 평균으로부터 얼마나 떨어져있는지 나타내는 값

-      표준편차 : 분산의 양의 제곱근을 취한 값

-      범위 : 데이터 최댓값과 최솟값의 차

-      IQR : 3사분위수와 1사분위의 차이 값

-      사분편차 : IQR의 절반 값

-      변동계수 : 표준편차를 평균으로 나눈 값

 

분포 통계량

= 데이터의 분포가 좌우로 치우친 정도에 따른 왜도와, 정규분포보다 뾰족한 정도를 나타내는 첨도로 데이터의 분포를 파악할 수 있다.

-      첨도: 분포의 뾰족한 정도

-      왜도: 분포의 길우어진 정도

 

 

 

<시각적 데이터 탐색>

 

1. 히스토그램

= 자료 분포의 형태를 직사각형 형태로 시각화하는 그래프

 

히스토그램 특징

= 연속형 데이터의 분포를 시각화한다.

가로축은 수치형 데이터

막대너비는 일정하며 서로 붙어있다.

 

 

2. 막대형 그래프

= 많고 적음을 비교하기 쉽도록 수량을 막대의 길이로 표현하는 그래프

 

막대형 그래프 특징

= 수치형 데이터가 아니어도 되며, 막대와 막대너비가 같지 않거나 떨어져 있어도 괜찮다.

 

3. 파레토 다이어그램

= 빈도가 높은 범주부터 낮은 범주 순서로 막대 그래프로 표현 후 -> 누적 비율을 꺾은 선으로 표현한 다이어그램.

 

파레토 다이어그램 특징

 

4. 박스플롯 (Boxplot)

= 많은 데이터를 그림을 이용해 집합의 범위와 중위수를 빠르게 확인 가능한 시각화 기법.
통계적 이상값을 빠르게 확인가능.

 

 

박스플롯의 구성요소

-      최솟값

-      최댓값

-      1 사분위(Q1) : 자료들의 하위 25%

-      2 사분위(Q2) : 자료들의 50% 위치 (중위수) + 두꺼운 막대

-      3 사분위(Q3) : 자료들의 하위 75%

-      하위 경계 : Q1에서 1.5 IQR을 뺀 위치

-      상위 경계 : Q3 IQR 1.5배 위치

-      수염 : Q1~Q3로부터 IQR 1.5배 범위내 가장 멀리 떨어진 데이터까지 이어진 선

-      이상값 : 수염보다 바깥쪽에 존재하는 데이터

 

 

5. 산점도 (Scatter Plot)

= 각각의 관찰점들을 가로축과 세로축 좌표평면상에 표시해 시각화

2개의 연속형 변수 간의 관계를 보기 위해 사용