[빅데이터] 10. 데이터 탐색

데이터 탐색

<데이터 탐색 개요>

데이터 탐색의 개념

= 수집한 데이터 분석 초기에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 직관적으로 보는 분석 방법 (변수의 분포 등을 도표 / 그래프 / 요약 통계 등 시각화)

탐색적 데이터 분석 (EDA ; Exploratory Data Analysis)

- 탐색적 데이터 분석의 개념
= 데이터의 특성, 패턴, 관계를 파악하고 시각화하여 데이터를 탐색하는 과정
데이터 이해, 전처리, 모델링 등의 후속 분석에 대한 방향성을 제시한다.

- 탐색적 데이터 분석의 필요성
= 데이터의 분포 및 값을 검토함으로 데이터의 현상을 이해하고 잠재적인 문제 또는 패턴을 발견할 수 있으며, 이를 바탕으로 기존의 가설을 수정 또는 새로운 가설 제시 가능.

탐색적 데이터 분석의 4가지 주제

- 저항성
: 수집된 자료에 오류점, 이상값, 데이터 부분 변동이 있어도 영향을 적게 받는 성질

- 잔차 해석
: 관찰 값들이 주 경향으로부터 벗어난 정도를 보여주는 ‘잔차’를 해석하여 데이터 특징 탐색

- 자료 재표현
: 분석과 해석을 단순화하기위해, 원래 변수를 적당한 척도로 바꾸어 데이터 구조 파악에 도움.
(로그변환, 제곱근 변환, 역수 변환 등을 사용)

- 현시성
: 자료 안에 숨어있는 정보를 시각적으로 표현하고 전달하여 자료의 구조를 효율적으로 파악.
(데이터 시각화, Visualization, Display 등으로도 불림)

개별 변수 탐색 방법

- 범주형 데이터 (질적 데이터)
: 명목 척도와 순위 척도에 대한 데이터 탐색.
빈도수, 최빈수, 비율, 백분율 등으로 데이터의 분포 특성을 파악
(막대형 그래프 주로 사용)

>> 명목형: 이름에 의미 부여 (현대=1, 기아=2, 르노=3)
>> 순서형: 순서에 의미 부여 (초졸=1, 중졸=2, 고졸=3)

- 수치형 데이터 (양적 데이터)
: 등간 척도와 비율 척도에 대한 데이터 탐색.
평균, 분산, 표준편차, 첨도, 왜도 등을 이용하여 데이터 분포 특성을 파악
(히스토그램 또는 박스플롯 주로 사용)
>> 이산형: 변수가 취할 수 있는 값을 하나씩 셀 수 있는 경우 (방개수,사람수)
>> 연속형: 변수가 구간 안의 모든 값을 가질 수 있는 경우 (모든 값)

다차원 데이터 탐색 방법

- 범주형-범주형
: 빈도수와 비율, 교차 빈도, 백분율 분석등을 통해 데이터간 연관성 분석.
(막대 그래프로 시각화)

- 수치형-수치형
: 산점도와 기울기를 통해 데이터간 연관성 분석.
(산점도로 시각화 / 공분산을 통해 방향성 파악)

- 범주형-수치형
: 데이터의 항목들을 그룹으로 간주하고, 그룹별 수치형 변수의 기술 통계량 차이를 비교.
(박스플롯으로 시각화)

<상관관계 분석>

상관관계 분석 개념

= 두개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 강도를 측정하고 분석하는 방법.

(예: 기업의 광고비 지출과 매출액 증가의 상호 연관성 파악)

변수 사이의 상관관계 종류

- 양(+)의 상관관계
: 한 변수의 값이 증가하면 다른 변수 값도 증가하는 경향

- 음(-)의 상관관계
: 한 변수의 값이 증가할 때 다른 변수 값은 반대로 감소하는 경향

- 상관관계 없음
: 한 변수의 값이 변화해도 아무 상관 없는 경향

상관관계의 표현 방법

- 산점도 (Scatter Plot)를 통한 표현 방법

<기초통계량 추출 및 이해>

중심 경향성의 통계량

- 평균값

- 중위수 : 값을 순서대로 배열하였을 때 중앙에 위치한 데이터값

- 최빈수 : 빈도수가 가장 높은 데이터값

- 사분위수 : 4등분한 지점에 있는 값

- 백분위수 : 100등분한 지점에 있는 값

산포도 통계량

= 흩어진 정도인 산포도를 표현한 기초통계량

- 분산 : 평균으로부터 얼마나 떨어져있는지 나타내는 값

- 표준편차 : 분산의 양의 제곱근을 취한 값

- 범위 : 데이터 최댓값과 최솟값의 차

- IQR : 3사분위수와 1사분위의 차이 값

- 사분편차 : IQR의 절반 값

- 변동계수 : 표준편차를 평균으로 나눈 값

분포 통계량

= 데이터의 분포가 좌우로 치우친 정도에 따른 왜도와, 정규분포보다 뾰족한 정도를 나타내는 첨도로 데이터의 분포를 파악할 수 있다.

- 첨도: 분포의 뾰족한 정도

- 왜도: 분포의 길우어진 정도

<시각적 데이터 탐색>

1. 히스토그램

= 자료 분포의 형태를 직사각형 형태로 시각화하는 그래프

히스토그램 특징

= 연속형 데이터의 분포를 시각화한다.

가로축은 수치형 데이터

막대너비는 일정하며 서로 붙어있다.

2. 막대형 그래프

= 많고 적음을 비교하기 쉽도록 수량을 막대의 길이로 표현하는 그래프

막대형 그래프 특징

= 수치형 데이터가 아니어도 되며, 막대와 막대너비가 같지 않거나 떨어져 있어도 괜찮다.

3. 파레토 다이어그램

= 빈도가 높은 범주부터 낮은 범주 순서로 막대 그래프로 표현 후 -> 누적 비율을 꺾은 선으로 표현한 다이어그램.

파레토 다이어그램 특징

4. 박스플롯 (Boxplot)

= 많은 데이터를 그림을 이용해 집합의 범위와 중위수를 빠르게 확인 가능한 시각화 기법.
통계적 이상값을 빠르게 확인가능.

박스플롯의 구성요소

- 최솟값

- 최댓값

- 제1 사분위(Q1) : 자료들의 하위 25%

- 제2 사분위(Q2) : 자료들의 50% 위치 (중위수) + 두꺼운 막대

- 제3 사분위(Q3) : 자료들의 하위 75%

- 하위 경계 : Q1에서 1.5 IQR을 뺀 위치

- 상위 경계 : Q3서 IQR의 1.5배 위치

- 수염 : Q1~Q3로부터 IQR의 1.5배 범위내 가장 멀리 떨어진 데이터까지 이어진 선

- 이상값 : 수염보다 바깥쪽에 존재하는 데이터

5. 산점도 (Scatter Plot)

= 각각의 관찰점들을 가로축과 세로축 좌표평면상에 표시해 시각화

2개의 연속형 변수 간의 관계를 보기 위해 사용

'Post 빅데이터분석' 카테고리의 다른 글

[빅데이터] 13. 기술통계 ② : 표본추출과 확률분포 (0)	2025.05.05
[빅데이터] 12. 기술통계 ① : 데이터 요약 (0)	2025.05.04
[빅데이터] 9. 분석 변수 처리 (1)	2025.04.30
[빅데이터] 8. 데이터 전처리 & 텍스트 전처리 (0)	2024.09.23
[빅데이터] 7. 데이터 저장 및 저장기술 (0)	2024.09.22

Post_IT

[빅데이터] 10. 데이터 탐색

'Post 빅데이터분석' 카테고리의 다른 글

티스토리툴바

[빅데이터] 10. 데이터 탐색

'Post 빅데이터분석' 카테고리의 다른 글

관련글

티스토리툴바