본문 바로가기
Post 빅데이터분석

[빅데이터] 15. 분석 모형 설계

by IT포스트잇 2025. 5. 7.

<< 분석 모형 설계 >>

 

 

 

<분석절차수립>

 

1. 분석모형선정

= 분석 목적에 부합하고 수집된 데이터의 변수들을 고려하여 적합한 빅데이터 분석 모형을 선정한다.

 

l  현상에서 패턴을 발견하는 것은 탐색적 데이터 분석

l  현상에서 인과적인 결론을 도출하는 것은 통계적 추론

l  현상을 예측하는 것은 기계학습(머신러닝)

 

 

(1) 통계기반 분석 모형 선정

= 불확실한 상황에서 객관적인 의사결정을 수행하기 위해 데이터를 수집, 처리, 분류, 분석, 해석하는 일련의 체계를 통계분석이라고 한다.

 

l  기술통계
(
기술=Descriptive) 수집된 데이터를 확률,통계적으로 정리하는 기초적 통계.
평균, 분산, 표준편차, 왜도와 첨도, 빈도 등 대략적인 통계적 수치를 계산하고 도출
분석 초기 단계에서 데이터 분포의 특징 파악

 

l  상관 분석
두개 이상의 변수 간에 존재하는 상호 연관성의 정도를 측정 분석.
- 
단순상관분석: 두 변수 사이의 연관 관계 분석
- 
다중상관분석: 셋 또는 그 이상의 변수들 사이의 연관 정도를 분석
- 
변수 간의 상관분석: 데이터 속성에 따라 소치적, 명목적, 순서적 데이터

 

l  회귀 분석
하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법.
- 
단순선형 회귀 : 독립변수가 1개이며 종속변수와의 관계가 직선
- 
다중선형 회귀 : 독립변수가 K개이며 종속변수와의 관계가 선형
- 
다항 회귀 : 독립변수와 종속변수와의 관계가 ‘1차 함수 이상인 관계
- 
곡선 회귀 : 독립변수가 1개이며 종속변수와의 관계가 곡선
- 
로지스틱 회귀 : 종속변수가 범주형인 경우 적용
- 
비선형 회귀 : 회귀식의 모양이 선형관계가 아닌 모형

 

l  분산 분석
두개 이상의 집단 간 비교를 수행하고자 할 때, 집단 내의 분산의 비교로 얻은 분포를 이용하여 가설검정을 수행하는 방법.
복수의 집단을 비교할 때 분산을 계산함으로써 집단 간에 통계적인 차이를 판정하는 분석방법
- 
일원분산 분석 : 종속변수가 1개이고 독립변수가 1개이면 일원분산
- 
이원분산 분석 : 종속변수가 1개이고 독립변수가 2개이면 이원분산
- 
다변량분산 분석 : 종속변수가 2개 이상이면 다변량분산

 

l  주성분 분석
고차원 데이터를 더 적은 수의 차원으로 줄여서 분석을 간단하게 만들어 데이터의 변동성을 잘 설명하는 기법.
변수들간의 공분산을 계산하여 데이터의 분산과 변수 간의 관계를 파악한 후, 공분산 행렬의 고유값을 구한다. 고유값이 큰 주성분을 선택하는데 이것이 데이터의 변동성을 잘 설명해준다. 이후 원래 데이터를 선택된 주성분 축으로 변환하여 새로운 저차원 데이터를 만드는 것.

 

l  판별 분석
집단에 대한 정보로부터 집단을 구별할 수 있는 판별규칙 또는 판별함수를 만들고, 다변량 기법으로 조사된 집단에 대한 정보를 활용하여 새로운 개체가 어떤 집단인지를 탐색하는 통계기법.

 

 

 

(2) 데이터 마이닝 기반 분석 모형 선정

 

데이터 마이닝 (Data Mining) 개념

= 대용량 데이터로부터 데이터 내에 존재하는 패턴, 관계, 혹은 규칙 등을 탐색하고 통계적인 기법들을 활용하여 모델화하여 이를 통해 유용한 정보를 추출하는 과정.

데이터마이닝에서 기술(Description)은 대상에 대한 이해를 증가시키기 위해 데이터가 가지고 있는 특징을 나타내고 설명과 답을 제공하는 것.

 

데이터 마이닝 기반 분석 모델 분류

l  본류 모델 (Classification)
범주형 변소 혹은 이산형 변수 등을 예측하는 것.
다수의 속성 또는 변수를 가지는 객체들을 그룹이나 범주 중 하나로 분류하는 모델
(
예시: 신용평점자들의 점수를 낮음’ ‘중간’ ‘높음으로 분류)

 

l  예측 모델 (Prediction)
범주형 및 수치형 등 과거 데이터로부터 특성을 분석하여 다른 데이터의 결과값을 예측하는 기법.
(
예시: 소비자의 신용과 과거구매를 검토해 신용 위험 여부를 예측)
- 
회귀 분석 : 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해내는 분석방법
- 
의사결정나무 : 의사결정을 트리구조로 도표화하여 분류 예측을 수행하는 분석방법
- 
시계열 분석 : 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석방법
- 
인공신경망 : 뇌 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 예측 모델

 

l  군집화 모델 (Clustering)
이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 모델.
각 개체에 대해 관측된 여러 개의 변수값에서 유사한 성격을 갖는 몇 개의 군집으로 집단화하고, 군집들 사이의 관계를 분석하는 다변량 분석 기법.
(
예시: 교복의 표준 치수를 정하기 위해 팔길이//가슴둘레 기준으로 묶기)
- 
계층적 방법: 사전에 군집수를 정하지 않고 단계적으로 단계별 군집결과를 산출하는 방법. (병합적방법: 유사한 객체를 합치는 것 / 분할적방법: 유사성 떨어지는 객체를 분리하는 것)
- 
비계층적 방법: 사전에 군집수를 정해놓고, 객체를 소집단으로 배정하는 방법.
가장 근접한 소집단에 배정한 후, 해당 소집단의 중심좌표를 업데이트하는 방식

 

l  연관규칙 모델 (Association)
데이터에 숨어 있으면서 동시에 발생하는 사건 혹은 항목 간의 규칙을 수치화 하는 기법.
장바구니 분석이라고도 불리며 주로 마케팅에서 활용.
(
예시: A상품이 다른 어떤 상품과 함께 판매될 확률이 높은가?)

 

 

 

(3) 머신러닝 기반 분석 모형 선정

= 처리과정: 표현 -> 평가 -> 최적화 -> 일반화

 

지도학습

 

지도학습의 개념

= 정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법.

지도학습은 설명변수와 목적변수 간의 관계성을 표현해내거나 미래 관측을 예측해내는 것이 초점.

 

지도학습의 기법

l   로지스틱 회귀 : 종속변수가 범주형인 경우 적용되는 회귀 분석 모형

l   인공신경망 분석 : 뇌 뉴런 구조를 모방하여 만든 기계학습 모델

l   의사결정나무 : 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링하는 분류 및 예측 모델

l   서포트 벡터머신 : 데이터를 분리하는 초평면 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도 학습 기반의 이진 선형 분류 모델

l   랜덤 포레스트 : 의사결정나무는 분산이 크다는 점을 고려하여, 배깅과 부스팅보다 더 많은 무작위성을 주어서 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법.

l   감성 분석 : 어떤 주제에 대한 주관적인 인상, 감정, 태도, 개인의 의견들을 텐스트로부터 뽑아내는 분석

 

비지도 학습

 

비지도 학습의 개념

= 입력 데이터에 대한 정답인 레이블(Label)이 없는 상태에서 학습용 데이터를 통해 학습시키는 방법.

목적변수 없이 학습이 이루어지는 방법

 

비지도 학습의 특징

l   예측의 문제보다는 주로 현상의 설명, 특징 도출, 패턴 도출 등의 문제에 많이 활용된다.

l   지도학습기법은 명확한 목적이 있다면, 비지도학습기법은 사전정보가 없는 상태에서 유용한 정보나 패턴을 탐색적으로 발견하고자 하는 성격이 강하다.

l   대표적인 기법은, 군집화, 차원축소기법, 연관 관계분석(장바구니 분석), 자율학습 인공신경망.

 

비지도 학습의 사례

ð  주어진 데이터를 알려지지 않은 일정 특성들로 나누는데 활용

(예시: 군집화 알고리즘으로 사진앨범을 인물별로 분류해주기)

 

강화 학습 Reinforcement Learning

 

강화 학습의 개념

= 선택 가능한 행동 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 학습 방법

 

강화학습 특징

l   컴퓨터가 선택한 행동에 대한 반응에 따라 보상이 주어진다.

l   행동의 결과로 나타나는 보상을 통하여 학습을 진행

l   보상을 최대한 많이 얻도록 하는 행동을 유도하도록 학습을 진행한다.

 

준지도 학습 Semi-Supervised Learning

 

준지도 학습의 개념

= 정답인 레이블(Label)이 포함되어있는 학습용 데이터와 포함되어있지 않은 데이터를 모두 학습에 사용하는 방법.

 

준지도 학습 특징

l   레이블이 일부만 있어도 데이터를 다룰 수 있음

 

전이학습 Transfer Learning

= 학습된 모형을 기반으로 최종 출력층을 바꾸어 재학습하는 알고리즘

한 분야에서 학습한 결과를 학습한적 없는 분야에 적용해서 학습하는 방법.

 

 

 

(4) 독립변수와 종속변수의 유형에 따른 분석 기법 선정

= 주어진 독립변수에 대한 종속변수의 값을 예측, 분류하는 분석 모델 개발

연속형이냐 범주형이냐에 따라서 다양한 데이터 마이닝 기반 분석 기법들의 분류가 가능하다.

 

  종속변수(Y)
독립변수(X)   연속형 변수 이산형/범주형 변수
연속형 변수 회귀분석
인공신경망 모델
K-최근접 이웃기법
의사결정나무(회귀나무)
로지스틱 회귀 분석
판별분석
K-최근접 이웃기법
의사결정나무(분류나무)
이상형/범주형 변수 회귀분석
인공신경망 모델
의사결정나무(회귀나무)
로지스틱 회귀 분석
인공신경망 모델
의사결정나무(분류나무)

 

 

 

(5) 분석 모형 활용 사례

  기법 설명 활용 사례
연관규칙학습 변인 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법 커피를 구매하는 사람은 주로 어떤 간식을 사는가?
분류 분석 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 이 사용자는 어떤 특성을 가진 집단에 속하는가?
유전자 알고리즘 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜나가는 방법 생산팀에서 기계를 어떻게 배치하는 것이 가장 효율적인가?
기계학습 알려진 특성을 활용하여 훈련 데이터를 학습시키고 예측하는 기법 넷플릭스 기록을 바탕으로 시청자는 어떤 종류의 영화를 가장 보고 싶어할까?
회귀 분석 독립변수의 조작에 따른 종속변수의 변화를 확인하여 두 변수 간의 관계를 파악할 때 사용 구매자의 나이가 양복 구매가격 결정에 어떤 영향을 미치는가?
감성 분석 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 새로운 정책에 대한 시민들의 평가는 어떠한가?
소셜 네트워크 분석 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력 있는 사람을 찾아낼 때 사용 소비자들의 관계망은 어떻게 구성되어 있는가?

 

 

2. 분석 보형 정의 및 구축

 

(1) 분석 모형 정의 개념

= 분석 모형을 선정하고 모델에 적합한 변수를 선택하여 모형의 사양(Specification)을 작성하는 기법

모델에 가장 적합한 변수 선택을 위해 매개변수와 초매개변수를 선정

 

매개변수 Parameter 1. 모델 내부에서 확인이 가능한 변수
데이터를 통해서 산출이 가능한 값
2. 예측을 수행할 때 모델에 의해 요구되어지는 값들
3. 매개변수가 모델의 성능을 결정
4. 매개변수는 측정되거나 데이터로부터 얻어지는 값
5. 사람에 의해 수작업으로 측정되지 않음
6. 종종 학습된 모델의 일부로 저장
초매개변수 Hyper Parameter 1. 외적인 요소
데이터분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주는 값
2. 모델의 매개변수값을 측정하기 위해 알고리즘 구현 과정에서 사용
3. 경험에 의해 결정 가능한 값
4. 예측 알고리즘 모델링의 성능 등의 문제를 위해 조절

 

 

(2) 분석 모형 정의 고려사항

분석 대상인 데이터에 비해

1. 모델이 너무 간단하면 과소 적합이 발생. = 학습이 부족해 성능이 떨어지는 현상 (데이터 수집 시 단편화된 방법으로 인한 학습 부족 현상)

2. 모델이 너무 복잡하면 과대 적합이 발생 = 학습 데이터에는 좋지만 실제 데이터에는 성능이 떨어지는 현상. (지나친 차수 증가로 인한 활용성의 부족 현상)

 

부적합 모형 현상

l   모형 선택 오류 : 적합하지 않은 함수 모형 생성

l   변수 누락 : 종속변수와 하나 또는 둘 이상의 독립변수 사이에 관계가 있지만 모델 안에서 누락되는 경우.

l   부적합 변수 생성 : 관련 없는 변수가 모델에 포함된 경우 (과대적합 발생시킴)

l   동시 편향 : 종속변수가 연립방정식(2개 이상의 미지수를 포함하는 방정식)’의 일부인 경우 동시 편향 발생

 

 

(3) 분석 모형 구축 절차

분석모형: 요건 정의 ☞ 모델링 ☞ 검증 및 테스트 ☞ 적용

기계학습: 비즈니스 이해 및 문제 정의 ☞ 데이터 수집 ☞ 데이터 전처리와 탐색 ☞ 데이터에 대한 모델훈련 ☞ 모델 성능 평가 ☞ 모델 성능 향상 및 현업 적용

 

l   1. 요건 정의
기획단계의 분석과제 정의를 통해 도출된 내용을 요건 정의로 구체화하는 과정
(1. 
분석요건 도출 ☞ 2. 수행방안 설계 ☞ 요건 확정 단계)

l   2. 모델링
요건 정의에 따라 상세 분석기법을 적용해 모델을 개발하는 과정.

      모델링 마트 설계 및 구축
: 
분석 대상 데이터를 획득 후 전처리를 통해 변수들 식별 -> 모델 마트 설계

      탐색적 분석과 유의 변수 도출
: 
유의미한 변수를 파악 및 보정을 위한 최적화.

      모델링
: 
업무 특성에 적합한 기법 선택

      모델링 성능평가
: 
정확도, 정밀도, 재편율, 향상도 등 값으로 판단

    3. 검증 및 평가
분석 데이터를 훈련 / 평가 두 데이터로 분리한 다음, 분석 데이터를 이용해서 자체 검증 후 실제 평가에서는 신규 데이터 모델을 적용해 결과를 도출하는 단계.
모든 모델링에서는 반드시 검증 및 평가를 거친다.

    4. 적용

 

 

 

 

3. 분석 환경 구축

 

(1) 데이터 분할 개념

= 학습용 데이터 / 검증용 데이터 / 평가용 데이터로 분할

 

-       학습용 데이터 : 알고리즘의 학습을 위한 데이터

-       검증용 데이터 : 모델의 예측/분류 정확도를 계산하기 위한 검증 데이터

-       평가용 데이터 : 모델의 성능 만족도를 평가하기 위한 실제 데이터

 

(2) 데이터 분할 시 고려사항

- 학습용 데이터와 검증용 데이터는 학습 과정에서 사용하며 / 평가용 데이터는 학습 과정에 사용되지 않고 오로지 모형의 평가를 위한 과정에만 사용.

- 학습용 데이터와 검증용 데이터를 60~80% 사용 / 평가용 데이터를 20~40% 분할 보통

- 학습 조기 종료 방법 (순련이 진행되는 동안 모델의 성능을 지속적으로 평가하고, 성능이 특정 기준을 넘지 않을 경우 훈련을 조기에 중단시키는 방식)