본문 바로가기
카테고리 없음

[빅데이터] 16. 분석기법 ① 회귀분석 / 로지스틱 회귀 분석

by IT포스트잇 2025. 5. 8.

 

1.  회귀 분석

 

회귀분석의 개념

= 독립변수와 종속변수 간의 선형적인 관계를 도출해서

하나 이상의 독립변수들이 종속변수에 미치는 영향을 분석하고,

독립변수를 통해 종속변수를 예측하는 분석기법

 

회귀분석 변수

- 영향을 주는 변수 x : 독립변수, 설명변수, 예측변수

- 영향을 받는 변수 y : 종속변수, 반응변수, 결과변수

 

회귀 모형이 충족해야 하는 5가지 가정

-        선형성 : 독립변수와 종속변수는 선형적이어야 하는 특성

-        독립성 : 독립변수의 값이 서로 상관성 없이 독립적이어야 함

-        등분산성 : 잔차의 분산이 독립변수와 무관하게 일정, 고르게 분포되어야 함

-        비상관성 : 관측치와 잔차는 서로 상관이 없어야 한다는 특성 (잔차끼리 서로 독립)

-        정상성(정규성) : 잔차항이 정규분포의 형태를 이뤄야 한다는 특성

 

>(관측치와 잔차는 서로 상관이 없어야 한다는 이유)

예를 들어, 회귀 모델을 사용해 주택 가격을 예측한다고 가정해 봅시다. 모델이 주택 크기, 위치, 나이 등의 독립 변수로 주택 가격을 예측합니다. 모델이 잘 맞는다면, 예측된 주택 가격과 실제 주택 가격 간의 차이(잔차)는 무작위로 분포해야 합니다. , 잔차는 주택 가격과 무관하게 랜덤해야 합니다. 하지만 잔차가 주택 가격과 상관이 있다면, 이는 모델이 설명하지 못한 중요한 요소가 있다는 뜻입니다. 이는 모델을 개선하거나 추가 변수를 고려해야 한다는 신호입니다.

 

회귀모형 검증

-        회귀 모형이 통계적으로 유의미한가? : F통계량의 p-값이 0.05보다 작으면 유의미

-        회귀계수들이 유의미한가? : 독깁변수가 종속변수에 미치는 영향 파악

-        회귀 모형이 얼마나 설명력을 갖는가? 결정계수가 높은 값을 가질수록 설명력 높음.

-        회귀 모형이 데이터를 잘 적합하고 있는가?

-        데이터가 가정을 만족시키는가?

 

회귀 모형 분석 절차

-        1. 독립변수, 종속변수 선정

-        2. 회귀 계수 추정

-        3. 회귀 계수의 유의성 검정

-        4. 회귀 모델 유의성 검정

 

>회귀 계수(Regression Coefficient)
회귀 분석에서 독립 변수(설명 변수)와 종속 변수(반응 변수) 사이의 관계를 나타내는 값

 

 

(2) 회귀 분석 유형

 

-        단순선형 회귀 : 독립변수 1 / 종속변수와의 관계가 직선

-        다중선형 회귀 : 독립변수 k / 종속변수와의 관계가 선형

-        다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계

-        곡선 회귀 : 독립변수가 1 / 종속변수와의 관계가 곡선

-        로지스틱 회귀 : 종속변수가 범주형인 경우 적용

-        비선형 회귀 : 회귀식의 모양이 미지의 모수들의 선형관계로 안이뤄져있음

 

**단어

편차: 관측치가 평균으로부터 떨어져있는 정도 (평균과의 차이)

오차: 모집단에서 실젯값이 회귀선과 비교해 볼 대 나타나는 차이

잔차: 표본에서 나온 관측값이 회귀선과 비교해볼 때 나타나는 차이

 

(3) 최적 회귀방정식의 선택

= 모든 가능한 독립변수들의 조합에 대한 회귀 모형을 생성한 뒤 가장 적합한 회귀 모형을 선택한다.

 

-        전진 선택법 : 중요하다고 생각되는 독립변수를 차례로 모형에 추가

-        후진 소거법 : 독립변수 모두 포함해서 시작한 후 가장 적은 영향 변수 하나씩 제거

-        단계적 방법 : 변수 추가해서 기본 변수의 중요도가 악화되지 따라 변수 추가 제거

 

(4) 벌점화된 선택기준

= 모형의 복잡도에 벌점(Penalty)를 주는 방법으로 AIC 방법과 BIC 방법을 사용한다.

 

-        AIC (Akaike Information Criterion)
실제 데이터의 분포와 모형이 예측하는 분포 사이의 차이를 나타낸 지표
AIC
값이 낮을수록 모형의 적합도가 높은 것
표본이 커질수록 부정확해지는 특성

-        BIC (Bayesian Information Criterion)
BIC
는 표본이 커질수록 부정확해지는 AIC 단점을 보완한 지표.
표본의 크기가 커질수록 복잡한 모형을 더 강하게 처벌한다.

 

 

 

2. 로지스틱 회귀 분석

 

(1) 로지스틱 회귀 분석의 개념

= 독립변수가 수치형이고
종속변수가 이산형/범주형인 경우 적용회는 모형

= 새로운 독립변수의 값이 주어질 때
반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여
추정 확률을 기준치에 따라 분류하는 목적으로 사용된다.

 

(2) 로지스틱 회귀 분석의 필요성

- 대상이 되는 데이터의 종속변수(y)의 결과는 0 1 두개의 경우만 존재하는 반면,

단순선형회귀를 적용하면 범위[0,1]을 벗어나는 결과가 나와 예측의 정확도가 떨어진다.

(=> 종속변수가 범주형의 경우 로지스틱 회귀 분석을 사용해야 한다)

 

(3) 로지스틱 회귀 분석의 원리

= 독립변수가 어느 숫자이든 상관없이 종속변수 또는 결과값이 로짓(Logit) 변환을 수행함으로써 항상 범위[0,1] 사이에 있도록 한다.

= 분석 대상이 되는 이항 변수인 0,1은 로짓을 이용해서 연속변수인 것처럼 바꿔준다.

'로짓(Logit)'은 선형 회귀 모델의 결과를 비선형 확률 값으로 변환하는 함수입니다. 이 함수는 확률값을 0 1 사이로 제한하고, 이진 분류 문제에서 확률을 예측하는 데 사용됩니다.

 

-        오즈(Odds)
특정 사건이 발생할 확률과 그 사건이 발생하지 않을 확률의 

-        로짓(Logit) 변환
오즈에 로그를 취한 함수로서 입력값의 범위가 [0,1]일 때, 출력값의 범위를 조정하는 기법.

-        시그모이드 함수
S
자형 곡선을 갖는 수학 함수
로짓함수에 역함수를 취하면 시그모이드 함수가 된다.