
1. 회귀 분석
회귀분석의 개념
= 독립변수와 종속변수 간의 선형적인 관계를 도출해서
하나 이상의 독립변수들이 종속변수에 미치는 영향을 분석하고,
독립변수를 통해 종속변수를 예측하는 분석기법
회귀분석 변수
- 영향을 주는 변수 x : 독립변수, 설명변수, 예측변수
- 영향을 받는 변수 y : 종속변수, 반응변수, 결과변수
회귀 모형이 충족해야 하는 5가지 가정
- 선형성 : 독립변수와 종속변수는 선형적이어야 하는 특성
- 독립성 : 독립변수의 값이 서로 상관성 없이 독립적이어야 함
- 등분산성 : 잔차의 분산이 독립변수와 무관하게 일정, 고르게 분포되어야 함
- 비상관성 : 관측치와 잔차는 서로 상관이 없어야 한다는 특성 (잔차끼리 서로 독립)
- 정상성(정규성) : 잔차항이 정규분포의 형태를 이뤄야 한다는 특성
>(관측치와 잔차는 서로 상관이 없어야 한다는 이유)
예를 들어, 회귀 모델을 사용해 주택 가격을 예측한다고 가정해 봅시다. 모델이 주택 크기, 위치, 나이 등의 독립 변수로 주택 가격을 예측합니다. 모델이 잘 맞는다면, 예측된 주택 가격과 실제 주택 가격 간의 차이(잔차)는 무작위로 분포해야 합니다. 즉, 잔차는 주택 가격과 무관하게 랜덤해야 합니다. 하지만 잔차가 주택 가격과 상관이 있다면, 이는 모델이 설명하지 못한 중요한 요소가 있다는 뜻입니다. 이는 모델을 개선하거나 추가 변수를 고려해야 한다는 신호입니다.
회귀모형 검증
- 회귀 모형이 통계적으로 유의미한가? : F통계량의 p-값이 0.05보다 작으면 유의미
- 회귀계수들이 유의미한가? : 독깁변수가 종속변수에 미치는 영향 파악
- 회귀 모형이 얼마나 설명력을 갖는가? 결정계수가 높은 값을 가질수록 설명력 높음.
- 회귀 모형이 데이터를 잘 적합하고 있는가?
- 데이터가 가정을 만족시키는가?
회귀 모형 분석 절차
- 1. 독립변수, 종속변수 선정
- 2. 회귀 계수 추정
- 3. 회귀 계수의 유의성 검정
- 4. 회귀 모델 유의성 검정
>회귀 계수(Regression Coefficient)는
회귀 분석에서 독립 변수(설명 변수)와 종속 변수(반응 변수) 사이의 관계를 나타내는 값
(2) 회귀 분석 유형
- 단순선형 회귀 : 독립변수 1개 / 종속변수와의 관계가 직선
- 다중선형 회귀 : 독립변수 k개 / 종속변수와의 관계가 선형
- 다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계
- 곡선 회귀 : 독립변수가 1개 / 종속변수와의 관계가 곡선
- 로지스틱 회귀 : 종속변수가 범주형인 경우 적용
- 비선형 회귀 : 회귀식의 모양이 미지의 모수들의 선형관계로 안이뤄져있음
**단어
편차: 관측치가 평균으로부터 떨어져있는 정도 (평균과의 차이)
오차: 모집단에서 실젯값이 회귀선과 비교해 볼 대 나타나는 차이
잔차: 표본에서 나온 관측값이 회귀선과 비교해볼 때 나타나는 차이
(3) 최적 회귀방정식의 선택
= 모든 가능한 독립변수들의 조합에 대한 회귀 모형을 생성한 뒤 가장 적합한 회귀 모형을 선택한다.
- 전진 선택법 : 중요하다고 생각되는 독립변수를 차례로 모형에 추가
- 후진 소거법 : 독립변수 모두 포함해서 시작한 후 가장 적은 영향 변수 하나씩 제거
- 단계적 방법 : 변수 추가해서 기본 변수의 중요도가 악화되지 따라 변수 추가 제거
(4) 벌점화된 선택기준
= 모형의 복잡도에 벌점(Penalty)를 주는 방법으로 AIC 방법과 BIC 방법을 사용한다.
- AIC (Akaike Information Criterion)
실제 데이터의 분포와 모형이 예측하는 분포 사이의 차이를 나타낸 지표
AIC값이 낮을수록 모형의 적합도가 높은 것
표본이 커질수록 부정확해지는 특성
- BIC (Bayesian Information Criterion)
BIC는 표본이 커질수록 부정확해지는 AIC 단점을 보완한 지표.
표본의 크기가 커질수록 복잡한 모형을 더 강하게 처벌한다.
2. 로지스틱 회귀 분석
(1) 로지스틱 회귀 분석의 개념
= 독립변수가 수치형이고
종속변수가 이산형/범주형인 경우 적용회는 모형
= 새로운 독립변수의 값이 주어질 때
반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여
추정 확률을 기준치에 따라 분류하는 목적으로 사용된다.
(2) 로지스틱 회귀 분석의 필요성
- 대상이 되는 데이터의 종속변수(y)의 결과는 0과 1 두개의 경우만 존재하는 반면,
단순선형회귀를 적용하면 범위[0,1]을 벗어나는 결과가 나와 예측의 정확도가 떨어진다.
(=> 종속변수가 범주형의 경우 로지스틱 회귀 분석을 사용해야 한다)
(3) 로지스틱 회귀 분석의 원리
= 독립변수가 어느 숫자이든 상관없이 종속변수 또는 결과값이 로짓(Logit) 변환을 수행함으로써 항상 범위[0,1] 사이에 있도록 한다.
= 분석 대상이 되는 이항 변수인 0,1은 로짓을 이용해서 연속변수인 것처럼 바꿔준다.
'로짓(Logit)'은 선형 회귀 모델의 결과를 비선형 확률 값으로 변환하는 함수입니다. 이 함수는 확률값을 0과 1 사이로 제한하고, 이진 분류 문제에서 확률을 예측하는 데 사용됩니다.
- 오즈(Odds)
특정 사건이 발생할 확률과 그 사건이 발생하지 않을 확률의 ‘비’
- 로짓(Logit) 변환
오즈에 로그를 취한 함수로서 입력값의 범위가 [0,1]일 때, 출력값의 범위를 조정하는 기법.
- 시그모이드 함수
S자형 곡선을 갖는 수학 함수
로짓함수에 역함수를 취하면 시그모이드 함수가 된다.