1. 회귀분석의 기본 개념
회귀분석은 변수들 사이의 함수적 관계를 탐색하는 것이다.
회귀분석의 목적은 독립 변수(설명 변수)들이 종속 변수(반응 변수)에 미치는 영향을 추정하고, 이를 기반으로 종속 변수를 예측하는 것입니다. 종속 변수와 독립 변수 간의 관계는 수학적 모델을 통해 표현됩니다.
(1) 회귀모형의 기본 형태
일반적인 회귀모형은 다음과 같이 표현됩니다:
Y = β₀ + β₁ X₁ + β₂ X₂ + ... + βnXn + ϵ
여기서,
- Y는 종속 변수(예: 판매량, 수익 등),
- X₁ , X₂ ,...,Xn은 독립 변수(예: 광고비, 가격, 온도 등),
- β₀ 는 절편(intercept), 즉 독립 변수가 0일 때의 종속 변수 값,
- β₁ , β₂ ,...,βn은 각각의 독립 변수에 대한 회귀계수(regression coefficient)로, 각 독립 변수가 종속 변수에 미치는 영향을 나타냅니다.
- ϵ은 오차항(error term)으로, 모델이 설명하지 못하는 종속 변수의 변동을 의미합니다.
피어슨 상관계수 :
상관계수가 0이라고 Y와 X 사이의 관계가 없는 것이 아니다!
ex : 아래 그림과 같이 Y = 50 - X² 의 피어슨 상관계수는 0이지만 2차의 형태로 함수적 관계를 가진다.
회귀분석의 기울기를 일반적으로 인과관계로 해석 할 수는 없다!
모델이 잘 맞는다고 해서 그것이 좋은 모델이라는 뜻은 아니다. (이 점을 명심!)
선형 회귀 모델은 데이터에서 진정한 관계를 드러내지 못할 수도 있다.
2. 회귀분석의 단계
- 문제에 대한 진술
- 잠재적으로 적절한 변수들의 선택
- 데이터 수집
- 모형 설정
- 적합방법의 선택
- 모형적합
- 모형 평가 및 비판
- 주어진 문제에 대한 해결을 위해 선택된 모형을 사용
3. 회귀분석의 종류
회귀분석에는 다양한 유형이 있으며, 데이터의 특성과 분석 목적에 따라 다른 회귀모델이 사용됩니다.
(1) 단순 회귀(Simple Linear Regression)
- 단순 회귀는 한 개의 독립 변수와 한 개의 종속 변수 간의 선형 관계를 분석하는 모델입니다.
- 수식:
- 예: 광고비(X)가 판매량(Y)에 미치는 영향을 분석할 때 사용됩니다.
(2) 다중 회귀(Multiple Linear Regression)
- 다중 회귀는 두 개 이상의 독립 변수와 종속 변수 간의 관계를 분석하는 모델입니다.
- 수식:
- 예: 광고비(X1)와 가격(X2)이 판매량(Y)에 미치는 영향을 동시에 분석할 수 있습니다.
- 다중회귀에서 F-test로 모형 자체가 유의한지 확인하고, 각각의 t-test 진행해야 한다.
(3) 로지스틱 회귀(Logistic Regression)
- 로지스틱 회귀는 **종속 변수가 이진형 변수(0 또는 1)**일 때 사용됩니다. 이진형 변수는 예/아니오, 성공/실패와 같은 두 가지 범주형 결과를 의미합니다.
- 수식:
여기서 p는 종속 변수가 1일 확률입니다. - 예: 이메일 마케팅 캠페인에서 고객이 이메일을 열었는지 여부(0 또는 1)를 예측하는 데 사용됩니다.
(4) 다항 회귀(Polynomial Regression)
- 다항 회귀는 비선형 관계를 설명할 때 사용됩니다. 독립 변수와 종속 변수 간의 관계가 곡선 형태를 띠는 경우에 적합합니다.
- 수식:
- 예: 판매량과 광고비 간의 관계가 단순한 직선 관계가 아니라 곡선 관계일 때, 이를 설명하기 위해 사용됩니다.
(5) 릿지 회귀(Ridge Regression) 및 라쏘 회귀(Lasso Regression)
- 다중 회귀에서 독립 변수들 간의 다중공선성(multicollinearity) 문제를 해결하기 위해 사용됩니다.
- 릿지 회귀: 계수에 패널티를 부과하여 계수의 크기를 줄이고, 과적합을 방지합니다.
- 라쏘 회귀: 계수 중에서 중요하지 않은 변수의 계수를 0으로 만들어 변수 선택 기능을 합니다.
4. 회귀모델의 적합도 평가
회귀모델을 평가하기 위해 다양한 지표가 사용됩니다. 이를 통해 모델이 데이터를 얼마나 잘 설명하고 있는지 확인할 수 있습니다.
(1) 결정계수(R-squared, R²)
- R ² 는 회귀모델이 종속 변수의 변동을 얼마나 설명하는지를 나타내는 지표입니다. 0에서 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터를 잘 설명하는 것입니다.
- 예: R ² =0.85이면, 모델이 종속 변수 변동의 85%를 설명할 수 있다는 의미입니다.
(2) 조정된 결정계수(Adjusted R-squared)
- R² 는 독립 변수가 추가될 때마다 값이 커지기 때문에, 독립 변수의 수를 고려한 조정된 결정계수를 사용하여 모델의 적합도를 평가합니다. 이는 모델이 과적합(overfitting)되지 않도록 방지합니다.
(3) 잔차 분석(Residual Analysis)
- 회귀모형의 오차항(잔차)을 분석하여 가정이 충족되었는지 확인합니다. 잔차는 모델이 예측한 값과 실제 값의 차이로, 잔차가 정규분포를 따르고, 독립적으로 분포하는지 확인하는 것이 중요합니다.
- 등분산성(Homoscedasticity): 잔차의 분산이 독립 변수의 값에 관계없이 일정해야 합니다.
- 정규성(Normality): 잔차가 정규분포를 따라야 합니다.
5. 회귀분석의 가정
회귀분석을 올바르게 적용하려면 몇 가지 기본 가정이 충족되어야 합니다. 이 가정들이 충족되지 않으면 모델의 결과가 신뢰할 수 없게 됩니다.
(1) 선형성(Linearity)
- 종속 변수와 독립 변수 간의 관계는 선형이어야 합니다. 만약 비선형 관계가 있다면, 비선형 회귀나 다항 회귀와 같은 기법을 사용해야 한다.
- 비선형 회귀분석에서는 해당 X
(2) 독립성(Independence)
- 독립 변수들 간에 상관관계가 없어야 하며, 오차항들 간에도 상관관계가 없어야 합니다. 자기상관이 있을 경우, 시계열 분석 같은 기법을 고려해야 한다.
- 다중 회귀분석에서 해당, 단순은 해당 X
(3) 등분산성(Homoscedasticity)
- 오차항의 분산이 일정해야 한다. 만약 오차항의 분산이 독립 변수의 값에 따라 달라진다면, 이는 이분산성(heteroscedasticity)의 문제이며, 이를 해결하기 위해 변환을 적용하거나 가중회귀분석을 사용할 수 있다.
a, b 모두 잔차의 패턴이 존재하므로 등분산성 가정을 위반함.
a의 경우 liner model이 아닐수도 빠진게 있을수도 있다.
b의 경우 fan shape로 이분산성을 가진다.
위 그림처럼 분산이 일정해야 등분산성을 만족한다.
(4) 정규성(Normality)
- 오차항이 정규분포를 따라야 한다. 정규성 검정을 통해 오차항의 분포가 정규 분포에 가까운지 확인해야 한다.
6. 이상치는 어떻게 해야할까?
일반적으로, 표본 크기가 클 때 이상치들을 제거한다.
이상치들이 왜 이상치이거나 영향을 미치는지 확인하기 위해 검토해야 한다. ( 실제로는 어려울 수 있다 )
- 데이터 오류 수정 (예: 입력 오류)
- 삭제 또는 가중치 감소
- 변환
- 다른 모델 고려
- 실험이나 표본 조사 재설계
- 더 많은 데이터 수집
7. 회귀분석 해석 예시
- 분산 분석을 통해 모형은 유의하다
- 각각의 계수를 구하고, 각 계수의 p-value 또한 유의함
- y = 56080X - 43277075라는 수식으로 매출액과 판매수량간의 함수적 관계를 확인할 수 있음
※ 회귀분석 해석시 유의점 : 우리가 구한 회귀분석에서의 x의 값을 벗어나는 경우에는 신뢰할 수 없다!
위의 그림을 예로 들면, 판매수량이 15000일 경우에는 우리가 구한 수식을 통한 예측을 할 수 없다는 것이다.
'통계' 카테고리의 다른 글
기초통계학 review (1) | 2024.09.26 |
---|---|
탐색적 자료분석 review (1) | 2024.09.19 |