1.1 회귀분석이란
회귀분석은 변수간에 상호관련성을 찾아보는 과정에서,
다른 변수에 영향을 주는 변수 >> 독립변수, 설명변수
독립변수에 의하여 영향을 받는 변수 >> 종속변수, 반응변수
독립변수와 종속변수 간의 함수 관계를 규명하는 통계적인 분석방법
1.2 단순회귀모형
1.2.1 산점도
setwd("D:/방송대/회귀모형 자료(2024년 1월 출간)")
market = read.csv("market-1.csv")
head(market)
plot(market$X,market$Y, xlab="인테리어비", ylab="총판매액", pch=19)
title("인테리어비와 판매액의 산점도")
market_lm=lm(Y~X, data=market)
abline(market_lm)
인테리어비가 증가하면 총판매액도 증가한다는 사실을 알 수 있고, 그 관계는 대략 직선이다.
1.2.2 단순회귀모형
설명변수 X와 반응변수 Y의 관계가 직선의 형태를 가지는 경우,
관찰된 값 Y와 직선의 모형과의 차이를 고려하여 오차항을 도입할 경우, 오차항의 평균은 0이고, 분산은 시그마^2인 정규분포를 따르는 확률변수로 가정할 수 있다.
그 이유는 다음과 같은 가정때문이다.
1. 선형성 : 모델은 X의 선형 함수로 Y를 예측한다고 가정합니다. 이는 모델이 모든 X값에 대해 정확한 예측을 할 수 없으며, 따라서 발생하는 오차(예측치와 실제값 사이의 차이)가 존재함을 의미함
2. 독립성 : 각 오차항은 서로 독립적이라고 가정합니다. 즉, 한 관측치의 오차가 다른 관측치의 오차에 영향을 미치지 않는다.
3. 정규분포 : 오차항은 평균이 0이고 일정한 분산 시그마^2을 가진 정규분포를 따른다고 가정합니다. 이 가정은 중심극한정리에 기반을 두고 있으며, 많은 독립적인 작은 효과들이 합쳐져 오차를 생성하기 때문에 정규분포를 따른다고 볼 수 있다.
4. 등분산성 : 모든 X값에 대해 오차항의 분산이 동일하다고 가정합니다. 이는 오차의 크기가 X값에 따라 변하지 않음을 의미합니다.
이러한 가정하에, 오차항이 평균이 0인 정규분포를 따른다고 할 때, 이는 모델이 데이터의 패턴을 잘 캡처하고 있으며, 남은 오차는 무작위적이고 예측할 수 없는 변동성만을 반영한다는 것을 의미합니다. 따라서, 정규분포를 따르는 오차항은 회귀분석에서 중요한 가정중 하나이며, 이를 통해 모델의 유효성을 평가하고 예측의 신뢰구간을 계산하는데 사용함
'정보통계학과 > 회귀분석' 카테고리의 다른 글
1.3 회귀선의 추정 (0) | 2024.02.25 |
---|