강우량에 대한 간단한 선형 회귀 플롯입니다. 이 분석을 위해 기본적으로 R과 함께 제공되는 자동차 데이터 집합을 사용합니다. 자동차는 표준 내장 데이터 집합으로, 간단하고 이해하기 쉬운 방식으로 선형 회귀를 편리하게 시연할 수 있습니다. R 본체에 차량을 입력하기만 하면 이 데이터 집합에 액세스할 수 있습니다. 50개의 관측값(행)과 2개의 변수(열)로 구성되어 있습니다. 여기에서 처음 여섯 개의 관측을 인쇄할 수 있습니다. 여기서 ZY`는 Y에 대한 예측 된 표준 점수이고, r은 상관 관계이며 ZX는 X에 대한 표준화 된 점수입니다. 이러한 추가 요소를 추가하면 회귀 해석에 종속 변수를 추가하고 다중 회귀 해석 모델을 작성할 수 있습니다. 널리 과소 평가 될 수있는 하나의 개념 / 도구는 선형 회귀입니다. 이 엄지 손가락 규칙은 일반적으로 허용되지만 Green(1991)은 이 것을 한 단계 더 발전시키고 회귀에 대한 최소 샘플 크기는 50이어야 하며 기간당 8개의 관측값은 추가로 사용해야 한다고 제안합니다. 예를 들어 상호 작용하는 변수와 세 개의 예측 변수가 있는 경우 과적합을 방지하려면 샘플에 약 45-60개의 항목이 필요하거나 녹색에 따라 50 + 3(8) = 74개의 항목이 필요합니다. 회귀 방정식은 변수가 표준화되어 평균이 0이고 표준 편차가 1이되도록 하면 더 간단합니다.

이렇게 하면 회귀 선이 됩니다: y= Beta0 + Beta1x로 지정된 모델인 위의 예제를 취하고 다른 베타 1 값으로 플레이하는 경우 이러한 통계는 회귀 모델이 데이터에 얼마나 잘 맞는지 파악하는 데 도움이 됩니다. 출력의 ANOVA 테이블은 p-값과 f-통계를 제공합니다. 참고: 회귀 계산은 일반적으로 소프트웨어 패키지 또는 그래프 계산기로 처리됩니다. 그러나 이 예제에서는 피투성이 세부 정보가 교육적 가치를 가지므로 계산을 „수동으로” 수행합니다. 지금까지 전체 데이터 집합을 사용하여 선형 회귀 모델을 빌드하는 방법을 보았습니다. 이러한 방식으로 빌드하면 모델이 새 데이터로 어떻게 수행되는지 알 수 없습니다. 따라서 데이터 집합을 80:20 샘플(training:test)으로 분할한 다음 80% 샘플에서 모델을 빌드한 다음 빌드된 모델을 사용하여 테스트 데이터에 대한 종속 변수를 예측하는 것이 좋습니다. 이제 선형 모델이 빌드되고 해당 속도가 알려진 경우 dist 값을 예측하는 데 사용할 수 있는 수식이 있습니다. 이 것으로 충분하면 실제로 이 모델을 사용할 수 있습니까? 아니요! 회귀 모델을 사용하기 전에 이 모델이 통계적으로 유의한지 확인해야 합니다. 이를 어떻게 보장합니까? linearMod에 대한 요약 통계를 인쇄하여 시작할 수 있습니다. 회귀를 추정하는 것은 비교적 간단한 일입니다. 회귀를 사용하는 하드 비트는 잘못된 회귀를 사용하지 않는 것입니다.

이전 회귀에 대한 표준 회귀 진단은 다음과 같습니다. 피팅된 회귀 선의 방정식은 플롯의 맨 위에 주어집니다. 회귀 방정식은 y의 평균 값을 하나 이상의 x 변수 함수로 설명하기 때문에 방정식은 실제로 „평균” 출생률(또는 „예측된” 출생률도 괜찮을 것)에 대한 것임을 명시해야 합니다. 통계 표기법에서 방정식은 (hat{y} = 4.267 + 1.373x )로 작성될 수 있습니다. 무엇보다도 방정식을 사용하여 예측을 할 수 있습니다. 예를 들어, 2017년에 얼마나 많은 눈이 내릴까요? y = 2.2923 (2017) + 4624.4 = 0.8 인치.