ML/에러 해결

다중 공산성 문제

Min Potato 2022. 10. 12. 04:14

다중공산성 문제란? 

 

-독립 변수간의 상관관계가 매우 높을때, 하나의 독립변수의 변화가 다른 독립변수에 영향을 미쳐, 결과적으로 모델이 크게 흔들리는 것을 말함.

-일반적으로 회귀 분석에서는 어떤 설명 변수의 영향력을 파악할 때 설면 변수들 끼리 서로 독립이라는 가정을 하고 있다. 그래야 알아보고자 하는 변수의 영향력만을 오롯이 알 수 있기 때문이다.

-다중공산성에 문제가 발생한다는 것은 독립변수 x1과 x2가 있을때 x1이 종속 변수에 대해 설명한 부분을 x2가 또 설명해 주고 있다고 생각하면 된다.

-이렇게 되는 경우 변수들 각각의 설명력이 약해지게 되며 이는 변수들의 표준 오차의 증가로 여실히 드러나게 됨.

다중공선성 문제가 발생했는지 어떻게 알 수 있는가?

1) correlation matrix를 그려보자

수많은 독립변수 중 어떤 것을 선택해야될 지 모르겠을 때는, 종속변수도 correlation matrix에 포함시켜서, 종속변수와 가장 높은 상관관계를 가지는 독립변수를 선택하라.