2. 선형회귀분석 (1): 단순선형회귀분석 in python [Advanced Analytics Lab]
앞서 상관관계 분석을 통해 두 변수간 서로 연관성이 있는지 상관계산출과 산점도를 통해 확인해 보았다. 2010년 부터 2016년까지의 삼성전자 주가와 KOSPI 지수의 상관관계 분석 결과 상관계수 0.66으로 삼성전자 주가 변동과 KOSPI 지수의 변동의 뚜렷한 양적 선형 관계가 있음이 증명되었다. 금번 회에서는 단순 선형 회귀분석을 통해 "삼성전자 주가가 1% 증가하면 KOSPI가 몇 % 증가하는가?"에 대한 대답을 확인해 볼 것이다. 회귀분석이란 변수들간의 관계를 파악함으로써 어떤 특정한 변수의 값을 다른 변수들로 설명하고 예측하는 통계적 기법이다. 예측하고자 하는 변수의 값을 종속변수(Dependent Variable)라고 칭하고, 종속변수들을 설명하는 변수들을 독립변수(Independent Variable)라고 부르고, 종속변수와 독립변수의 관계를 도출하는 것을 회귀분석이라 정의한다. 회귀(Regression) 라는 용어의 사전적 정의는 원래 상태로 돌아가는 것을 의미한다. 영국의 인류학자 프랜시스 골턴 경(Sir Francis Galton, 1822~ 1911)은 928명의 성인 자녀의 키와 부모의 키를 조사하여 아래의 표로 정리하였으며, 분석 결과 부모와 자녀의 키 사이에는 선형적 연관관계가 존재하며, 일정한 수준 이상, 또는 이하이면 신장이 무한정 증가하거나 작아지는 것이 아니라 전체 신장의 평균으로 돌아가는 경향이 있다는 것을 밝혔다. 중심으로 돌아가려는 경향(Regress toward mediocrity)을 분석한 이 연구 방법이 "회귀분석"의 어원이 되었다. 프랜시스 골턴 경은 여성의 키에 1.08을 곱하고 부와 모의 키를 평균으로 환산하여 위의 Figure A 왼쪽 그림과 같은 표를 생성하였으며, Figure A 오른쪽 그림과 같이 각 점이 분포 추세를 대표하는 회귀 직선을 생성하였다. 단순 선형 회귀 분석(Simple Linear Regression Analysis)은 Y를 설...