본 카테고리에서는 Data Science 관련해서 꼭 알아야 하는 이론적인 내용들을 정리하여 간략하게 정말 간략하게 핵심만 공부할 수 있도록 남겨봅니다. 사실 공부하다 보니 너무 헷갈리고 공부하고 나서도 잊어버리는 경우가 많아서 나름 정리를 해보려고 합니다. 길지 않게 짧게 개념을 잘 알수 있도록 정리하는 것이 첫번째 목표입니다. 그리고, 다른 분들께도 도움이 되면 좋겠어요. ^^
알단 검색하면 보통 이런 말이 일반적으로 나오네요.
- 피어슨 상관 계수: 두 변수 X와 Y의 선형 상관 관계를 수치로 나타내는 통계학적 지표. +1은 완벽한 양의 상관 관계, 0은 상관 관계 없음, -1은 완벽한 음의 상관 관계를 의미한다.
- 상관 관계의 한계: 상관 계수는 선형 관계의 비선형성과 방향을 반영하지만, 그 관계의 기울기나 비선형 관계의 여러 측면을 반영하지 않는다. 상관 계수가 정의되지 않는 경우도 있다.
- 상관 계수의 계산: 상관 계수는 두 변수의 공분산을 각각의 표준 편차의 곱으로 나눈 값이다. 상관 계수의 제곱은 결정 계수라고 하며, 두 변수의 관계의 강도를 나타낸다.
- 상관 계수의 활용: 상관 계수는 컴퓨팅 프로그램에서 일반적인 상관 관계 분석 함수로 사용된다. 스프레드 시트에서는 Correl() 함수를, SPSS와 PSPP에서는 이변량 상관 분석에서 사용할 수 있다. (이건 나중에 알자.. 어렵다..)
일단 이것만 알아도 대충 내용을 짐작할 수 있네요.
요약하자면,
피어슨 상관 계수(Pearson Correlation Coefficient ,PCC)란 두 변수 X 와 Y 간의 선형 상관 관계를 계량화한 수치.
피어슨 상관 계수는 코시-슈바르츠 부등식에 의해 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관 관계, 0은 선형 상관 관계 없음, -1은 완벽한 음의 선형 상관 관계를 의미한다. 일반적으로 상관관계는 피어슨 상관관계를 의미하는 상관계수이다. (상관관계라고 하면 일단 이거다. 꼭 알아야 한다는 말이다.)
표본(sample) 피어슨 상관 계수는,
등간척도(간격척도)나 비례척도(비율척도)의 데이타에서 두 변수의 공분산(covariance) 을 각각의 표준 편차의 곱으로 나눈 값이다. 이게 이해가 한번에 잘 안된다. 그냥 외우면 되기는 하지만...어쨋든 수식은 대략 아래와 같이 생각해 놓자.
- 피어슨 상관계수 = XY공분산 / (X표준편차 * Y 표준편차)


참고로, 피어슨의 상관계수를 제곱하면 결정계수가 된다는 사실을 기억하도록~ ^^
표본 결정계수이건 모집단 결정계수이건 피어슨 각각 구한 피어슨 상관계수를 제곱하면 됨
(상관계수 구해놓고, 결정계수는 잘 모르는 어처구니 없는 실수를 했다.. 제곱만 하면 되는데.. ㅠㅠ)