상세 컨텐츠

본문 제목

상관분석이란?

통계이론

by 데이컨 2024. 3. 17. 19:49

본문

상관분석(=상관관계 분석)이란, 두 변수 간의 선형적인 관계를 수치화하는 분석 기법입니다. 서로 다른 두 변수는 서로 관련이 없는 독립적인 관계일수도 있고, 어떠한 식으로든 관련이 있는 상관된 관계일수도 있죠. 이때 두 변수 간의 관계의 강도를 수치화한 것을 상관계수(Correlation Coefficient)라고 합니다.

 

상관계수는 -1에서 1 사이의 값을 갖습니다. -1과 1에 가까울수록 상관관계가 높다는 의미이며, 0에 가까울수록 상관관계가 낮다는 의미입니다.

  • -1 ≤ 상관계수 < 0 : 두 변수가 음의 상관관계를 갖는다.
  • 상관계수 = 0 : 두 변수의 상관관계는 존재하지 않는다.
  • 0 < 상관계수 ≤ 1 :  두 변수가 양의 상관관계를 갖는다.

@ https://dlearner.tistory.com/38

 

1) 두 변수가 음의 상관관계를 갖는다는 것은, 변수 A와 변수 B가 있을 때 변수 A의 값이 커짐에 따라 변수 B의 값은 작아지는 현상을 의미합니다.

2) 두 변수의 상관관계가 존재하지 않는다는 것은, 변수 A와 변수 B의 산점도를 그려봤을 때 위 세번째 그림처럼 아무런 패턴을 찾을 수 없는 현상을 의미합니다.

3) 두 변수가 양의 상관관계를 갖는다는 것은, 변수 A와 변수 B가 있을 때 변수 A의 값이 커짐에 따라 변수 B의 값도 동시에 커지는 현상을 의미합니다.

 

실제 분석에서는, 데이터셋에 있는 전체 변수간의 상관도를 확인할 때가 있습니다.

상관분석 결과 - 1

 

위 분석은 설명변수로 쓰이는 6개의 변수(진원지부터의 거리, 조위 변동량, DN, DE, DH, S)에 대하여 각각 서로의 상관관계를 하나의 표로 나타낸 것입니다. 대각선은 변수 자기 자신을 의미하므로, 상관도가 아니라 해당 변수의 분포를 나타냅니다.

상관분석 결과 - 2

 

상관분석 결과를 보기 쉽게 수치로 나타낸 표입니다.

1) height와 distance는 -0.99의 상관도를 나타내는데, 첫번째 그림(상관분석 결과 - 1)을 보면 실제로 두 변수의 산점도가 직선에 가까운 것을 확인할 수 있습니다.

2) DN과 distance는 0.12의 상관도로 상관관계가 거의 없는 것으로 나타나는데, 첫번째 그림(상관분석 결과 - 1)을 보면 실제로 두 변수의 산점도에서 그 어떤 패턴도 찾을 수 없음을 알 수 있습니다.

 

상관분석을 통해서 1) 주요하게 분석하고자 하는 두 변수(예를 들어 종속변수와 설명변수)의 관계가 어떤지 (강한 양의 관계, 약한 음의 관계 등)를 파악할 수 있습니다. 또한 2) 향후 회귀분석과 같은 모형을 활용할 때, 다중공선성 문제를 제거하기 위하여 설명변수 간 상관도가 높은 변수가 있다면 그 중 하나를 제거해야 하는데, 이 때 상관분석 결과를 활용할 수 있습니다.

 

마지막으로 상관분석에서 유의할 것은 상관분석은 두 변수 간의 연관된 정도를 나타낼 뿐 인과관계를 나타내는 것은 아니라는 것입니다. 예를 들어, 변수 A와 변수 B의 상관도가 0.99로 아주 높다고 하더라도, A가 B에 대한 원인이라던가 B가 A에 대한 원인이라는 해석은 불가하며, A와 B는 단지 결과론적으로 최종적인 값의 분포가 유사하다는 것을 의미합니다.

'통계이론' 카테고리의 다른 글

기초 통계란?  (1) 2024.03.17

관련글 더보기