상세 컨텐츠

본문 제목

회귀분석 사례 (3) - 코스피/코스닥 상장기업 12개년 재무분석: 2편

포트폴리오

by 데이컨 2024. 9. 22. 23:38

본문

안녕하세요. 앞선 1편에 이어 2편으로 돌아온 유가증권 상장기업의 과거 12개년치 재무제표를 기반으로 기업의 가치를 평가한 회귀분석 사례입니다. 주제는 '기업의 보유부동산 비율이 기업의 가치에 영향을 미치는가?' 였습니다. 1편에서 데이터 수집 과정과 분석에 필요한 변수(종속/독립/통제변수)에 대한 정의에 대해 말씀드렸고, 2편에서는 회귀분석 결과에 대해 소개드리겠습니다.


5. 기술통계량

회귀분석에 앞서, 생성한 데이터셋이 NULL값은 없는지, MIN-MAX 값은 어떻게 분포되어있는지 등을 확인하기 위하여 기초통계분석을 수행합니다. 종속/설명/통제변수로 사용된 13개 변수에 대한 기초통계량은 다음과 같습니다.

변수 N 최소값 최대값 평균 표준편차
MB비율 9600 0.020 0.999 0.443 0.202
보유부동산비율 9600 0.000 0.950 0.310 0.185
부채비율 9600 0.000 84510.240 131.456 1007.059
기업규모 9600 15.956 26.829 19.634 1.570
ROA 9600 -118.070 141.520 1.732 9.514
영업현금흐름 9600 -3480396427 67031863000 174143964 1957445591
연구개발광고비 9600 -515675 31032149000 59247980 803110038
매출액증가율 9600 -97.520 29170.460 13.126 309.122
cash 9600 0.000 0.889 0.086 0.089
liq 9600 0.041 171.661 2.312 3.424
tobin 9600 -0.027 3.023 0.371 0.206
사업용부동산 9600 -25582307 128000000000 649724808 3767594208
투자부동산 9600 0 2493734153 34322641 120893333

 

6. 상관분석

선정한 종속/설명/통제변수간 상관관계를 확인합니다. 여기서 확인할 포인트는 두가지입니다.

 

- 1) 종속변수와 설명/통제변수가 어느 방향으로 상관도가 존재하는지?

      예를 들어, 기업가치에 보유부동산비율이 양의 상관관계를 가질 것으로 예상하고 분석을 시작했는데 막상 분석해보니 음의 상관관계를 가진다고 나왔다면 회귀분석 결과도 그렇게 나올 것 입니다. 우리가 갖고 있는 통상적인 관념과 대치되는 결과가 나왔다면 '데이터수집을 잘 못 했는지?', '변수 생성을 할 때 산식을 잘못 적용한 것은 아닌지?' 등 검토를 해봐야합니다.

 

- 2) 설명/통제변수들 간 상관도가 강하지 않은지?  (-0.7 이하거나 or 0.7 이상은 아닌지?)

      회귀분석 시 상관도가 강한 설명변수를 사용하면 다중공선성 문제가 발생합니다. 따라서 설명변수들 간 상관계수값을 중점적으로 검토해야하며, 만약 설명변수 A, B 두 변수의 상관도가 높을 경우에는 둘 중 하나를 제거하고 회귀모형에 적합해야합니다.

7. 회귀분석 결과 (1)

저희가 궁금했던 것은 '기업의 보유부동산 비율이 기업의 가치에 영향을 미치는가?' 였습니다. 따라서

- 종속변수(=예측하고자 하는 변수, Y값)에 기업의 가치를 정량화한 변수인 'M/B비율'을,

- 설명변수(=예측을 설명할 수 있는 변수, X값)에 '보유부동산 비율'을 두고 회귀모형을 적합했습니다.

모형 비표준화 계수 표준화 계수 t 유의확률
B 표준화 오류 베타
1 (상수) 0.389 0.004   97.086 0.000
보유부동산비율 0.175 0.011 0.160 15.734 0.000

 

모형 제곱합 자유도 평균제곱 F 유의확률
1 회귀 9.850 1 9.850 247.560 <.001b
잔차 375.847 9446 0.040    
전체 385.697 9447      
a. 종속변수: MB비율
b. 예측자: (상수), 보유부동산비율

 

모형 요약
모형 R R 제곱 수정된 R 제곱 추정값의 표준오차
1 .160a 0.026 0.025 0.199471885516

 

회귀분석 적합 결과를 산식으로 표현하면 다음과 같으며, 보유부동산비율이 높을수록 기업의 가치도 상승한다는 것을 알 수 있습니다.

M/B비율(y) = 0.389 + 0.175*보유부동산비율(x)

모형의 유의성을 나타내는 F값도 247.560, 유의확률 0.001 미만으로 도출된 모형은 통계적으로 유의하다고 볼 수 있습니다. 그러나 모형의 설명력을 나타내는 수치인 '수정된 R제곱' 값은 0.025로 매우 낮게 측정되었습니다. 800개 기업의 과거 12개년치 재무제표면 데이터가 충분히 확보되었다고 볼 수 있어 적은 데이터양 탓도 아닙니다. 따라서 왜 설명력이 낮을까에 대해서 고민한 결과, 다음과 같은 결론을 얻을 수 있었습니다.

기업가치에 대한 보유부동산 비율의 설명력은 조정된 결정계수 0.025로 다소 낮게 측정되었다. 이는 사회과학 연구의 특성 때문으로 볼 수 있는데, 사회과학에서는 추정하고자 하는 종속변수 Y가 무수히 많은 사회의 다양한 요인들의 영향을 받기 때문이다.
 
반면 과학실험과 같은 자연과학 연구에서는 종속변수 Y를 설명하는 독립변수 X가 명확하고, 타 요인들은 통제하는 것이 수월한 경향이 있다.
 
본 연구에서 추정하고자 하는 기업가치는 실제로 사회의 무수히 많은 요인들에 의해 영향받으며, 그렇기 때문에 기업가치를 설명하는 변수도 무수히 많다.
 
예를 들어, 보유부동산비율 뿐만 아니라 기업의 당기순이익이나 영업이익과 같은 재무제표 기반의 정량적인 정보가 기업가치를 설명할 수도 있고, 기업의 주가나 배당성향과 같은 주주이익에 대한 기여도가 기업가치를 설명할 수도 있고, 혹은 기업의 이미지나 ESG활동 같은 정성적인 정보가 기업가치를 설명할 수도 있다.
 
이외에도 인식되지 않은 미지의 외부 요인도 무수히 존재할 것이다. 따라서, 사회과학의 연구에서 통상 모든 요인을 식별하고 완전히 통제하는 것이 불가능 하다는 점에서 설명력이 높으면서 유의한 모형을 도출해내는 완벽한 연구는 수행하기 어렵다.
 
이러한 점을 고려하여, 본 연구에서도 보유부동산비율이 기업가치를 얼마나 잘 예측하는지 R2에 기초하여 모형을 평가하기 보다는 회귀계수의 부호(Sign) 및 크기, 통계적 유의성 등에 주목할 필요가 있다.

 

8. 회귀분석 결과 (2)

보유부동산비율만을 설명변수로 한 모형의 설명력이 낮게 나와, 통제변수로 사용한 변수들까지 설명변수로 사용하여 모형을 재적합해보았습니다.

모형 비표준화 계수 표준화 계수 t 유의확률
B 표준화 오류 베타
1 (상수) -0.113 0.027   -4.130 0.000
보유부동산비율 -0.001 0.010 -0.001 -0.062 0.951
부채비율 2.258E-05 0.000 0.113 13.671 0.000
기업규모 0.033 0.001 0.255 23.874 0.000
ROA -0.006 0.000 -0.274 -32.399 0.000
영업현금흐름 -1.138E-12 0.000 -0.011 -0.377 0.706
연구개발광고비 -3.714E-12 0.000 -0.015 -0.528 0.598
매출액증가율 1.048E-05 0.000 0.016 1.956 0.051
cash -0.257 0.020 -0.114 -12.734 0.000
liq -0.024 0.001 -0.401 -46.742 0.000
사업용부동산 -3.004E-12 0.000 -0.056 -2.675 0.007
투자부동산 -2.968E-11 0.000 -0.018 -1.872 0.061

 

모형 제곱합 자유도 평균제곱 F 유의확률
1 회귀 141.412 11 12.856 496.576 <.001b
잔차 244.285 9436 0.026    
전체 385.697 9447      
a. 종속변수: MB비율
b. 예측자: (상수), 투자부동산, 매출액증가율, 부채비율, 연구개발광고비, ROA, cash, liq, 보유부동산비율, 기업규모, 사업용부동산, 영업현금흐름

 

모형 요약
모형 R R 제곱 수정된 R 제곱 추정값의 표준오차
1 .606a 0.367 0.366 0.160899407645

 

적합 결과  F값은 496.576, 유의확률 0.001 미만으로 도출된 모형은 통계적으로 유의하다고 볼 수 있습니다. 또한 모형의 설명력을 나타내는 수치인 '수정된 R제곱' 값은 0.367로 높아져, 사회과학연구의 통상적인 설명력 수준인 0.3에서 0.6 사이에 해당되어 본 연구가 잘 설계되었다고 볼 수 있습니다.

관련글 더보기