안녕하세요. 오늘은 "공공데이터 포털"에서 데이터를 직접 찾아 분석한 회귀분석 사례를 소개하고자 합니다. 주제는 교육과 관련된 '유치원 원아수에 영향을 주는 요인은 무엇인가?' 입니다. 아래에서 분석 주제와, 분석 과정, 결과에 대해 상세히 말씀드리겠습니다.
< 교육 분야 데이터 분석 시나리오 설계안 >
어떤 데이터를 | 전국 유치원 7,957곳에 대한 2023년 1차 공시 기준의 다음 정보를 취합하여 (1) 일반현황: 설립유형(공립/사립), 설립일, 운영시간, 학급수, 유아수 등 (2) 교사의 현 기관 근속연수 현황: 1년미만 교사수, 1년이상 2년미만 교사수 등 (3) 수업일수 현황: 수업일수, 특수학습수업일수, 방과후과정수업일수 등 (4) 급식운영 현황: 급식유아수, 영양교사여부, 조리인력수 등 (5) 방과후 과정 운영: 학급수, 유아수, 교직원수 등 (6) 통학차량 현황: 차량운영여부, 운행차량수 등 (7) 교실면적 현황: 교실수, 교실면적, 실내체육장 면적 등 |
어떻게 모아 | 공공데이터 포털 내 교육부가 제공하는 '통합제공 유치원 현황' 데이터를 기반으로 |
어떤 방법으로 분석 및 모델링하여 |
엑셀과 오렌지3를 활용하여 다음 통계 분석을 수행하여 (1) 기술통계: 평균 유아수 등 (2) 상관분석: 유아수와 교실면적의 관계가 있는가 등 (3) 회귀분석: 유아수에 영향을 주는 정보는 무엇인가 등 |
어떠한 가치를 제공하겠다. | - 유아수가 많은 유치원은 유아 및 학부모의 만족도가 높다는 가정 하에 - 유치원 유아수에 영향을 주는 요인을 파악하여 - 어린이들에게 양질의 교육을 제공하기 위해서 어느 요인이 중요한지 알리고자 함 |
저출산 시대에 아이들을 양육하는 가정에서의 양육의 어려운 점으로 꼽히는 것은 보육에 대한 부담이다. 거의 모든 아이들이 어린이집과 유치원을 거쳐 성장하는데, 어린이집과 유치원을 비롯한 보육기관에서의 사건사고들은 끊이지 않는다.
학부모가 믿고 맡길 수 있으며 아이들에게 정서적 안정감과 만족감을 주는 교육 환경은 어떤 환경인지 알고자 한다. 전국 유치원이 필수적으로 공시하는 데이터를 활용하여 학부모와 아이들이 만족하는 유치원의 특징에 대해 분석한다.
전국 유치원에 대한 학부모나 유아의 만족도가 계량화된 정보가 있으면 더욱 좋았겠으나, 해당 정보의 부재로 유치원에 등록된 ‘유아수’를 종속변수로 한다. 유아수가 많을수록 많은 학부모들이 만족하고 있고 실제로 유아를 맡기고 있으며, 신뢰도가 높은 유치원이라고 가정한다.
전국 유치원 7,957곳
공공 데이터 포털 내 교육부가 제공하는 '통합제공 유치원 현황' 데이터를 수집하여 회귀분석을 수행한다.
엑셀과 Orange3를 활용하여 1) 데이터 현황을 파악하기 위하여 기술통계 분석을 수행하고, 2) 종속변수와 설명변수 간에 유의미한 관계가 있는지 판단하기 위하여 상관분석을 수행한다. 마지막으로 3) 유아수에 유의미한 영향을 주는 변수가 무엇인지 파악하기 위하여 회귀분석을 수행한다.
유치원 유아수에 영향을 주는 유치원 교육 환경의 요인을 파악하여 어린이들의 만족도 높은 교육을 위해선 어떤 요인이 중요한지 알리고자 한다.
‘통합제공 유치원 현황’ 데이터는 유치원의 일반 현황을 비롯하여 영역(카테고리)별로 총 13개 데이터가 존재한다. 그 중 문자열 데이터 등 분석에 부적합한 3개 영역을 제외하고 총 10개 영역의 정보를 활용한다. 10개 영역과 영역 내 변수는 다음과 같다. 변수는 총 86개이나 영역별로 대표 변수 3개씩, 총 30개를 기술한다.
[표 1] 유치원 공시 데이터 영역(카테고리)과 변수
영역 순번 | 영역명 | 변수 순번 | 변수명 | 변수수 |
1 | 일반 현황 | 1 | 만3세 유아수 | 21 |
2 | 만4세 유아수 | |||
3 | 만5세 유아수 | |||
2 | 건물 현황 | 1 | 건축년도 | 3 |
2 | 건물전용면적 | |||
3 | 대지총면적 | |||
3 | 교사의 현 기관 근속연수 현황 | 1 | 1년미만 교사수 | 5 |
2 | 1년이상 2년미만 교사수 | |||
3 | 2년이상 4년미만 교사수 | |||
4 | 교실면적 현황 | 1 | 교실수 | 6 |
2 | 교실 면적 | |||
3 | 실내체육장 면적 | |||
5 | 급식운영 현황 | 1 | 급식유아수 | 5 |
2 | 단독배치 영양교사수 | |||
3 | 조리사수 | |||
6 | 방과후 과정 편성/운영에 관한 사항 | 1 | 오후 재편성 학급수 | 10 |
2 | 오후 재편성 참여 유아수 | |||
3 | 강사수 | |||
7 | 수업일수 현황 | 1 | 만3세 수업일수 | 6 |
2 | 만4세 수업일수 | |||
3 | 만5세 수업일수 | |||
8 | 안전점검/안전교육실시 현황 | 1 | 생활안전교육 실시수 | 8 |
2 | 교통안전교육 실시수 | |||
3 | 직업안전교육 실시수 | |||
9 | 직위/자격별교직원 현황 | 1 | 일반 교사수 | 17 |
2 | 보건 교사수 | |||
3 | 영양 교사수 | |||
10 | 통학차량 현황 | 1 | 운행차량수 | 5 |
2 | 9인승 신고차량수 | |||
3 | 15인승 신고차량수 | |||
합계 | 86 |
수집된 데이터는 위 [표 1]에서 볼 수 있듯이, ‘일반 현황’의 유아수는 만3세 유아수/만4세 유아수/만5세 유아수로 분리되어 있다. 또한 실제 데이터는 혼합유아수와 특수유아수도 분리되어 있다. 이를 모두 합산하여 ‘전체 유아수’ 라는 종속변수를 새롭게 만든다.
(종속변수) 전체 유아수
= 만3세 유아수 + 만4세 유아수 + 만5세 유아수 + 혼합유아수 + 특수유아수
이후 종속변수 ‘전체 유아수’를 생성하는데 사용한 5개의 유아수 정보는 Orange3에서 분석 시 컬럼의 Role을 ‘skip’한다. 이는 향후 분석시 종속변수에 활용된 정보가 또 다시 독립변수에 사용되어 독립변수와 종속변수로 같은 정보를 사용하지 않기 위함이다.
마지막으로, 유치원 7,957곳을 구분하는데 사용되었던 교육청명/교육지원청명/유치원명/설립유형/주소의 5개 정보는 유치원을 식별하기 위한 정보이면서 문자열 데이터이므로 분석 활용에 부적합해 Orange3에서 컬럼의 Role을 ‘text’로 지정한다.
데이터 전처리 과정에서 ‘전체 유아수’ 변수를 새롭게 만들었고 10개의 변수를 skip 또는 text 처리하였기 때문에, 정형 데이터는 총 77개가 되었다. (수집한 변수 86 + 신규 생성 1 – 제외 처리 10 = 77개) 분석에 활용한 77개 변수에 대한 기초 통계량인 평균/최빈값/중앙값/분산/최소값/최대값/결측건수는 다음과 같다.
[표 2] 분석에 활용한 변수들의 기술통계량
순번(No) | 항목명(Name) | 평균(Mean) | 최빈값(Mode) | 중앙값(Median) | 분산(Dispersion) | 최소값(Min) | 최대값(Max) | 결측건수(Missing) |
1 | 전체 유아수 | 65.8 | 5 | 40 | 1.1 | 0 | 601 | 0 |
2 | 만3세학급수 | 1.0 | 0 | 1 | 1.2 | 0 | 12 | 0 |
3 | 만4세학급수 | 1.1 | 0 | 1 | 1.1 | 0 | 11 | 0 |
4 | 만5세학급수 | 1.2 | 0 | 1 | 1.0 | 0 | 18 | 0 |
5 | 혼합학급수 | 0.6 | 0 | 0 | 1.7 | 0 | 16 | 0 |
6 | 특수학급수 | 0.2 | 0 | 0 | 2.8 | 0 | 9 | 0 |
7 | 인가총정원수 | 98.3 | 20 | 62 | 0.9 | 4 | 876 | 0 |
8 | 3세정원수 | 18.1 | 0 | 14 | 1.3 | 0 | 216 | 0 |
9 | 4세정원수 | 24.8 | 0 | 20 | 1.2 | 0 | 216 | 0 |
10 | 5세정원수 | 29.9 | 0 | 24 | 1.0 | 0 | 208 | 0 |
11 | 혼합모집정원수 | 11.4 | 0 | 0 | 1.9 | 0 | 302 | 0 |
12 | 특수학급모집정원수 | 0.8 | 0 | 0 | 2.8 | 0 | 36 | 0 |
13 | 건축년도 | 1996.7 | 2002 | 1999 | 0.0 | 1912 | 2023 | 0 |
14 | 건물전용면적 | 1093.6 | 132 | 745 | 2.1 | 32 | 85880 | 0 |
15 | 대지총면적 | 8537.2 | 1000 | 2540 | 2.6 | 59 | 811600 | 0 |
16 | 1년미만교사수 | 1.6 | 0 | 1 | 1.4 | 0 | 24 | 0 |
... | ... | ... | ... | ... | ... | ... | ... | ... |
종속변수인 ‘1) 전체 유아수’는 평균이 65.8명이다. 가장 적은 유아수는 0명이며 가장 큰 유아수는 601명이다. 종속변수는 분석에 가장 중요한 정보이므로 분포를 살펴본다.
[그림 1] 종속변수의 분포
전체 유아수의 분포를 확인하니 0명~20명 구간인 첫번째 구간이 2,800건 이상으로 가장 많다. 이후 유아수 규모가 커질수록 해당하는 유치원수가 감소하는 형태이다.
‘7) 인가총정원수’ 정보는 평균이 98.3명이고 최빈값이 20명이다. 유치원이 허가받은 유아수의 평균이 98.3명이라는 의미로, 평균적으로 전국 유치원은 인가받은 정원의 67%(=65.8/98.3*100)만을 실제 원생으로 모집한다는 것을 알 수 있다.
교사수 정보를 나타내는 ‘16) 1년미만 교사수, 17) 1년이상 2년미만 교사수, 18) 2년이상 4년미만 교사수, 19) 4년이상 6년미만 교사수, 20) 6년이상 교사수’ 는 각각 평균이 1.6명, 1.2명, 1.4명, 0.7명, 0.6명으로 평균 유아수 65.8명에 비해 교사의 수가 적음을 알 수 있다.
종속변수와 설명변수 간의 상관분석을 수행하여 종속변수인 ‘전체 유아수’와 상관관계가 높은 설명변수를 알아본다.
다음은 종속변수와 76개 전체 설명변수 간의 상관분석 결과로, 상관도가 큰 순서대로 나열하였다. 상관도는 +1에서 -1까지 산출될 수 있는 값으로, 분석 데이터에서는 0.999에서 -0.409까지의 값이 산출되었다.
[표 3] 종속변수와 설명변수 간 상관분석 결과
순번 | 상관도 | 설명변수 | 순번 | 상관도 | 설명변수 |
1 | 0.999 | 급식유아수 | 39 | 0.269 | 영양 교사수 |
2 | 0.945 | 참여유아수 계 | 40 | 0.252 | 영양교사자격수 |
3 | 0.941 | 일반 교사수 | 41 | 0.210 | 기간제교사수/강사수 |
4 | 0.898 | 학급편성 계 | 42 | 0.187 | 교실면적 |
5 | 0.898 | 인가총정원수 | 43 | 0.183 | 기간제교원수 |
6 | 0.897 | 5세정원수 | 44 | 0.177 | 보건교사자격수 |
7 | 0.892 | 4세정원수 | 45 | 0.158 | 방과후과정수업일수 |
8 | 0.886 | 만4세학급수 | 46 | 0.141 | 건물전용면적 |
9 | 0.877 | 만5세학급수 | 47 | 0.130 | 12인승신고차량수 |
10 | 0.869 | 정교사2급 자격수 | 48 | 0.128 | 보건 교사수 |
11 | 0.830 | 3세정원수 | 49 | 0.128 | 강사수 |
12 | 0.828 | 만3세학급수 | 50 | 0.126 | 특수학급모집정원수 |
13 | 0.828 | 교실수 | 51 | 0.125 | 특수학급수 |
14 | 0.822 | 교직원수 계 | 52 | 0.118 | 특수학교정교사자격수 |
15 | 0.727 | 정규교원수 | 53 | 0.118 | 기타공간 |
16 | 0.702 | 원장수 | 54 | 0.100 | 수석 교사수 |
17 | 0.693 | 1년미만교사수 | 55 | 0.095 | 조리인력수 |
18 | 0.639 | 운행차량수 | 56 | 0.084 | 특수 교사수 |
19 | 0.635 | 오후재편성참여유아수 | 57 | 0.078 | 재난안전교육 |
20 | 0.613 | 4세수업일수 | 58 | 0.064 | 응급처치교육 |
21 | 0.613 | 1년이상2년미만교사수 | 59 | 0.063 | 특수학급수업일수 |
22 | 0.590 | 3세수업일수 | 60 | 0.056 | 9인승신고차량수 |
23 | 0.585 | 2년이상4년미만교사수 | 61 | 0.055 | 수석교사자격수 |
24 | 0.585 | 5세수업일수 | 62 | 0.053 | 생활안전교육 |
25 | 0.578 | 오후재편성학급수 | 63 | 0.052 | 약물중독예방교육 |
26 | 0.561 | 신고차량수 | 64 | 0.051 | 준교사 자격수 |
27 | 0.549 | 15인승신고차량수 | 65 | 0.050 | 직업안전교육 |
28 | 0.537 | 정교사1급 자격수 | 66 | 0.047 | 폭력예방 및 신변보호교육 |
29 | 0.515 | 6년이상교사수 | 67 | 0.044 | 교통안전교육 |
30 | 0.508 | 원감수 | 68 | 0.039 | 사이버중독예방교육 |
31 | 0.503 | 단독배치영양교사수 | 69 | 0.023 | 실내체육장 |
32 | 0.499 | 4년이상6년미만교사수 | 70 | 0.020 | 보건/위생공간 |
33 | 0.497 | 독립편성참여유아수 | 71 | 0.000 | 혼합모집정원수 |
34 | 0.491 | 사무직원수 | 72 | -0.094 | 혼합학급수 |
35 | 0.417 | 독립편성학급수 | 73 | -0.125 | 조리실/급식공간 |
36 | 0.392 | 조리사수 | 74 | -0.158 | 대지총면적 |
37 | 0.364 | 건축년도 | 75 | -0.403 | 혼합연령수업일수 |
38 | 0.321 | 보직 교사수 | 76 | -0.409 | 공동배치영양교사수 |
상관도가 가장 큰 상위 2개 설명변수는 급식유아수와 참여유아수 계이다. 여기서 급식유아수란 유치원에서 급식을 먹는 유아수를 말하고, 참여유아수 계는 ‘방과후 과정 편성/운영에 관한 사항’ 영역에서 온 정보로 방과후 수업에 참여하는 유아수를 뜻한다.
설명변수의 의미를 고려하니 위 2개 정보는 종속변수에 따른 종속성이 너무나 크다고 생각된다. 등록된 유아수가 많을수록 급식을 먹는 유아수와 방과후 수업에 참여하는 유아수는 함께 많아지기 때문이다. 따라서 급식유아수와 침여유아수 계, 2개 정보는 종속변수의 성격을 지니고 있다고 판단하여 이후 회귀분석에서는 제외하도록 한다.
더불어 6위인 5세정원수부터 4세정원수, 만4세학급수, 만5세학급수처럼 정원수와 학급수는 그 규모가 클수록 유아수도 함께 증가한다. 따라서 종속변수와의 상관성이 높으므로 설명변수에서 제외하도록 한다. 이에 만3세학급수 / 만4세학급수 / 만5세학급수 / 혼합학급수 / 특수학급수 / 인가총정원수 / 3세정원수 / 4세정원수 / 5세정원수 / 혼합모집정원수 / 특수학급모집정원수 총 11개 변수는 회귀분석 시 설명변수에 포함하지 않는다. (Orange3 컬럼 skip 처리)
세번째로 상관도가 높은 변수는 일반 교사수로 전체 유아수와의 상관도가 0.94 이다. 이를 통해 유아수가 많을수록 함께하는 교사수도 많아진다는 것을 알 수 있다. 다음은 두 변수 간 상관도를 시각화한 산점도이다. 유아수가 0명에서 600명까지 증가함에 따라 교사수도 0명에서 40명까지 고르게 증가하는 모습이다.
[그림 2] 전체 유아수 – 일반 교사수 간 산점도
다음은 전체 유아수와 42위를 기록한 교실면적 간의 산점도이다. 유아수가 많을수록 교실의 면적도 함께 커질 것으로 추정하였고, 교실의 면적이 커 쾌적할수록 많은 어린이들이 등록할 것으로 예상하였으나 이에 반하는 결과가 나와 상관도는 0.187에 그쳤다. 따라서 산점도로 확인해보니, 유아수가 많아져도 교실면적에는 큰 변동이 없었다.
[그림 3] 전체 유아수 – 교실면적 간 산점도
회귀분석에 앞서, 63개를 모두 설명변수로 사용할 경우 모형의 복잡도가 높아지며 과적합 가능성이 상존하므로 종속변수에 유의한 변수를 선별하는 변수 선택을 선행한다.
변수 선택은 Orange3의 Data 카테고리에 있는 Rank 위젯을 활용한다. Rank 위젯은 다음과 같이 전체 설명변수를 종속변수에 중요도가 높은 순서대로 나열해 보여준다. 중요도의 측정 기준은 ‘Univariate Regression’을 선택해 최종 모형인 회귀모형과 유사한 기준을 채택한다. 이 기준은 특정 설명변수 단 하나로 회귀모형을 적합했을 때 종속변수를 얼마나 잘 설명하는지를 나타낸다.
[그림 4] Rank 위젯을 활용한 변수 선택 결과
중요도가 높은 상위 10개 변수를 최종적인 설명변수로 선정한다. 통상 10개 내외의 설명변수를 활용하는 것이 회귀모형의 과적합을 방지하면서 예측력을 가장 높일 수 있기 때문이다. 그 결과 일반 교사수 / 학습편성 계 / 정교사2급 자격수 / 교실수 / 교직원수 계 / 정규교원수 / 원장수 / 1년미만교사수 / 운행차량수 / 오후재편성참여유아수가 채택되었다.
전체 유아수를 종속변수로 하고 선별된 10개의 유치원 정보를 설명변수로 하는 회귀분석을 수행한다. 그 결과 다음과 같은 회귀계수를 갖는 회귀모형이 적합되었다.
[표 4] 회귀모형 결과
순번 | 변수명 | 회귀계수 |
1 | intercept | -14.3685 |
2 | 일반 교사수 | 8.60606 |
3 | 학급편성 계 | 4.47579 |
4 | 교직원수 계 | 3.17725 |
5 | 교실수 | 1.99431 |
6 | 운행차량수 | 1.83467 |
7 | 원장수 | 1.76741 |
8 | 정교사2급 자격수 | 0.746438 |
9 | 오후재편성참여유아수 | 0.0791623 |
10 | 1년미만교사수 | -0.899116 |
11 | 정규교원수 | -2.38583 |
이를 수식으로 표현하면 다음과 같다.
전체 유아수(y) = -14.3685 + 8.60606*일반 교사수 + 4.47579*학급편성 계 + 3.17725*교직원수 계 + 1.99431*교실수 + 1.83467*운행차량수 + 1.76741*원장수 + 0.746438*정교사2급 자격수 + 0.0791623*오후재편성참여유아
- 0.899116*1년미만교사수 - 2.38583*정규교원수
전체 유아수에 가장 기여도가 큰 변수는 일반 교사수이다. 다른 모든 설명변수의 값이 동일할 때 일반 교사수가 1명 증가할 때마다 유아수는 8.6명 증가한다. 그 다음 기여도가 큰 변수는 학급편성 개수인데, 이는 방과후 수업이 편성된 학급수를 의미한다. 이를 통해 방과후 수업이 활발한 유치원의 유아수가 많음을 알 수 있다.
그 다음은 교직원수 계와 정교사2급 자격수가 많을수록 유아수가 많아지는데, 이는 어린이들을 돌볼 교직원이 많을수록 유아수가 많아짐을 뜻한다. 하지만 특이하게도 1년미만의 교사수는 전체 유아수에 음의 방향으로 영향을 준다. 즉, 전체 교직원은 많은 것이 좋지만 1년 미만의 교사는 적은 것이 유아수를 증가한다는 점을 시사한다. 또한 교실수와 등하원 운행차량수도 양의 방향으로 회귀계수가 산출되어, 유치원의 인프라도 유아수에 영향을 미친다는 것을 알 수 있다.
위 회귀모형을 활용하여 실제 데이터의 전체 유아수를 예측해본다. Orange3의 Predictions 위젯을 활용하였다. 그 결과, 다음과 같이 1번 행의 경우 실제 7명이었으나 예측은 15명으로 8명의 차이가 있었고, 2번 행의 경우 실제 97명이었으나 예측 102명으로 5명의 차이가 있었다. 이후 건에 대해서도 대체로 실제 값과 예측 값이 크게 엇나가지 않고 잘 예측되었음을 알 수 있다.
[그림 5] Orange3 회귀모형 예측 결과
회귀모형의 예측 결과를 정량적으로 알아보기 위하여 성능 지표를 확인한다.
[표 5] 회귀모형 성능 평가 결과
순번 | 지표 | 지표 한글명 | 성능 |
1 | R2 | 결정계수 | 0.938 |
2 | MAE | 평균절대오차 | 11.536 |
3 | MSE | 평균제곱오차 | 313.846 |
4 | RMSE | 평균제곱오차제곱근 | 17.716 |
R2는 0에서 1 사이의 값을 가지며 1에 가까울수록 설명력이 좋은데, 0.938에 달해 회귀모형의 설명력이 매우 높음을 알 수 있다.
분석에 앞서 유치원 데이터를 두고 많은 학부모들이 믿고 맡기는 유치원들의 요인은 무엇일까 상상해보았다. ‘한 명의 선생님이 너무 많은 아이들을 돌보는 것은 아닌지?’, ‘숙련된 선생님들이 많이 계시는지?’, ‘유치원 시설이 쾌적한지?’, ‘집 앞까지 오는 통학버스가 있는지?’ 등등의 요인이 중요하지 않을까 생각되었다.
그리고 실제로 분석 결과가 예상과 매우 비슷했다. 일반 교사수, 교직원수, 정교사2급 자격수 등 선생님들의 수를 가르키는 변수들이 큰 영향력을 미쳤다. 그리고 교실수와 운행차량수도 많을수록 유아수가 많아지는 경향을 보여 쾌적하고 편리한 유치원이 많은 어린이들을 돌보고 있는 것으로 나타났다. 더불어 방과후 수업 편성 학급수와 오후재편성참여유아(오후 방과후 수업에 참여하는 유아수) 정보도 중요한 항목으로 선정되었는데, 이는 방과후 수업 제도가 잘 운영될수록 유아수가 많아짐을 시사한다.
이번 분석에는 아쉽게도 ‘아이들과 학부모의 유치원에 대한 만족도’를 계량화한 데이터가 부재하여 만족도를 종속변수로 삼지 못하였다. 금번에는 유아수로 대체하여 분석하였으나, 향후에는 아이들과 학부모를 상대로 만족도 조사가 수행되어 유치원 교육 환경이 정량적으로 평가되고 개선될 수 있었으면 좋겠다.
회귀분석 사례 (3) - 코스피/코스닥 상장기업 12개년 재무분석: 2편 (4) | 2024.09.22 |
---|---|
회귀분석 사례 (3) - 코스피/코스닥 상장기업 12개년 재무분석: 1편 (8) | 2024.09.21 |
시각화 보고서 사례 (1) - 축구 선수 및 팀 데이터 분석 (2) | 2024.09.08 |
설문조사 분석 사례 (1) - 지역사회 기관 만족도 조사 (2) | 2024.09.01 |
회귀분석 사례 (1) - 재무제표 기반 기업가치평가 (0) | 2024.03.31 |