통계학에서 기초 통계란, 변수의 최소값/최대값/평균 등을 산출하는 것으로 데이터의 특성을 요약하고 설명하기 위한 통계적인 지표를 의미합니다. 본격적인 분석 전에 데이터의 현황을 파악하는 목적으로 수행하죠.
변수(=항목)의 형태에 따라서 산출하는 기초 통계량은 달라집니다.
하나의 연속형 변수에 대한 기초 통계량을 그림으로 나타내면 다음과 같은 상자그림을 그릴 수 있습니다. 최소값과 최대값을 상자그림의 위아래 선으로 표시하고, 25%에 해당하는 Q1(1분위수)와 75%에 해당하는 Q3(3분위수)를 상자로 표시합니다. 그리고 50%에 해당하는 Q2(중위수)를 상자 안의 선으로 표시하여, 이 변수의 대략적인 분포를 알 수 있도록 합니다.
연속형 변수일 때의 기초 통계 예시로 실제 분석 사례를 들어보겠습니다. 해당 데이터는 공공데이터 포털에서 얻은 '유치원 공시 데이터'로, 전국 유치원에 대한 어린이수, 교사수, 수업일수 등 현황을 모두 수치화한 데이터입니다.
순번(No) | 항목명 (Name) |
평균 (Mean) |
최빈값 (Mode) |
중앙값 (Median) |
분산 (Var) |
최소값 (Min) |
최대값 (Max) |
결측건수(Missing) |
1 | 전체 유아수 | 65.8 | 32 | 40 | 1.1 | 0 | 601 | 0 |
2 | 3세정원수 | 18.1 | 0 | 14 | 1.3 | 0 | 216 | 0 |
3 | 4세정원수 | 24.8 | 0 | 20 | 1.2 | 0 | 216 | 0 |
4 | 5세정원수 | 29.9 | 0 | 24 | 1.0 | 0 | 208 | 0 |
5 | 혼합모집정원수 | 11.4 | 0 | 0 | 1.9 | 0 | 302 | 0 |
6 | 특수학급모집정원수 | 0.8 | 0 | 0 | 2.8 | 0 | 36 | 0 |
7 | 건축년도 | 1996.7 | 2002 | 1999 | 0.0 | 1912 | 2023 | 0 |
8 | 건물전용면적 | 1093.6 | 132 | 745 | 2.1 | 32 | 85880 | 0 |
9 | 대지총면적 | 8537.2 | 1000 | 2540 | 2.6 | 59 | 811600 | 0 |
10 | 1년미만교사수 | 1.6 | 0 | 1 | 1.4 | 0 | 24 | 0 |
11 | 1년이상2년미만교사수 | 1.2 | 0 | 1 | 1.5 | 0 | 25 | 0 |
12 | 2년이상4년미만교사수 | 1.4 | 0 | 1 | 1.3 | 0 | 19 | 0 |
13 | 4년이상6년미만교사수 | 0.7 | 0 | 0 | 1.7 | 0 | 16 | 0 |
14 | 6년이상교사수 | 0.6 | 0 | 0 | 2.1 | 0 | 11 | 0 |
15 | 교실수 | 5.1 | 1 | 4 | 0.8 | 0 | 50 | 0 |
16 | 교실면적 | 391.2 | 132 | 284 | 3.1 | 0 | 79766 | 0 |
17 | 실내체육장 | 106.7 | 0 | 0 | 11.0 | 0 | 74209 | 0 |
18 | 보건/위생공간 | 76.7 | 0 | 46 | 2.5 | 0 | 9906 | 0 |
19 | 조리실/급식공간 | 198.2 | 0 | 64 | 2.8 | 0 | 37635 | 0 |
20 | 기타공간 | 320.9 | 0 | 103 | 3.5 | 0 | 71778 | 0 |
1번 항목인 전체 유아수(하나의 유치원에 등록된 어린이수)를 보면
이와 같이, 기초 통계량 하나로도 분석에 쓰이는 전체 항목(변수)의 현황을 파악할 수 있습니다.
이렇게 기초 통계는 단순하면서도 본격적인 분석 전에 데이터에 대한 개괄적인 인사이트를 제공하고, 전처리에 대한 계획을 세울 수 있도록 도와줍니다.