상세 컨텐츠

본문 제목

기초 통계란?

통계이론

by 데이컨 2024. 3. 17. 18:40

본문

통계학에서 기초 통계란, 변수의 최소값/최대값/평균 등을 산출하는 것으로 데이터의 특성을 요약하고 설명하기 위한 통계적인 지표 의미합니다. 본격적인 분석 전에 데이터의 현황을 파악하는 목적으로 수행하죠.

 

변수(=항목)의 형태에 따라서 산출하는 기초 통계량은 달라집니다.

  • 연속형 변수: 최소값, 최대값, 평균, 중앙값, 최빈값, 분산, 표준편차, 범위, 사분위수 등
  • 범주형 변수: 빈도수, 백분율, 상대 빈도 등

 

하나의 연속형 변수에 대한 기초 통계량을 그림으로 나타내면 다음과 같은 상자그림을 그릴 수 있습니다. 최소값과 최대값을 상자그림의 위아래 선으로 표시하고, 25%에 해당하는 Q1(1분위수)와 75%에 해당하는 Q3(3분위수)를 상자로 표시합니다. 그리고 50%에 해당하는 Q2(중위수)를 상자 안의 선으로 표시하여, 이 변수의 대략적인 분포를 알 수 있도록 합니다.

 

@https://finches.tistory.com/3

 

 

연속형 변수일 때의 기초 통계 예시로 실제 분석 사례를 들어보겠습니다. 해당 데이터는 공공데이터 포털에서 얻은 '유치원 공시 데이터'로, 전국 유치원에 대한 어린이수, 교사수, 수업일수 등 현황을 모두 수치화한 데이터입니다.

순번(No) 항목명
(Name)
평균
(Mean)
최빈값
(Mode)
중앙값
(Median)
분산
(Var)
최소값
(Min)
최대값
(Max)
결측건수(Missing)
1 전체 유아수 65.8 32 40 1.1 0 601 0
2 3세정원수 18.1 0 14 1.3 0 216 0
3 4세정원수 24.8 0 20 1.2 0 216 0
4 5세정원수 29.9 0 24 1.0 0 208 0
5 혼합모집정원수 11.4 0 0 1.9 0 302 0
6 특수학급모집정원수 0.8 0 0 2.8 0 36 0
7 건축년도 1996.7 2002 1999 0.0 1912 2023 0
8 건물전용면적 1093.6 132 745 2.1 32 85880 0
9 대지총면적 8537.2 1000 2540 2.6 59 811600 0
10 1년미만교사수 1.6 0 1 1.4 0 24 0
11 1년이상2년미만교사수 1.2 0 1 1.5 0 25 0
12 2년이상4년미만교사수 1.4 0 1 1.3 0 19 0
13 4년이상6년미만교사수 0.7 0 0 1.7 0 16 0
14 6년이상교사수 0.6 0 0 2.1 0 11 0
15 교실수 5.1 1 4 0.8 0 50 0
16 교실면적 391.2 132 284 3.1 0 79766 0
17 실내체육장 106.7 0 0 11.0 0 74209 0
18 보건/위생공간 76.7 0 46 2.5 0 9906 0
19 조리실/급식공간 198.2 0 64 2.8 0 37635 0
20 기타공간 320.9 0 103 3.5 0 71778 0

 

1번 항목인 전체 유아수(하나의 유치원에 등록된 어린이수)를 보면

  • 평균은 65.8명으로 하나의 유치원에 평균적으로 약 66명의 어린이가 등록되어있음을 알 수 있습니다.
  • 최빈값은 32명으로 유치원에 32명이 등록된 케이스가 가장 많음을 알 수 있습니다.
  • 중앙값은 40명으로 가장 작은 값부터 가장 큰 값까지 차례로 세웠을 때, 정 가운데 값은 40명임을 알 수 있습니다.
  • 분산은 1.1로 전체 유치원의 유아수 간에 큰 편차는 존재하지 않는 편임을 알 수 있습니다.
  • 최소값은 0명으로 한명의 어린이도 존재하지 않은 유치원이 있습니다. 아마 개원 전의 준비중인 유치원이거나 폐원의 절차를 밟고 있는 유치원 데이터가 아닐까 추정할 수 있습니다.
  • 최대값은 601명으로 대규모의 어린이를 수용하는 유치원이 존재함을 알 수 있습니다.
  • 결측건수는 0건으로 전체 유치원 중, 유아수를 결측으로 공시한 유치원은 없었습니다.

 

이와 같이, 기초 통계량 하나로도 분석에 쓰이는 전체 항목(변수)의 현황을 파악할 수 있습니다.

  • 너무 작은 값이나 너무 큰 값인 이상치가 있다면 최소값과 최대값 확인을 통해서 알 수 있습니다.
  • 값이 양극단으로 치우져져 있는지 분산을 통해서 알 수 있습니다. 예를 들어,
    1) 값이 0 또는 100으로만 이루어져 있는 경우와
    2) 0 부터 100까지 골고루 분포되어 있는 경우,
    상대적으로 전자는 분산 값이 크고 후자는 분산 값이 작습니다.
  • 또한 결측 값이 몇 건이 존재하는지 알 수 있습니다. 결측 값 파악은 분석에서 굉장히 중요한데요, 만약 결측치에 별다른 처리를 해주지 않고 분석한다면
    1) 변수 하나에 있는 결측값 때문에 데이터의 행(Row) 자체가 사라진 채로 분석이 될 수 있습니다. 통계 프로그램에는 하나의 변수라도 결측치가 존재하면 그 행(Row)은 없다고 가정하는 프로그램이 많기 때문입니다. 또한,
    2) 결측값 때문에 데이터 분석 결과에 왜곡이 발생할 수 있습니다. 결측값을 제외하면 선형 추세를 보이는 항목이, 결측값을 포함하고 있어 그 선형 추세가 발견되지 못 할 수 있기 때문입니다.

이렇게 기초 통계는 단순하면서도 본격적인 분석 전에 데이터에 대한 개괄적인 인사이트를 제공하고, 전처리에 대한 계획을 세울 수 있도록 도와줍니다.

'통계이론' 카테고리의 다른 글

상관분석이란?  (0) 2024.03.17

관련글 더보기