안녕하세요. 오늘은 시각화 보고서 사례를 소개하고자 합니다. 주제는 '25,000여명의 축구선수에 대한 데이터와 6,200여개 축구클럽에 대한 데이터 분석' 입니다. Word로 총 15 Page 분량의 시각화 보고서가 탄생하였습니다. 아래에서 시각화 보고서를 소개해드리겠습니다.
본 보고서는 축구 선수와 축구 팀 데이터를 분석하여 통계치를 확인하고 그 결과를 시각화하여 데이터에 대한 분석 결과를 제공하기 위하여 작성되었다.
선수 데이터는 24,526명의 축구 선수 정보로 구성되어 있다. 선수의 이름과 나이, 키, 국적과 같은신상 정보와 소속 클럽, 입단 날짜, 이적료와 같은 소속 정보가 존재한다. 또한 선수의 현재 시장 가치, 출장 횟수, 득점수, 최근 5경기의 패스 성공률/태클 성공률과 같은 성적 정보도 존재한다. 이러한 정보를 다각도로 분석하여 24,526명의 축구 선수 분포를 확인할 것이다.
축구 선수에 대한 통계 분석 결과는 다음과 같다.
[그림 1] 선수들의 출신지 상위 10개 지역
선수들의 출신 국가 상위 10개 지역을 분석한 결과, 총 24,526명의 선수 중 이탈리아 출신이 3,067명으로 가장 많았다. 그 다음 스페인 출신이 2,021명으로 많았고, 튀르키예/영국/프랑스/이란/보스니아 헤르체고비나/세르비아/가나/네덜란드가 순서대로 뒤를 잇는다. 상위 10개 출신 국가에 해당하는 선수들은 총 10,793명으로 전체의 44.01%에 해당한다.
[그림 2] 포지션별 선수 비중
선수들의 포지션별 비중을 분석한 결과, 수비수(Defender)가 7,933명으로 32.35%를 차지해 가장 많았다. 그 다음은 미드필더(Midfield)가 7,389명으로 30.13%를 차지했다. 공격수(Attack)는 6,584명으로 26.84%를, 골키퍼(Goalkeeper)는 2,620명으로 10.68%를 차지했다.
[그림 3] 클럽별 이적료와 이적 선수수
이적료를 많이 지불한 상위 10개 클럽을 확인해보았다. Manchester City가 657,800k를 지불하여 1위를 기록하였다. 그리고 5, 6위인 Newcastle United와 Paris Saint-Germain은 각각 447,650k, 425,500k를 지불하여 매우 유사한 수준이다. 그러나 이적료 총액으로는 선수 한 명당 이적료 규모를 알 수 없어 이적 선수수를 선그래프로 확인해보았다. 그 결과 Newcastle United는 이적 선수수가 16명으로 많은 편이었고, Paris Saint-Germain은 이적 선수수가 8명으로 적은 편이었다. 따라서 두 클럽은 이적료 총액은 유사한 수준이나, 선수 한 명당 지불한 이적료는 Paris Saint-Germain가 Newcastle United보다 2배 많은 것을 알 수 있다.
[그림 4] 선수의 출전 경기수에 따른 득점수
선수별로 출전한 경기수와 득점한 골의 수를 산점도를 이용해 확인하였다. ‘출전 경기가 많은 수록 득점 골도 많아질 것이다.’ 라는 통념에 부합하는 결과가 대각선으로 포진된 점으로 일부 확인되었다. 그러나 일부는 출전 경기 수에 상관없이 득점수가 200이하에 머무는 경우도 많았다. 따라서 출전 경기 수가 증가하더라도 득점수가 비례해서 증가하는 것은 아님을 알 수 있다.
득점한 골 수를 출전한 경기 수로 나누어 선수별로 ‘출전 경기당 평균 득점수’를 산출하였다. 그 결과 출전 경기당 평균 득점수가 0부터 5까지 포진하였으나, 0에 해당하는 선수가 많아 정확한 분포 확인에 어려움이 있었다. 따라서 출전 경기당 평균 득점수가 1미만인 선수들과 출전 경기당 평균 득점수가 1이상인 선수들을 나누어 재확인하였다.
[그림 6] 출전 경기당 득점수 – 1미만인 선수
출전 경기당 평균 득점수가 1미만인 선수들의 분포를 확인하니 0값에 해당하는 선수가 3,500명 이상으로 많았다. 즉, 출전한 기록은 존재하나 득점은 한 번도 하지 못한 선수가 3,500명에 달한다는 것을 알 수 있다.
[그림 7] 출전 경기당 득점수 – 1이상인 선수
출전 경기당 평균 득점수가 1이상인 선수들의 분포를 확인하니 1.0에서 1.5에 해당하는 선수들이 고르게 포진되어 있음을 알 수 있다. 그리고 평균 득점수가 증가할수록 해당하는 선수수도 점차 줄어드는데, 이는 성적이 좋을수록 해당하는 선수가 적다는 통념에 부합하는 결과이다.
[그림 8] 패스 성공률에 따른 선수수
선수들이 어느 정도의 패스 성공률을 보이는지 확인하기 위하여 패스 성공률을 범주화하였다. 65부터 95사이에 존재하는 패스 성공률을 5단위로 그룹화하였다. 그 결과 패스 성공률이 75에서 80 사이에 해당하는 선수들이 8,976명으로 가장 많았다. 90에서 95 사이에 해당하는 선수는 362명으로 아주 적었는데, 이는 90에서 95사이의 패스 성공률을 기록하는 선수는 상위 1.5%(=362/24526*100)에 해당하는 우수한 선수임을 시사한다.
[그림 9] 출전 경기당 득점에 따른 예상 득점
예상 득점 데이터가 실제 선수의 성적을 잘 설명하는지 확인하기 위하여 예상 득점과 출전 경기당 득점수의 산점도를 확인하였다. ‘예상 득점이 높을수록 실제 득점수도 높을 것이다.’ 라는 통념이 일치되려면 대각선을 따라 점들이 분포되어야 하는데 그러한 형태가 확인되지 않는다. 즉, ‘예상 득점과 실제 득점수는 서로 관련이 없다’ 라고 볼 수 있다. 오히려 예상 득점이 0.0에서 0.2에 해당하는 선수들의 실제 득점이 높은 경향을 보인다. 따라서 예상 득점은 실제 득점을 유추하는데 큰 영향을 주지 못 하는 정보라고 볼 수 있다.
[그림 10] 선수별 최대 속도와 총 이동 거리
선수들의 최대 속도와 총 이동 거리에 연관이 있는지 확인하기 위하여 두 정보의 산점도를 확인해보았다. 선수들의 5경기 평균 최대 속도는 27에서 36까지 존재한다. 최대 속도가 비교적 느린 선수는 총 이동 거리가 짧고 최대 속도가 비교적 빠른 선수는 총 이동 거리가 길 것이라고 예상했다. 그러나 예상과 달리 최대 속도와 총 이동 거리는 전혀 관계가 없는 것으로 나타났다. 두 정보는 어떠한 경향성도 보이지 않으며, 최대 속도가 느린 선수도 총 이동 거리는 길 수 있고 최대 속도가 빠른 선수도 총 이동 거리는 짧을 수 있음을 보여준다.
위 정보를 다른 형태로도 확인해보았다. 최대 속도가 느린 선수들의 총 이동 거리와 최대 속도가 빠른 선수들의 총 이동 거리를 비교한 것이다. 최대 속도를 1단위로 범주화하고 속도별로 해당하는 선수수와 총 이동 거리를 집계하였다. 그리고 총 이동 거리에 선수수를 나누어 ‘선수 당 총 이동 거리’를 산출하였다.
[그림 11] 최대 속도별 선수당 총 이동 거리
선수 당 총 이동 거리를 나타내는 선그래프를 확인하면 U자 형태임을 알 수 있다. 최대 속도가 27이상 28미만일 때 총 이동 거리는 9,700가량으로 가장 크다. 최대 속도가 35 이상 36 미만일 때 총 이동 거리는 9,550가량으로 그 다음으로 크다. 그리고 최대 속도가 중간 정도인 선수들의 총 이동거리는 비교적 낮은 수준이다. 이 그래프를 확인한 결과도 ‘최대 속도와 총 이동 거리에는 관련이 없다’ 라는 결론을 시사한다.
팀 데이터는 6,264건의 축구 클럽 정보로 구성되어 있다. 클럽명과 클럽의 가치, 속한 리그 등과 같은 기본 정보가 존재하고, 팀 내 선수들의 평균 나이와 외국인 선수 비율, 수상 이력과 같은 팀의 성격을 보여주는 정보가 존재한다. 이러한 정보를 다각도로 분석하여 6,264건의 축구팀 분포를 확인한다.
축구 팀에 대한 통계 분석 결과는 다음과 같다.
[그림 12] 클럽 가치 상위 20개 팀
클럽별 가치를 확인하기 위하여 가치가 큰 상위 20개 팀을 그래프로 표현하였다. Arsenal FC가 1,210,000k로 1위를 기록하였다. 20위는 375,750k를 기록한 Atalanta BC인데, 1위의 약 31%에 해당하는 규모로 1위와의 격차가 큰 편이라고 볼 수 있다.
[그림 13] 클럽 가치 상위 20개 팀의 평균 연령
클럽 가치가 큰 팀들의 평균 연령을 확인해보았다. 상위 4개 팀은 평이한 수준이었고, 5위인 Chelsea FC가 평균 연령 23.3세로 타 팀에 비하여 젊은 선수들이 많이 속해 있었다. 반면 Newcastle United과 Atlético de Madrid는 평균 연령이 27세 이상으로 높은 편에 해당하였다.
[그림 14] 리그별 클럽 수 상위 30개 리그
리그의 규모를 알기 위하여 리그별 소속 클럽 수를 집계하였다. 그 결과 Primera División Apertura 가 52개 클럽을 보유하고 있어 리그 규모가 가장 컸다. 15위 이하는 보유 클럽이 각각 24개, 22개, 20개로 큰 격차를 보이지 않았다. 따라서 클럽 수로는 리그의 규모를 정밀하게 알기 어려워 속한 클럽 가치의 합계도 산출해보았다.
[그림 15] 리그별 클럽 가치 합계 상위 30개 리그
리그별로 클럽 가치의 합계를 확인한 결과 Premier League가 독보적인 1위를 기록하였다. Premier League의 경우 클럽 수는 34개로 6위에 머물렀으나 클럽 가치로 판단하니 큰 차이로 1위가 되었다. 반면 클럽 수에서 1위를 기록한 Primera División Apertura는 클럽 가치로 판단하니 20위로 밀려났다. 리그의 규모 판단 시 보유한 클럽의 수뿐만 아니라 클럽의 가치도 고려해야 함을 시사한다.
[그림 16] 클럽의 평균 연령
클럽의 평균 연령 분포를 알기 위해 히스토그램을 확인하였다. 평균 연령이 25세 전후에 해당하는 클럽들이 많음을 알 수 있다. 전체 클럽 평균 연령의 평균은 24.33세이다. 또한 평균 연령이 90세 이상으로 나타난 2개 클럽이 존재하였는데, 2개 클럽은 위 그래프에서 제외하였다.
[그림 17] 클럽의 외국인 비율
클럽의 외국인 비율 분포를 알기 위해 히스토그램을 확인하였다. 외국인 비율이 0%에 해당하는 클럽 수가 1,750팀에 가까워 가장 많았다. 전체 클럽 외국인 비율의 평균은 16.29%이다. 외국인 비율이 높을수록 해당하는 클럽의 수가 적어지는 양상을 보인다.
[그림 18] 클럽의 수상 횟수 상위 20개 팀
클럽별 수상 횟수를 집계하여 성적이 우수한 클럽을 확인해보았다. Rangers FC가 118번의 수상을 하여 1위를 차지하였다. 그 다음 Celtic FC, Linfield FC, El Ahly Cairo 3개 팀이 근소한 차이로 뒤를 잇는다. 이후 10위권 밖은 수상 횟수가 50대로 떨어져 선두 팀들과 격차가 크게 벌어진다.
[그림 19] 리그 레벨별 평균 연령과 외국인 선수 비율
리그 뿐만 아니라 리그 레벨별로도 평균 연령과 외국인 선수 비율을 확인해보았다. 1 Tier 리그 레벨의 경우 속한 클럽이 1,400개 팀 이상이고, 해당 팀들의 평균 연령은 25.3세, 외국인 선수 비율은 28.2%이다. 6 Tier 리그 레벨의 경우에는 속한 클럽이 100개 가량으로 적고, 해당 팀들의 평균 연령은 25.8세로 1 Tier 그룹과 유사하다. 그러나 외국인 선수 비율은 10% 이하로 1 Tier 그룹의 1/3 수준이다. 또한 Reserve league는 외국인 선수 비율이 40% 이상으로 매우 높은 것이 특징이며, Youth league는 평균 연령이 17.3세로 가장 낮은 것이 특징이다.
회귀분석 사례 (3) - 코스피/코스닥 상장기업 12개년 재무분석: 2편 (4) | 2024.09.22 |
---|---|
회귀분석 사례 (3) - 코스피/코스닥 상장기업 12개년 재무분석: 1편 (8) | 2024.09.21 |
회귀분석 사례 (2) - 공공데이터를 활용한 교육 분야 요인분석 (0) | 2024.09.11 |
설문조사 분석 사례 (1) - 지역사회 기관 만족도 조사 (2) | 2024.09.01 |
회귀분석 사례 (1) - 재무제표 기반 기업가치평가 (0) | 2024.03.31 |