[pxd talks 73] 야구의 분석과 데이터의 활용

2017. 5. 4. 07:50pxd talks
알 수 없는 사용자


73회 pxd talk에서는 NC 다이노스 데이터팀의 임선남 팀장님이 '야구의 데이터 분석'라는 주제로 강연을 해주셨습니다. 야구에 데이터라니 뭔가 생소한 이 둘의 조합이 어떤 시너지를 내며 야구 업계에서 활용되고 있는지 알아볼 수 있는 신선한 강의였습니다. 데이터 분석을 활용한 야구를 한번 생동감 있게 전달해드리고자 합니다.


들어가며

사실 필자는 야구장은 2번밖에 가보지 못했고 야구에 대해 큰 관심도 없었습니다. 다소 생소할 수 있는 강의였는데요, 그러다 머니볼(2011)이라는 영화가 생각났습니다. 데이터를 통해 야구 선수들의 영입과 관리를 다이나믹하게 보여줬던 영화의 주인공 브레드피드가 연기한 빌리가 생각났습니다. 데이터와 야구, 이 생소한 둘이 어떻게 시너지를 내고 있는지 알아보려 합니다.



1. 야구의 기록 및 세이버매트릭스(Sabermaetrics)의 역사

야구는 영국의 크리켓이 변형되고 발달하여 만들어졌다고 합니다. 초창기 야구의 야구 규칙 확립에 기여한 ” Henry Chadwick”은 원래 스포츠 기자로서 야구를 기록의 스포츠로 만들어낸 야구의 아버지라고 할 수 있습니다. 시간이 지나면서 야구 기록을 통해 야구를 객관적이고 합리적으로 이해하고자 하는 기조가 생겨났습니다. 빌 제임스는 이를 Sabermerics( Society for American Baseball Resrarch measurement :세이버메트릭스)라고 불렀습니다. 빌 제임스의 연구를 시작으로 수많은 변화가 이루어졌고, 개인의 취미 차원을 넘어 야구 전반에 쓰이고 있을 만큼 널리 퍼지게 됩니다. 이 방법론을 통해 유명해진 사람이 바로 머니볼의 빌리 빈 단장입니다.

영화 머니볼(2011)의 브레드피트가 연기한 빌리 빈


메이저리그의 만년 하위 팀 오클랜드 애슬레틱스의 단장 빌리 빈이 2002년 보여준 20연승의 기적을 보여준 영화가 머니볼 (2011)인데요. 영화에서 빌리 빈은 선수의 연봉 계약에 이용되는 선수 평가 방식에 문제의식을 느끼고 있었습니다. 기존 야구선수 평가에서는 타율, 홈런, 도루 등이 중요시되었지만 빌리 빈은 출루율과 장타율에 우선순위를 둡니다. 다년간 누적된 야구 통계를 수학적으로 분석해 선수의 능력을 평가하는 방법으로 세이버메트릭스의 위상을 높인 사건이었죠.

한국도 80년대에 ‘한국야구기록 연구회’라는 야구분석 모임이 있었으나 아쉽게도 우리나라는 미국의 메이저리그처럼 방대한 수의 야구선수가 없으므로 야구데이터 연구가 그다지 주목받지는 못했다는 후문이 있네요. 결국, 데이터가 가진 장점을 십분 활용할 수 있게 만든 스포츠가 야구라고 볼 수 있습니다. 타자의 타율 안타 홈런 등 다양한 기록들은 그 선수의 가치를 높이고, 관중에게는 경기를 더욱 즐겁고 새로운 눈으로 즐길 수 있게 합니다.



2. 득점/실점과 승률

야구는 결국 점수를 많이 낸 팀이 이기는 구조입니다. 이기기 위해서는 가능한 한 많이 득점하고 적게 실점해야 합니다. 그래서 팀의 승률을 득점/실점의 관계를 통해 수학적으로 설명하는 방법이 고안됩니다. 빌 제임스의 "피타고리언 기대승률"이라는 공식이 있습니다. 식의 모양이 피타고라스의 정의와 비슷해서 명칭이 정해졌다는 풍문이 있습니다. 이 공식을 이용해 기대승률을 예측할 수 있게 됩니다.

빌 제임스의 피타고리언 기대승률


이외에도 다양한 개량 공식이 개발되었습니다. 결론을 말하자면 실제 승률과 기대승률이 100% 맞을 수 없지만 대게 비슷한 오차범위 안에서 승률이 결정됩니다. 예측이 다른 이유는 단기전에 강한 팀과 장기 레이스에 강한 팀이 있기 때문입니다. 야구의 정규 시즌은 매우 길어서 선수 개개인의 관리, 부상 등의 예측 불가능한 여러 이슈가 발생할 수 있습니다. 반면 가을야구처럼 단기간에 경기를 치르는 경우 역량이 좋은 선수가 단기간에 보여주는 퍼포먼스가 절대적일 것입니다.



3. 24 States/RE Matrix

야구 경기는 State와 Event로 나누어 볼 수 있습니다. State는 아웃카운트의 수와 주자의 유무로 정의가 됩니다. 결국, 조합에 의해서 24가지 State가 구성되고, 이 State에 변화를 일으키는 삼진아웃, 볼넷 등을 Event라고 합니다. 기대득점표를 확인해보면 좀 더 뚜렷하게 이해가 될 수 있습니다. 아래 표는 <국내 KBO 2014-2016>과 <미국 MLB 1999-2002> 경기입니다. 국내 야구가 득점 성향이 높은 타고투저의 리그임이 드러납니다.

표1) KBO 2014-2016 / 표2) MLB 1999-2002



4. 선수 평가하기

결국, 야구의 데이터 분석은 좋은 선수를 모아서 팀을 승리로 이끄는 것. 이것이 가장 큰 역할일 것입니다. 그래서 가장 궁금했던 부분이 선수 평가 시스템이었습니다. 그리고 기대했던 것보다 좀 인간적인 부분도 있어 흥미로웠습니다.


1) 선수기대가치

선수의 기대가치 = 환경적 요인 + 운 + 타 선수의 기여


운이 기대가치에 포함된 부분이 독특했습니다. 이래서 인생은 운칠기삼이라 하나 봅니다. 연사님은 결국 선수들은 잘놈잘, 평균회귀의 케이스를 보인다고 하셨는데요. 모든 데이터는 True Talent와 Luck을 포함하고 있고 샘플이 늘어날수록 선수 본연의 능력에 가까워진다고 판단한다고 합니다.


2) 선수평가의 기준( 적절한 기준의 필요성 )

A 선수는 100이닝을 뛰지만 3.50의 투수 방어율을 기록했고, B 선수는 200이닝을 뛰지만 A 선수보다 상대적으로 낮은 4.50의 투수방어율을 기록했습니다. 만약 단기 결과로 보았다면 A 선수가 더 높은 가치의 선수가 되겠지만 사실 200이닝을 뛴 선수와의 형평성에 대해서는 논란의 여지가 있을 것입니다. 이때 기여수준에 대해 대체 수준 투수(2군에서 제일 잘하는 선수 기준)보다 얼마나 이바지했는가를 측정합니다.


3) 구장 효과

구장은 실제 경기에서 많은 영향을 미치는 요소입니다. 물리적인 차이가 있기 때문입니다. 예를 들어 경기장 펜스가 낮으면 홈런이 잦고 구장이 넓을수록 수비가 어려운점 등을 생각해 볼 수 있겠습니다. 또한, 심리적인 요인까지 차이를 만들어낼 만큼 구장 효과는 무시할 수 없는 요소입니다.


4) 역대 최고의 선수들

우리나라의 야구선수 중 최고의 타자와 투수는 누구일까요? 시즌 누적 기여 수준으로 살펴본 역대 최고의 선수들은 아래와 같았습니다. 30위까지 발표되어 있었지만 간략하게 10위까지만 공개해 보았습니다. 역시 선동열, 최동원 선수의 빛나는 성과가 보이네요. 또한, 이승엽 선수는 10위권 내에 3번이나 이름을 올렸습니다.

역대 최고의투수 <시즌 누적기여 수준 WAR>


역대 최고의 타자 <시즌 누적기여 수준>


마치며….

강의를 듣고 나서 야구에 대해 다시 생각해 보게 됐는데요, 선수들이 보여주는 퍼포먼스도 중요하지만, 이들의 기록을 통해 야구를 더 세세히 살펴볼 수 있었고 왜 전설이라고 불리는 선수들이 존경 받는지에 대해서도 알게 되었습니다. 그저 열광하는 스포츠가 아닌 수학과 통계를 통해 한 번 더 스릴을 느끼게 하는 스포츠라는 것을 새삼 깨닫게 되는 강의였습니다.


[참고##pxd talks##]