Sport, adat, elemzés: sportadat-elemzés

Sport Data

Sport Data

Statisztikai mutatókról és a realitásérzékről...

2020. június 04. - u1sd

Az elmúlt héten két olyan cikk jelent meg az NSO és az MTK gondozásában, amelyek bár külön-külön akár meg is állhatnák a helyüket, inkább matematikai vagy realitásérzékbeli hiányosságokat tükröznek. Ritkán szoktam ennyire élesen és határozottan fogalmazni, de most azért van rá szükség, mert egy komplett szakmát és szakmai gondolkodást ásnak alá olyan cikkek, amelyek ennek ellenkezőjére lennének hivatottak.

A statisztika szerepe

Az NSO cikke esetében (a cikkhez nincs szerző, így nem tudok ennél pontosítani) a cikk arról értekezik, hogy mire jó a sok statisztika a mérkőzések közvetítésében. A cikket elolvasva a szerző arra a (ki nem mondott) konklúzióra jut, hogy semmi, merthogy egyik statisztikai mutató sem mond sokat a mérkőzés alakulásáról, másrészt mindennél van "jobb mutató" is. Egy olyan újságban, amely a mérkőzésekről tudósít, sokszor ezen mutatók támogatásával, nos, ez legalábbis szokatlan. Önmagában sem a véleménnyel, sem az állításokkal nem lenne problémám, ha ez így szakmailag korrekt lenne. Tegyük hozzá, hogy a szándék valószínűleg az lehetett, hogy a statisztika önmagában, értelmezés, kontextustól nélkül értelmetlen, de nem így sikerült végül megírni a cikket.

A mérkőzés közvetítésében a statisztika szerepe sokkal egyszerűbb: tartalomélményt kell adni. A riporter eredeti feladata a termék (mérkőzésközvetítés) eladása, vagyis az az élmény megteremtése, hogy a néző többet kap az által, hogy a képernyőn nézi a mérkőzést, mintha élőben látná. Olyan vagy legalább hasonló hangulatot kellene teremtsen, mint amilyen a lelátókon van. Már ha azt valaki megtapasztalta a maga teljességében. A statisztika olyan hozzáadott "érték", ami segíti a közvetítést, extra tartalommal tölti meg. Olyan mint a több, mint 10 perces akció- és szexjelenetek sorozata egy amúgy 20 perces cselekményű filmben. A mérkőzést közvetítő riporterek sem lettek jobbak az idők során (én viszonylag ifjúnak gondolom magam, de Szepesi György szintjét még mindig nem érik el a mai riporterek, olykor Hajdú B. István tud magával ragadó lenni - de ez magánvélemény), sem informáltabbak, sem értőbbek az amúgy is egyre bonyolultabb labdarúgáshoz, kell valami gumicsont, amiről lehet beszélni. Ez a szerepe a statisztikának a közvetítésekben. Nem több, nem kevesebb.

A statisztika vagy pláne statisztikai mutató önmagában semmire nem alkalmas. A statisztika maga egy jelenség, egy megfigyelés matematikai leírásának tudománya. Nem megállapít, leír. Abban segít, hogy fogalmunk legyen arról, hogy mivel állunk szemben. De egy mutató nem mutató. Egy angliai egyetemi felmérés szerint például van olyan egyetemi szak, ahol a női hallgatók felének volt szexuális kapcsolata a professzorukkal. Amikor megvizsgálták a botrányt okozó intézményt, megállapították, hogy 2 beiratkozott női hallgatójuk volt, aki közül az egyik a professzor felesége. Ő pedig őszinte volt. Aki a gólok számából, a futott kilométerekből messze menő következést von le, éppolyan hibás, mint aki azt gondolja, hogy a mérkőzést helyzetekre játsszák. A statisztikai mutatók nem önmagukban informatívak, hanem együttesen mutatnak egy képet, amelyet interpretálni, értelmezni kell tudni.

Ha sokat volt a csapatnál a labda és sokat is futott, az együtt értelmezhető (valahogy). Ha sokat van valakinél a labda, és kevesebbet fut, az egy másik eset. Igen, számít ehhez az állás, a játékosok képessége és minősége, de az is, hogy hányszor cserél gazdát egy időegység alatt a labda, azaz ezek mellé is kell sok-sok viszonyítási pont, hogy objektív képet kapjon az ember. Sherlock Holmes szavaival élve: nem bizonyítékokat kell keresni egy-egy elkövető lebuktatásához, hanem az összes(!) bizonyítékot figyelembe kell venni, hogy meghatározzuk a gyilkos személyét (és motivációit). A mai áltudományos világban különösen fontos megérteni, hogy egy elmélet, feltételezés, álláspont akkor helytálló, ha bizonyítékok igazolják ÉS egy sem mond ellent neki.

A kapura lövések száma semmivel nem informatívabb az xG (gólszerzés várható értéke) mutatónál, ahogy ez fordítva sem igaz. Maga az xG mutató is valójában több tíz mutatót rejthet, a cikkben például a kaputól való távolság függvényében mutatnak egy gólszerzési valószínűséget, ami éppúgy lehet tévút, mint a kapura lövések száma. Gondoljunk csak bele, a büntető gólszerzési valószínűsége mégiscsak nagyobb, mint a szögletből az ötös és a kapufa vonalához érkező, 3 védő (plusz kapus) szorításában fejelő védőé. Üres kapura meg akár félpályáról is nagyobb eséllyel találunk be, mint a tizenhatos területéről felállt védelem ellen. A kontextus mindkettőből hiányzik. A cikk szerint az xG mutató kivesz egy szerencsefaktor a rendszerből. Ellenkezőleg. Nem csak, hogy kifejezetten azt mutatja, de ráadásul több szinten integrál más "szerencsetényezőket" is. Például, hogy egy játékosnál hány "bénább" játékos van még a ligában, hiszen az xG egy relatív mutató - más játékosokhoz képest viszonyít. A mutatók nem mindenhatóak, a kapura lövések száma (volt lehetősége lőni - és a támadó hitt abban, hogy gólt tud lőni) éppolyan fontos, mint megvizsgálni, hogy mennyire sikeres egy-egy helyzetkihasználás. Más a célja, egyik sem jobb a másiknál, de önmagában mindkettő haszontalan, értelmezhetetlen.

Bizonyos játékosok szerepe tekintetében az edzőket húzza le a cikk, szerintük poszt specifikusan nézzük meg a mutatóit azután mondjunk ítéletet. Adatelemzés alapvetése, hogy amiről nincs információnk, arról nem ítélkezünk. A statisztika azt nem mondja meg, hogy mit kért az edző. Ő tudja mit kért, ki mit és hogyan valósított meg ebből, és a koncepciójának mi volt ennek megfelelően a kulcseleme. Az adatelemző nem edző, ne gondolja, hogy okosabb nála. Máshoz ért. Egy védő lehet rossz, hogy kevesebb "szerelést" mutatott be, de ha az volt a kérés, hogy pl. állítsa inkább lesre az ellenfelet, akkor jól végezte a dolgát? Ha az ellenfél hosszú labdás (mélységi átadáson alapuló) kontrákra játszik, amelynek a passzpontossága elve elmarad a tiki-taka pontosságától, vajon jobb lett a védő attól, hogy több labdát fülelt le? A mérkőzés képe adja meg a választ, szinte garantálható, hogy több szerelése, labdaszerzése lesz. Melyik esetben lesz egy középpályásnak több kulcspassza, ha az ellenfél nyílt sisakkal rohamoz, vagy ha betömörül a kapuja elé? Ha a helyzetek teremtését emeljük piedesztára, miért nem nézzük meg, hogy ki teremti azt a helyzetet, amely a helyzetteremtést eredményezi? Sokszor ugyanis a labda nélkül mozgó egyik támadó viszi el vagy zavarja össze azt a védőt, aki miatt helyzet egyáltalán létrejön - és jó eséllyel nem ez a játékos kapja majd a labdát. Kosárlabdában ő a zárás, a kézilabdában pedig sokszor ezt teszi a beállós. Őt melyik mutató írja le? Nem lő, nem passzol, csak teszi a dolgát. Nem lehet, hogy az edző éppen ezt a játékost dicséri?

Rajonghatunk a mutatókért, de egy-egy mutató nem segíti a labdarúgást: elemezni kell megtanulni, ami egy szakma.

A realitás érzék

Az MTK-Honvéd Magyar Kupa elődöntő második mérkőzéséről egy szokatlan "elemzés" jelent meg a klub honlapján. Mindenekelőtt gratulálunk az MTK-nak, tisztes helytállást láthattunk tőlük, nem vitatva azt sem, hogy komoly fizikai felkészülésen vannak túl. A publikált számok azonban nagyon furcsák. Katona Máté 16 km, Cseke Benjámin 15,5km, Pintér Ádám 14 km, Prosser Dániel 14 km az összes megtett táv. 120 percre. Számoljunk egy kicsit!

8 km/h átlag (16km / 2h) önmagában nem lenne meglepő adat átlag sebességre, de ebben az "átlagban" benne van az ivószünet, és az álló játék is. Ismerve a magyar bajnokság játékidejét, 90 perc alatt általában 50-55 perc szokott lenni a tiszta játékidő, 120 perc alatt pedig aligha volt több, 70-75 percnél. Katonát amúgy a 115. percben lecserélték, de számoljunk 75 perc tiszta játékidővel az ő esetében is. 15 km-nél az országos csúcs 45 perc 15 másodperc, akinek nem kell megküzdenie éles gyorsításokkal, lassításokkal, irányváltásokkal, labdával(!) - és ideális esetben mindent kiad magából. Igaz, neki nincs ivószünet és negyedóra két félidő között. A cikkből ugyanis kiderül, hogy Katona nem csak sokat futott, de sokszor nagyon gyorsan is. 34,5 km/h sebességet is elért, és 183 alkalommal(!) jutott 25,1km/h (7 m/s - azaz sprint szint) fölé.183 alkalom nehezen értelmezhető, mert 183 oda-vissza támadás talán volt a mérkőzésen, de mindig sprintelt volna? A mérkőzésen ez nem így tűnt... Ha másodperc, akkor 1283 métert tett meg sprintben? Az elég jó részteljesítmény, hiszen az 1500 méter országos rekordja 3:35.57 (ami 215 másodperc). Értem, hogy a futásban nincs pihenő, de nincs is irányváltás, dinamikus mozgás, 34,5 km/h csúcs futás, "csak" állóképesség, erő, kitartás. Nem mellesleg a számok szerint Katona sem sokat pihent a mérkőzésen.

Korábbi cikkünkben tárgyaltuk mennyi sprintelnek az egyes bajnokságokban, ez több, mint kiemelkedő. Ha tartósan hozza ezt a formát, akkor kétségtelenül a Premier League-ben van a helye a játékosnak. Ha viszont ennyire jó futó, akkor miért nem erre épül az MTK támadó játéka? Ha ő ennyit és ilyen gyorsan fut, akkor hol vannak hozzá képest a többiek?

Fenntartjuk a jogot a tévedésre, de az adatok kapcsán az emberben a realitás érzék megszólal. Ez az adat egyáltalán nem valószínű, hogy helyes. Nem gondoljuk, hogy itt adathamisítás történt, egyszerűen csak más magyarázat van a mérési eredményre. Például rosszul lett rögzítve a szenzor. Ha "lifeg", akkor is ilyen értékeket látunk, hiszen szegény szenzornak van holtjátéka. Vagy nem volt kalibrálva, esetleg olyan szakaszokat is rögzített, amely nem a mérkőzés része (pl. bemelegítések).

süti beállítások módosítása