Vraťme se nejprve na začátek, co bylo impulsem pro digitalizaci dat během Tour de France?
Počáteční myšlenka se datuje před rok 2015, kdy se společnost Dimension Data stala oficiálním partnerem ASO, což je organizátor Tour de France. ASO se potýkala se změnou struktury fanouškovské základny Tour de France. Mladší generace se postupně od televize více a více přesouvala na sociální média, zatímco tradičních diváků ubývalo. Primárním cílem ASO bylo dodávat informace právě mladším fanouškům, kteří primárně konzumují informace přes sociální média a vyžadují čím dál větší množství doprovodných informací o tom, co se v průběhu etap děje, jak se vyvíjejí. A protože každý závod je nutné finančně zabezpečit, sekundárním cílem bylo navýšit příjem z reklamy. A právě sociální média byla vhodným prostorem.
Jak se v průběhu let spolupráce s ASO a digitalizace vyvíjely?
Vlastně každý rok spolupráce s ASO znamenal nějaký zásadní milník. Tím prvním bylo, že jsme v roce 2015 vybudovali úplnou infrastrukturu, abychom byli schopni fanouškům dodávat realtime data. Vybavili jsme kola cyklistů IoT senzory, které jsou připevněné přímo pod jejich sedly. Z těchto senzorů jsme sbírali údaje o poloze a rychlosti jezdce, plus další doprovodné informace. Data ze senzorů se poté posílala přes doprovodná vozidla a vrtulníky, které létaly nad pelotonem, do našich big data trucků. V nich se zpracovávala a posílala do našeho cloudu, odkud odcházela do médií. Zároveň jsme ty samé informace posílali na sociální sítě.
Následující rok 2016 jsme množství informací rozšířili a začali dodávat také údaje o charakteru trati, jednotlivých stoupáních i rychlosti větru. Navíc jsme toto větší množství dat porovnávali se staršími daty a poprvé jsme začali vytvářet model predikce toho, jak závodník v průběhu etapy pojede. Toho roku se Dimension Data přihlásila do Tour de France s vlastní stájí. Tým Dimension Data for Qhubeka má především charitativní rozměr a tím je podpora děti v afrických zemích v lepším přístupu ke vzdělání. Poskytování kol těmto dětem jim umožní zásadně zkrátit dobu strávenou na cestě do a ze školy a tím zlepšit jejich docházku.
Protože jsme měli větší a větší množství dat, začali jsme o rok později připravovat složitější predikce (odborně tomu říkáme Machine Learning). A pokusili jsme se angažovat fanoušky tím, že budeme „soutěžit“, jestli se my, nebo oni, přesněji trefíme v tom, kdo má šanci vyhrát jednotlivé etapy. Další zásadnější změny přišly v roce 2018 – složitější pohledy na etapy, kvalitnější vizualizace, poskytovali jsme data jednotlivým stájím, ta jim pomáhala určovat strategii pro jakoukoli další etapu.
Jak na tento posun zpracování dat reagují fanoušci na sociálních sítích? Nejsou již přetíženi množstvím informací?
Především narostlo množství followerů závodu přes sociální sítě, čímž se naplnil náš primární cíl, aby prostřednictvím dat a informací vznikla široká fanouškovská základna na sociálních sítích. Téměř z nuly máme po několika letech miliony fanoušků, kteří žijí závodem na sociálních sítích. Reakce jsou pozitivní, vidíme, že naše příspěvky jsou znovu přeposílány nebo tweetovány prostřednictvím fanoušků. Přes všechny digitální kanály nyní máme více než 6,5 milionu unikátních uživatelů denně. Narůstající množství followerů ukazuje, že je množství dat nepřetěžuje a že je naopak využívají.
V drtivé většině případů se diváci zajímají o profil svého oblíbeného jezdce. Dále sledují data z kritických momentů, závěrů etap, hromadných pádů apod., jak došlo ke srážce, jak rychle jezdci jeli, než k ní došlo. V televizním přenosu například vidí nějakou situaci a poté se na ni zpětně podívají, rozeberou ji s pomocí našich dat. Je především na divácích, jaká data chtějí konzumovat, co si prohlédnout nyní, co později. Určitě to není tak, že by se dívali na televizi a zároveň do mobilu na realtime stream.
A stáje?
Stáje dostávají informace v tzv. RAW formátu, což jsou syrová nezpracovaná data, a je na jejich specialistech, jak je interpretují. Dostávají stream dat a pro jejich využití potřebují analytiky, kteří je dokáží číst a porozumět jim. Úlohou Dimension Data není pomáhat stájím s analýzou, pouze jim data dodávat. My máme vlastní stáj a pro nás určená data neustále interpretujeme a vyhodnocujeme. Kdo umí lépe interpretovat datové streamy, dokáže z nich více vytěžit a na jejich základě i postavit či ovlivnit taktiku. Trenéři se dozví, jak se závodníci cítí, zda profil tratě odpovídá jejich aktuálním schopnostem atd. Jak využívají data ostatní stáje, to samozřejmě nevíme, a je na nich, zda využívají datového analytika. Je ale jednoznačné, že schopnost vytěžit dostupná data je další konkurenční výhodou.
Je realtime opravdu realtime?
Záleží na tom, o jaká data se jedná, například rychlost a pozice závodníka jsou opravdu realtime data. Pokud se ale bavíme o složitější vizualizaci, nějakou dobu trvá analýza dat a zpoždění může být v řádu pár minut. Také nějakou dobu zabere její grafické vytvoření, a na sociálních sítích se objeví třeba za 15 minut.
Jak daleko je možnost, že by se tato technologie rozšířila i mimo Tour de France?
Představou Dimension Data je naši technologii rozšířit i na další závody, a to nejen v cyklistice. Je totiž použitelná téměř do jakéhokoli prostředí, není zásadně limitovaná. Technologie přenosu a analýzy dat je v podstatě použitelná v jakémkoli závodě, vždy jde pouze o určení, jaká data shromažďovat v konkrétním sportu. Teoreticky tuto technologii, pokud o ni bude zájem, můžeme přenést i do fotbalu nebo hokeje, není limitovaná jen na cyklistiku.
Aktuální novinky pro letošní Tour de France zatím prozradit nesmíte. Zeptám se tedy nikoli na aktualitu, ale na to, jakým směrem se bude technologie DD dále rozvíjet.
Představme si, co vlastně do té skládačky našich dat chybí. Jsou to detailní informace o výkonu a zdravotním stavu sportovce. Není tajná informace, že již v tomto roce závodníci v průběhu tréninku pravidelně doplňuji do osobní aplikace svůj zdravotní stav, například to, jak se ráno cítí a jak se jim trénovalo. To jsou podklady pro další analýzy. Tímto směrem se pravděpodobně budeme v budoucnosti ubírat. Mít více historických a realtime dat závodníka o jeho zdravotním stavu před a v průběhu závodu. Společnost Dimension Data je součástí holdingu NTT, což je firma zabývající se technologickým vývojem. Jednou z takových technologických inovací je například látka, která dokáže kontinuálně, v reálném čase sbírat senzorická data z jakékoli osoby a přenášet tyto informace do mobilních aplikací či datových center. Vývoj jde tedy směrem sbírat co nejvíce biometrických dat o závodníkovi.
První, co mne po takové informaci napadá, je, že informace o zdravotním stavu by měly zůstat utajené. Žádný cyklista by nebyl rád, kdyby se na sociálních sítích před startem etapy objevilo, že se dnes necítí dobře. V tu chvíli toho využijí soupeři.
Máte naprostou pravdu. My rozlišujeme data pro média a fanoušky a dále data, která připravujeme jednotlivým stájím. Musíme především garantovat, že se všechna data dostanou opravdu pouze k tomu, kdo na ně má nárok. Není to jen o tom, že by jedna stáj neoprávněně získala informace o druhé stáji, což by jí dalo konkurenční výhodu. Existuje obrovské množství subjektů mimo Tour de France a cyklistiku, které mají o data také zájem. Jedním z úkolů Dimension Data je naše data chránit. V průběhu Tour de France zaznamenáme na 10 milionů bezpečnostních útoků na naše systémy. To, jak často se pokouší někdo data ukrást, naznačuje, že je mnoho zájemců, kteří by je zneužili k vlastnímu ekonomickému prospěchu.
Jak se stále rozsáhlejší sbírání dat líbí sportovcům?
Rozdělil bych to na dva pohledy. Sběr dat, kdy cyklista není osobně angažovaný a nemusí ničím navíc přispívat, pouze závodí na kole a poskytuje data, nevyžaduje se zavodníkem žádnou diskuzi. Pro stáj a cyklistu je to jeden ze vstupů, který jim může pomoci být úspěšnější. Hodně je to o trenérech, kteří s daty pracují a následně přicházejí s taktikou. V této variantě sbírání dat sportovec nemusí dělat nic navíc a je to pro něj přínos. Ovšem pokud on sám musí přispět něčím navíc, a tedy nekonzumuje pouze výhody, vyhodnocujeme přínos pro závodníka versus kolik času musí strávit nad tím, aby ta data poskytoval, např. vyplňoval pravidelně své pocity do aplikace. Protože to už závodníci nedělají vždy s oblibou. Výhodou pro ně může být, že když trenér dopředu ví, že se závodník necítí dobře, přizpůsobí trénink, sníží pro ten den nároky na výkon na přijatelnou úroveň apod.
Amatérští cyklisté následují profesionály a také bývají nadšení do spousty dat, trénují podle wattmetrů a například sledují, jak kopec vyšlapal profesionál a porovnávají to se svými daty na stejném kopci. Vnímáte tento datový posun i v amatérském prostředí?
Já vidím u amatérů trend zlepšovat svou výkonnost a sbírat o sobě maximální počet dat. Už i amatérský závodník má různé sportovní aplikace, hodinky, pásy kolem hrudníku apod. Sebeanalýza je v amatérském sportu rozšířenější a rozšířenější. Lidé mají data rádi, včetně dat o sobě, o srdečním tepu v klidu, při sportu, o váze, podílu tuku v těle, kolik spálili kalorií atd.
Jak je široký tým, který všechna data pro Dimension Data připravuje?
Minimálně stovka lidí po celém světě. Někde jsou naši kolegové lepší v datové analýze, někde v bezpečnosti, ve vizualizaci atd. Důležité je, že data poskytujeme 24 hodin denně a musíme si být jistí, že systém 100% funguje nejen v době závodu. Cyklistika je hodně dynamická, etapy Tour de France probíhají každý den někde jinde, celou infrastrukturu je nutné neustále převážet a technologie musí fungovat pořád. Tým je poskládaný z lidí po celém světě, kteří si mění směny, poskytují podporu v průběhu závodu, dělají přípravu na další etapu nebo poskytují data.
Četl jsem slova jednoho ze zástupců společnosti Dimension Data, že se podařilo dosáhnout 71% přesnosti v předpovědích.
Je to tak. K předpovědím využíváme „DD Predictor“, což je polidstěný název naší Machine Learning technologie. Bereme historická data ze závodů z předchozích let, data, jak si závodník stojí, a data, jaký bude profil etapy i pravděpodobné počasí. Všechna data zkombinovaná dohromady nám dají předpověď, jak etapa dopadne. A jsme na 71 procent úspěšní v tom, že se trefíme. Na základě historických dat uděláme projekci do budoucna, úplně stejně to dělají sportovní komentátoři, i oni si v rámci svých možností posbírají data, mají znalost o jezdcích, a předpokládají, jak to dopadne. DD Predictor to vlastně dělá stejně. Nemá ovšem historickou osobní zkušenost jako komentátoři, pouze hrubě analyzuje data a udělá predikci. Je zajímavé sledovat, zda je úspěšnější než komentátoři a fanoušci. A zatím se ukazuje, se mu celkem daří.
Těchto projekcí také využíváme pro větší interakci s fanoušky. Večerní predikci DD Predictoru dáme ráno před etapou na twitter, a soutěžíme s nimi, kdo se trefil lépe.
Hackerské útoky mohou mít i spojitost se sázením. Mimochodem, sázíte?
Pravděpodobně by se ta data dala v sázkařském byznysu využít. Ovšem my neříkáme, kdo bude první, pouze udáváme určitý rozptyl, právě z důvodu, abychom neovlivňovali sázení. Firmy, které působí v tomto byznysu, samozřejmě patří mezi zájemce o naše data. A my jim je samozřejmě nesmíme poskytovat. Takže sázím, ale jen na základě vlastního úsudku.
Byla zábavnější TdF v dobách, kdy poprvé vjela do Pyrenejí, a pořadatelé se báli, že jim cyklisty sežerou medvědi, nebo ta dnešní, která v digitálním věku rozmazluje fanoušky?
Vše je poplatné své době. Můžeme se na ty časy ohlížet sentimentálním pohledem zpět, otázkou je, kolik měla tehdy Tour de France fanoušků a jak velké množství informací se k nim denně dostávalo a jakou cestou. Současní fanoušci požadují instantní zážitek a velké množství informací. V dnešní době, kdy se nikdo neobejde bez mobilního telefonu, je s nimi závod barevnější a pestřejší.