Proč Data Science není exaktní věda?

Organizace se snaží adoptovat Data Science s cílem získat relevantnější odpovědi na komplexnější otázky svého podnikání. Tyto odpovědi však nejsou absolutní. Proč?

Manažeři tradičně nahlíželi na svět v konkrétních termínech a tvrdých číslech. Tato stará perspektiva je černobílá ve srovnání s tím, co jim může nabídnout datová věda – Data Science. Namísto jediného čísla, například 40 %, nabízí pravděpodobnostní výsledek kombinující úroveň důvěryhodnosti a míru chyby. (Statistické výpočty jsou samozřejmě mnohem složitější.) Může se to zdát komplikované, avšak takto kombinovaný výstup pomáhá v rozhodování i netechnickým osobám.

Přemýšlejte kritičtěji o číslech použitých při rozhodování

Pochopte, že předpovědi, které vám nabízí Data Science, jsou pouze pravděpodobnosti, nikoli absolutní „pravdy“. Porovnávejte možnosti s vyšší úrovní přesnosti pochopením vzájemných kompromisů každého čísla. Zapojte se díky tomu do smysluplnějších a hodnotnějších diskusí s datovými odborníky.

Když děláte práci s daty efektivně, používáte statistiky k modelování reálného světa. Avšak není jasné, že statistické modely přesně popisují, co se děje ve skutečném světě. Můžete definovat určité rozdělení pravděpodobnosti, ale není ani jasné, že svět také jedná podle takového modelu.

Ve skutečnosti existuje několik důvodů, proč Data Science není exaktní věda:

Data

Můžete nebo nemusíte mít všechna data, která potřebujete k zodpovězení otázky. I když máte všechna potřebná data, mohou existovat problémy s kvalitou dat, které by mohly způsobit zkreslení nebo jiné nežádoucí výsledky. Podle společnosti Gartner „Špatná kvalita dat ničí obchodní hodnotu“ a přináší náklady organizacím se ztrátou průměrně 15 milionů dolarů ročně.

Pokud vám chybí některá data, která potřebujete, budou výsledky nepřesné, protože data přesně nepředstavují to, co se snažíte měřit. Možná budete moci získat data z externího zdroje, ale mějte na paměti, že data třetích stran mohou také trpět na problémy s kvalitou. Aktuální příklad jsou data COVID-19, která jsou zaznamenávána a vykazována odlišně různými zdroji.

Otázka

Říká se, že pokud chce někdo lepší odpovědi, měl by klást lepší otázky. Lepší otázky přicházejí od vědců pracujících s doménami při řešení problému. Mezi další aspekty patří předpoklady, dostupné zdroje, omezení, cíle, potenciální rizika, potenciální přínosy, metriky úspěchu a forma otázky.

Očekávání

Na datovou vědu se někdy pohlíží jako na všelék nebo magii. Není to ani jedno.

Existují významná omezení v oblasti vědy o datech a strojového učení. Bereme problém v reálném světě a proměníme jej v čistý matematický problém. Při této transformaci ztratíme spoustu informací, protože je musíme nějak zefektivnit, abychom se zaměřili na klíčové aspekty problému.

Kontext

Model může v jednom kontextu fungovat velmi dobře a v jiném nešťastně selhat. Je důležité si ujasnit, že tento model platí pouze za daných okolností. Jsou to krajní podmínky. A když tyto podmínky nejsou splněny, předpoklady nejsou platné, takže je třeba model revidovat.

I ve stejném případě může být predikční model nepřesný. Například model odchodovosti zákazníků založený na historických údajích by mohl dát nedávným nákupům větší váhu než starším nákupům nebo naopak. První věc, která vám přijde na mysl, je sestavení predikce na základě existujících dat, která máte, ale když sestavíte model predikce odchodovosti na základě existujících dat, která máte, diskontujete budoucí data, která budete sbírat.

Označení

Rozpoznávání obrázků začíná označenými údaji, jako jsou fotografie, které jsou označeny jako „kočka“ a „pes“ apod. Označení veškerého obsahu však není tak snadné. Může se například lišit napříč kulturní standardy a normami různých zemí. Hodně záleží na podmínkách a na počátečním zadání.

Podobně, pokud je neuronová síť naučena k predikci typu obrazu pocházejícího z mobilního telefonu, a byla vyškolena na písničky a fotografie ze zařízení iOS, nebude schopna předpovídat stejný typ obsahu pocházejícího ze zařízení Android a naopak.

Mnoho neuronových sítí s otevřeným zdrojovým kódem, které řeší problém rozpoznávání obličeje, bylo vyladěno na konkrétní datovou sadu. Takže, pokud se pokusíme tuto neuronovou síť použít v reálných situacích, na reálných kamerách, nefunguje to, protože obrazy pocházející z nových doména se trochu liší, takže je neuronová síť nemůže zpracovat správným způsobem a přesnost klesá. Bohužel je obtížné předvídat, ve které doméně bude model fungovat dobře nebo ne. Neexistují žádné odhady ani vzorce, které by vědcům pomohly najít tu nejlepší.

 

 

-bb-

Zdroj: InformationWeek - portál předního amerického magazínu InformationWeek věnovaný moderním technologiím a byznysu
Zobrazit přehled článků ze zdroje InformationWeek