Why is data science not an exact science?

Proč Data Science není exaktní věda?

Organisations are working to adopt data science in order to gain more relevant answers to the complex issues concerning their business. However, these answers are not absolute. Why?

Managers have traditionally viewed the world in specific terms and hard numbers. This, however, is an old monochrome perspective compared to what data science can offer them. Instead of a single number, such as 40%, data science offers a probability result which combines a level of confidence and an error rate. (Statistical calculations are, of course, much more complex.) This may seem complicated, but such a combined output helps non-technical people in decision making.

Think more critically about the numbers used in your decision

You need to understand that the predictions offered by data science are only probabilities, not absolute "truths". You compare the possibilities with a higher level of accuracy by understanding the mutual trade-offs of each number. As a result, you will engage in more meaningful and valuable discussions with data experts.

When working with data efficiently, you use statistics to model the real world. However, it is not clear that statistical models describe exactly what is actually happening. You can define a certain probability distribution but it is not clear that the world also follows such a model.

In fact, there are several reasons why data science is not an exact science:

Data

You may or may not have all the data you need to answer your question and even if you do, there may be data quality issues that could cause bias or other unwanted results. According to Gartner, "Poor data quality destroys business value" and costs organisations an average of $15 million a year.

If some necessary data is lacking, the results will be inaccurate as the data is not exactly what you are trying to measure. You may be able to obtain data from an external source, but keep in mind that third-party data may also suffer from quality issues. A current example is COVID-19 data, which is recorded and reported differently by different sources.

Questions

It is said that if someone wants better answers, they should ask better questions. Better questions come from scientists working with domains to solve a problem. Other aspects include assumptions, available resources, limitations, goals, potential risks, potential benefits, success metrics, and the form of the question.

Expectations

Data science is sometimes seen as a panacea or magic potion. In fact, it is neither.

There are significant limitations in data science and machine learning. Taking a real world problem and turning it into a pure mathematical problem results in the loss of a lot of information because we need somehow to reduce it in order to focus on key aspects of the problem.

Context

A model can work very well in one context and fail miserably in another. It is important to clarify that this model only applies in the given circumstances. These are extreme conditions and if they are not met, the assumptions are not valid and the model needs to be revised.

Even in the same case, the prediction model may be inaccurate. For example, a customer exit model based on historical data could give more weight to recent purchases than older ones or vice versa. The first thing that comes to mind is to build a prediction based on the existing data you have; however, building a traffic prediction model based on your existing data means you discount future data that you will collect.

Labels

Image recognition begins with tagged data, such as photos that are tagged "cat" and "dog," etc. However, tagging all content is not so easy. For example, it may vary across cultural standards and the norms of different countries. Much depends on the conditions and the initial assignment.

Similarly, if a neural network is taught to predict the type of images coming from a mobile phone, and has been trained in songs and photos from an iOS device, it will not be able to predict the same type of content coming from an Android device, and vice versa.

Many open source neural networks that address facial recognition have been tuned to a specific data set. So, if we try to use this neural network in real situations on real cameras, it doesn't work because the images coming from the new domains are a little different; thus the neural network can't process them properly and the accuracy decreases. Unfortunately, it is difficult to predict in which domain the model will work well or not. There are no estimates or formulas to help scientists find the best one.

 

-bb-

    Proč Data Science není exaktní věda?

    Organizace se snaží adoptovat Data Science s cílem získat relevantnější odpovědi na komplexnější otázky svého podnikání. Tyto odpovědi však nejsou absolutní. Proč?

    Manažeři tradičně nahlíželi na svět v konkrétních termínech a tvrdých číslech. Tato stará perspektiva je černobílá ve srovnání s tím, co jim může nabídnout datová věda – Data Science. Namísto jediného čísla, například 40 %, nabízí pravděpodobnostní výsledek kombinující úroveň důvěryhodnosti a míru chyby. (Statistické výpočty jsou samozřejmě mnohem složitější.) Může se to zdát komplikované, avšak takto kombinovaný výstup pomáhá v rozhodování i netechnickým osobám.

    Přemýšlejte kritičtěji o číslech použitých při rozhodování

    Pochopte, že předpovědi, které vám nabízí Data Science, jsou pouze pravděpodobnosti, nikoli absolutní „pravdy“. Porovnávejte možnosti s vyšší úrovní přesnosti pochopením vzájemných kompromisů každého čísla. Zapojte se díky tomu do smysluplnějších a hodnotnějších diskusí s datovými odborníky.

    Když děláte práci s daty efektivně, používáte statistiky k modelování reálného světa. Avšak není jasné, že statistické modely přesně popisují, co se děje ve skutečném světě. Můžete definovat určité rozdělení pravděpodobnosti, ale není ani jasné, že svět také jedná podle takového modelu.

    Ve skutečnosti existuje několik důvodů, proč Data Science není exaktní věda:

    Data

    Můžete nebo nemusíte mít všechna data, která potřebujete k zodpovězení otázky. I když máte všechna potřebná data, mohou existovat problémy s kvalitou dat, které by mohly způsobit zkreslení nebo jiné nežádoucí výsledky. Podle společnosti Gartner „Špatná kvalita dat ničí obchodní hodnotu“ a přináší náklady organizacím se ztrátou průměrně 15 milionů dolarů ročně.

    Pokud vám chybí některá data, která potřebujete, budou výsledky nepřesné, protože data přesně nepředstavují to, co se snažíte měřit. Možná budete moci získat data z externího zdroje, ale mějte na paměti, že data třetích stran mohou také trpět na problémy s kvalitou. Aktuální příklad jsou data COVID-19, která jsou zaznamenávána a vykazována odlišně různými zdroji.

    Otázka

    Říká se, že pokud chce někdo lepší odpovědi, měl by klást lepší otázky. Lepší otázky přicházejí od vědců pracujících s doménami při řešení problému. Mezi další aspekty patří předpoklady, dostupné zdroje, omezení, cíle, potenciální rizika, potenciální přínosy, metriky úspěchu a forma otázky.

    Očekávání

    Na datovou vědu se někdy pohlíží jako na všelék nebo magii. Není to ani jedno.

    Existují významná omezení v oblasti vědy o datech a strojového učení. Bereme problém v reálném světě a proměníme jej v čistý matematický problém. Při této transformaci ztratíme spoustu informací, protože je musíme nějak zefektivnit, abychom se zaměřili na klíčové aspekty problému.

    Kontext

    Model může v jednom kontextu fungovat velmi dobře a v jiném nešťastně selhat. Je důležité si ujasnit, že tento model platí pouze za daných okolností. Jsou to krajní podmínky. A když tyto podmínky nejsou splněny, předpoklady nejsou platné, takže je třeba model revidovat.

    I ve stejném případě může být predikční model nepřesný. Například model odchodovosti zákazníků založený na historických údajích by mohl dát nedávným nákupům větší váhu než starším nákupům nebo naopak. První věc, která vám přijde na mysl, je sestavení predikce na základě existujících dat, která máte, ale když sestavíte model predikce odchodovosti na základě existujících dat, která máte, diskontujete budoucí data, která budete sbírat.

    Označení

    Rozpoznávání obrázků začíná označenými údaji, jako jsou fotografie, které jsou označeny jako „kočka“ a „pes“ apod. Označení veškerého obsahu však není tak snadné. Může se například lišit napříč kulturní standardy a normami různých zemí. Hodně záleží na podmínkách a na počátečním zadání.

    Podobně, pokud je neuronová síť naučena k predikci typu obrazu pocházejícího z mobilního telefonu, a byla vyškolena na písničky a fotografie ze zařízení iOS, nebude schopna předpovídat stejný typ obsahu pocházejícího ze zařízení Android a naopak.

    Mnoho neuronových sítí s otevřeným zdrojovým kódem, které řeší problém rozpoznávání obličeje, bylo vyladěno na konkrétní datovou sadu. Takže, pokud se pokusíme tuto neuronovou síť použít v reálných situacích, na reálných kamerách, nefunguje to, protože obrazy pocházející z nových doména se trochu liší, takže je neuronová síť nemůže zpracovat správným způsobem a přesnost klesá. Bohužel je obtížné předvídat, ve které doméně bude model fungovat dobře nebo ne. Neexistují žádné odhady ani vzorce, které by vědcům pomohly najít tu nejlepší.

     

     

    -bb-

    Zdroj: InformationWeek - portál předního amerického magazínu InformationWeek věnovaný moderním technologiím a byznysu
    Zobrazit přehled článků ze zdroje InformationWeek