Blog

Úvod do Data Science a Machine Learning

Miroslav Beka - 18.04.2020 - Vzdelávanie

Na začiatku, keď človek vstupuje do Data Science je veľmi dôležité pochopiť, čo sa skrýva za rôznymi označeniami. Ľudia si vedia niektoré pojmy mýliť a preto by som v tomto článku rád veľmi zrýchlene prešiel cez niektoré základné súčasti.

Data Science je proces

Za týmto výrazom sa skrýva celá postupnosť úloh, ktoré musí datascience inžinier vykonať.

Prvá fáza je silne prepojená s biznisom. Používajú sa tu preto rôzne biznis výrazy (Business Intelligence). Ako efektívne vieme využiť softvér na dosiahnutie cieľov firmy? Pracovať pre firmu ako data scientist si vyžaduje pochopenie potrieb biznisu. V tejto fáze je tiež veľmi dôležité odkomunikovať, aké sú možnosti Data Science a čo je možné reálne dosiahnuť a čo nie. Veľa manažérov totiž nerozumie technickej stránke veci a ty ako datascience inžinier si tam na to, aby si im to vysvetlil ľudskou rečou.

Druhá fáza je príprava dát. Nejaké dáta môže mať firma už nazbierané, iné treba kúpiť alebo nájsť nový spôsob ako zozbierať to, čo potrebuješ. Takže tu sa budeš hrabať v databázach, vyťahovať rôzne dáta, spájať všetko dokopy do nejakého zmyslupného celku. Taktiež musíš vedieť vizualizovať tieto dáta, aby si videl, čo máš na ruke. Treba si overiť, že dáta majú tú kvalitu, akú očakávaš. Často sa totiž stáva, že dáta sú chybné, nekvalitné, v iných jednotkách a podobne. Na to si musíš dávať veľký pozor.

tretej fáze začneme pracovať na modeli. To, čo sme zistili v predchádzajúcich krokoch, musíme "preložiť" do reči machine learning. Aký model použiť (vzhľadom na to, aké máš dáta), aké informácie sa z modelu vieme dozvedieť a ako to súvisí s biznisom.

Štvrtá fáza by nám mala vypľuť hotový model pripravený na používanie. Tu všetky tie naše úvahy a predpoklady musíme pretaviť do kódu a natrénovať model na dátach. Znie to jednotucho, ale nie je to úplne easy. Hlavne to záleží od toho, aké kvalitné dáta máš k dispozícii.

Piata fáza sa opäť dotýka silne biznisu. V prvom rade musíme vedieť zhodnotiť, či model skutočne rieši náš problém, ktorý sme chceli vyriešiť a či je v tom dobrý. Tu zvykneme vytiahnuť ďalšie dáta, ktoré model ešte nevidel (testovacie dáta) a otestovať úspešnosť modelu. Výstupom by mala byť krásna prezentácia so všakovakými grafmi a vysvetlivkami, aby to tí "z hora" pochopili a dali ti palec hore.

Machine Learning

Machine Learning je súčasťou Data Science a venuje sa algoritmom, programovaniu a trénovaniu modelu. Tento výraz si ľudia zamieňajú s umelou inteligenciou. Aby sme v tom mali jasno, umelá inteligencia využíva techniky machine learning, aby napodobnila ľudskú inteligenciu vo všeobecnosti. Umelá inteligencia sa zaoberá aj tým, ako ľudia interagujú s inteligentným agentom a aby sa ľudia cítili pohodlne, keď interagujú so strojom. Čiže je tam toho zahrnutého oveľa viacej (napr. aj psychológia). Machine Learning je tu a teraz a dennodenne sa používa. Sú to pokročilé algoritmy a techniky, ktoré spracujú nejaké dáta a vypľujú výsledok. Sú úzko špecializované na jednu a jedinú úlohu. ML techník a algoritmov je mnoho a každý rieši určitý malinký podiel tej umelej inteligencie.

Slovník

Toto odvetvie sa len tak hemží rôznymi výrazmi. Tieto stránky obsahujú základné výrazy, na ktoré určite narazíš a je dobré vedieť, čo znamenaju:

Datasety

Existuje viacero stránok, ktoré ponúkajú svoje dáta verejne a zadarmo. Inak väčšinou treba za dáta tvrdo platiť a kopec firiem si na zhromažďovaní dát vytvorili biznis.

Googlenie určite pomôže nájsť mnohé stránky, ktoré ponúkajú svoje dáta. Tu je zoznam niekoľkých populárnych stránok:

Ak chceš vedieť viac o Data Science a Machine Learningu, prihlás sa do môjho online kurzu Python Data Science. Ak máš pripomienky alebo otázky k článku, smelo sa pýtaj v komentároch.




Img 9111

Miroslav Beka

Ahoj, volám sa Miro a som Pythonista. Programovať som začal na strednej. Vtedy frčal ešte turbo pascal. Potom prišiel matfyz, kadejaké zveriny ako Haskell, no najviac sa mi zapáčil Python.

Od vtedy v Pythone robím všetko. Okrem vlastných vecí čo si programujem pre radosť, som pracoval v ESETe ako automatizér testovania. Samozrejme, všetko v Pythone. Potom som skočil do inej firmy, tam taktiež Python na automatické testovanie aj DevOps. Viacej krát som účinkoval ako speaker na PyCon.sk, kde som odovzdával svoje skúsenosti.

Medzi moje obľúbené oblasti teda parí DevOps, Automatizovanie testovania a web development (hlavne backend).

Okrem programovania sa venujem hlavne hudbe 🤘


Konštruktory v Jave

Vzdelávanie

V tomto článku sa pozrieme, čo je to konštruktor v Jave (constructor in java). Na čo sa používa? Čo je to? Trieda slúži na opis a výrobu objektov....

Kolekcie v Jave

Vzdelávanie

V tomto úvodnom článku do série pokročilá java sa pozrieme na zúbok kolekciám (collections in java). Kolekcie sú akoby kontajnery, ktoré v sebe držia...

Kotlin vs. Java - menej kódu

Vzdelávanie

Kotlin a Java sú kompatibilné programovacie jazyky. V tom zmysle, že ak skompilujeme Java kód, tak sa vytvorí bytecode v súbore .class. Ak skompilujem...