
Kluczowe kompetencje specjalisty danych
Kirill Eremenko
Współczesny świat został całkowicie zdominowany przez informacje, a umiejętność ich sprawnego gromadzenia, rozumienia oraz biznesowego wykorzystywania stała się jedną z najbardziej pożądanych kompetencji na współczesnym rynku pracy. Niezależnie od branży, dane napędzają dziś kluczowe decyzje, a zawód specjalisty w tej dziedzinie, powszechnie zwanego z angielskiego Data Scientist, zyskuje miano najbardziej atrakcyjnej profesji naszych czasów. Jednak dla wielu osób patrzących na ten obszar z zewnątrz, wydaje się on mocno hermetyczny, najeżony skomplikowaną matematyką i niezrozumiałym na pierwszy rzut oka kodem. Właśnie z myślą o odczarowaniu tego mitu i łagodnym wprowadzeniu w temat powstała książka „Kluczowe kompetencje specjalisty danych”, autorstwa Kirilla Eremenko, który obiecuje przeprowadzić nas za rękę przez cały cykl życia projektu analitycznego – od eksploracji i pozyskania surowych informacji, aż po elegancką prezentację ostatecznych wyników. Czy to obietnica bez pokrycia? Zdecydowanie nie, chociaż podchodząc do lektury trzeba mieć świadomość pewnych kompromisów, na które poszedł autor.
Książka została w bardzo przemyślany sposób podzielona na trzy główne części, obejmujące łącznie dziesięć rozdziałów, co gwarantuje czytelnikowi wysoce logiczny i zorganizowany proces przyswajania wiedzy. W pierwszej kolejności autor zabiera nas w koncepcyjną i historyczną podróż, sprawnie wyjaśniając fundamenty sztucznej inteligencji, uczenia maszynowego oraz ideę stojącą za pojęciem Big Data. Niezwykle ciekawym, choć dla niektórych czytelników może nieco przerysowanym zabiegiem, jest tu wykorzystanie słynnej piramidy potrzeb Maslowa do rzetelnego skategoryzowania potrzeb analitycznych współczesnych przedsiębiorstw. To psychologiczne podejście, mimo że specyficzne dla nauk ścisłych, doskonale uświadamia nam, na jakim faktycznym etapie dojrzałości technologicznej mogą znajdować się różne rynkowe organizacje. Najdłuższa i zarazem najważniejsza merytorycznie część publikacji skupia się już na samym rzemiośle, czyli właściwej, codziennej pracy ze zgromadzonym materiałem. Autor omawia w niej zarówno klasyczne, jak i w pełni nowoczesne metody analityczne. Nie brakuje tu konkretów, na które z pewnością wielu czeka – Eremenko w niezwykle przystępny i obrazowy sposób tłumaczy zasady działania algorytmów klasyfikacyjnych, wymieniając i opisując między innymi drzewa decyzyjne, lasy losowe, metodę k-najbliższych sąsiadów, naiwny klasyfikator Bayesa czy regresję logistyczną. Porusza również trudniejsze kwestie klasteryzacji przy użyciu algorytmu k-średnich czy analizy hierarchicznej, a także zagadnienia uczenia ze wzmocnieniem, udowadniając wyższość próbkowania Thompsona nad stosowanymi powszechnie w marketingu klasycznymi testami A/B. Co niezwykle istotne, najnowsze wydanie zostało solidnie wzbogacone o arcyważne w dzisiejszych czasach tematy sieci neuronowych i głębokiego uczenia.
W tym miejscu docieramy do intrygującego punktu, który bardzo wyraźnie odróżnia tę pozycję od typowych, suchych podręczników akademickich. Autor nie ukrywa przed nami brutalnej, szarej prawdy o specyfice tego zawodu: aż osiemdziesiąt procent czasu pracy etatowego specjalisty zajmuje wyjątkowo żmudne, pozbawione wszelkiego prestiżu czyszczenie i przygotowywanie baz danych. Chociaż sam proces technicznego uzdatniania informacji został tu potraktowany niestety dość skrótowo, zajmując zaledwie jeden, stosunkowo niedługi rozdział, to Eremenko stara się nadrobić ten deficyt bezcenną lekcją rynkowej asertywności. Fragment poświęcony sztuce mówienia twardego „nie” to prawdziwy majstersztyk, stanowiący namacalny dowód na to, że autor osobiście zjadł zęby na wdrożeniach i doskonale zna ten biznes od podszewki. Uczy on krok po kroku, w jaki sposób zarządzać rozbudzonymi oczekiwaniami przełożonych i nie stać się łatwą ofiarą nierealnych wymagań w korporacyjnym środowisku, w którym działy IT i zespoły marketingowe wciąż zbyt często funkcjonują jak dwa odrębne, zupełnie niekomunikujące się ze sobą światy. Omawiane teoretyczne rozważania silnie uwiarygadniają liczne, rzetelnie udokumentowane studia przypadków wyciągnięte wprost z takich gigantów jak Amazon, LinkedIn, Netflix czy Uber. Udowadnia to ostatecznie, że analizowane w książce problemy to absolutnie nie są jakieś akademickie abstrakcje, lecz jak najbardziej realne wyzwania, z którymi mierzy się dziś na co dzień współczesny biznes.
Prawdziwym zwieńczeniem każdego procesu analitycznego jest naturalnie umiejętność jego odpowiedniej wizualizacji i przejrzystego zaprezentowania decydentom. Autor bardzo słusznie i trafnie zauważa, że nawet najdoskonalszy pod kątem matematycznym model predykcyjny pozostanie całkowicie bezużyteczny, jeśli kluczowi interesariusze najzwyczajniej w świecie nie zrozumieją jego wyników. Książka kładzie z tego powodu ogromny nacisk na tak zwane umiejętności miękkie, oferując cały wachlarz konkretnych porad z zakresu pewnych siebie wystąpień publicznych i budowania angażującej, dopasowanej do odbiorcy narracji. Niestety, w tym miejscu muszę płynnie przejść do oceny strony edytorskiej i wytknąć wydawcy pewien wysoce irytujący mankament, od którego jako esteta i analityk nie potrafię odwrócić wzroku. W rozdziale dogłębnie poświęconym wizualizacji, w którym to autor niezwykle szczegółowo omawia gigantyczne znaczenie doboru odpowiednich barw i psychologii kolorów na poprawnie sformatowanych wykresach, część zamieszczonych diagramów została – o zgrozo – wydrukowana całkowicie w czerni i bieli. Taki elementarny wręcz błąd redakcyjny w książce, która z założenia uczy nas poprawnej i czytelnej wizualizacji danych, zakrawa na sporą ironię i niepotrzebnie obniża komfort pracy z tekstem. Kolejnym dość wyraźnym minusem, na który z całą pewnością zwrócą uwagę bardziej krytyczni i wymagający czytelnicy, jest silnie zauważalny, momentami wręcz natarczywy ton autopromocyjny. Ponadto, uprzedzam lojalnie, że osoby nastawiające się na mocno zaawansowane przykłady programistyczne, gęste od zmiennych równania lub wnikliwe analizy stricte matematyczne srodze się zawiodą – książka celowo ślizga się jedynie po powierzchni technicznych detali, przez cały czas konsekwentnie pozostając na poziomie mocno ogólnym i wprowadzającym.
„Kluczowe kompetencje specjalisty danych” to nieszablonowa pozycja, którą bezwzględnie należy oceniać wyłącznie przez pryzmat jej docelowej grupy odbiorców. Z całą pewnością nie jest to skomplikowany podręcznik dla zatwardziałych badaczy akademickich ani dla doświadczonych wyjadaczy czy inżynierów pracujących od lat przy hurtowniach danych. To za to absolutnie fenomenalny wręcz przewodnik, kompas i swoisty elementarz dla wszystkich tych osób, które dopiero stawiają swoje pierwsze, niepewne kroki w świecie wielkiej analityki. Książka idealnie sprawdzi się u studentów rozważających obranie takiej właśnie ścieżki kariery, u rzutkich analityków biznesowych, a także u menedżerów średniego i wyższego szczebla, którzy desperacko chcą po prostu zrozumieć, czym tak właściwie, dzień po dniu, zajmują się zatrudniani za potężne pieniądze ludzie w ich technologicznych zespołach. Bardzo przystępny, przyjazny język, brak przytłaczającej, zawiłej terminologii oraz położenie niemalże całego ciężaru na praktyczne, czysto rynkowe zastosowania nauki o danych sprawiają, że lekturę tę, mimo poruszania niełatwych zagadnień, pochłania się z nieskrywaną wręcz przyjemnością. Poradnik skutecznie pobudza uśpioną ciekawość, nakreśla niesamowicie jasną, przemyślaną mapę koniecznych do nabycia kompetencji i ostatecznie bezapelacyjnie udowadnia, że gładkie wejście do świata Data Science jest w dzisiejszych realiach możliwe praktycznie dla każdego, kto odnajdzie w sobie wystarczająco dużo konsekwentnej determinacji. Jeśli poważnie zastanawiacie się nad odważną zmianą branży lub po prostu chcecie jako w pełni świadomi obywatele uczestniczyć w drugiej, fascynującej fazie wielkiej ery informacyjnej, ta konkretna lektura będzie dla Was naprawdę idealnym, solidnym punktem startowym do dalszego rozwoju.


