Książka, która zmieniła moje życie – brzmi to bardzo mocno. Nie każdy z nas natrafił już na taką książkę. Może niektórzy mają kilka takich książek w swojej biblioteczce. A może niektórzy w ogóle nie czytają książek. Jesteśmy jednak świadomi, że raz na jakiś czas zdarzają się książki, które całkiem mocno mieszają w głowach i sprawiają, że każda późniejsza książka dotycząca danego tematu jest tak jakby bledsza. W tym artykule opiszę książkę, która wywarła na mnie dokładnie taki efekt.
Tytuł tej mocnej (przynajmniej dla mnie książki) to Wystąpił błąd. Nie znaleziono takiej książki.. Tytuł nieco niepozorny i gdyby nie fragment “Analiza danych” to w ogóle można by ją przegapić w trakcie poszukiwania książki np. o uczeniu maszynowy.
O czym więc jest ta książka? W jednym zdaniu: jest ona o wykorzystywaniu nauki o danych do podejmowania decyzji biznesowych. A dlaczego jest taka fajna? Dlatego, że każda technika nauki o danych i uczenia maszynowego omawiana w niej jest połączona z konkretnymi przykładami biznesowymi. I wbrew pozorom ma to dużo sensu.
Spis treści
Przejrzyjmy sobie spis treści w celu ogarnięcia całości tego dzieła (tak, uważam, że to swojego rodzaju dzieło):
- Wstęp: myślenie w kategoriach analityki danych – jak to w każdej książce bywa, na początku mamy trochę lania wody. Autorzy omawiają tutaj, dlaczego analiza danych w kontekście biznesowym ma sens oraz podają przykłady, gdzie została już skutecznie użyta. Myślę, że jest to standard w każdej książce, która chce być czymś więcej niż podręcznikiem akademickim. 😉
- Problemy biznesowe a rozwiązania z zakresu nauki o danych – tutaj już zaczynają się konkrety. Autorzy wplatają takie pojęcia jak uczenie nadzorowane i nienadzorowane, eksploracja danych oraz formułują pierwsze problemy biznesowe i parują je z różnymi pomysłami na ich rozwiązanie. Możesz przeczytać ten rozdział za darmo.
- Wprowadzenie do modelowania predykcyjnego: od korelacji do nadzorowanej segmentacji – tytuł tego rozdziału nie brzmi może zbyt przekonująco. A tak naprawdę poznajemy w nim drzewa decyzyjne. I to w bardzo przystępny sposób.
- Dopasowywanie modelu do danych – znów nieco mylący tytuł. W rozdziale tym przechodzimy po prostu do innych modeli liniowych.
- Nadmierne dopasowanie i jego unikanie – w tym miejscu częstotliwość wymawianego przeze mnie wow była największa. Do dzisiaj ten rozdział jest dla mnie wzorcem tłumaczenia, czym jest nadmierne dopasowanie.
- Podobieństwo, sąsiedzi i klastry – inaczej niż zwykle, w tym rozdziale omawiane są metody predykcyjne bazujące na podobieństwie i klastrowanie. Inaczej niż zwykle, bo mamy w jednym miejscu uczenie nadzorowane i nienadzorowane. Ale całkiem płynnie się to tutaj przeplata.
- Myślenie w kategoriach analityki decyzji I: co to jest dobry model? – no właśnie, co to jest dobry model? W tekstach technicznych ten temat często się gdzieś gubi. W tym rozdziale natomiast pauzujemy rozważania techniczne i zaczynamy rozważania biznesowe.
- Wizualizacja skuteczności modelu – nie byłoby analizy danych bez wizualizacji. W tym rozdziale mamy omówioną głównie krzywą ROC. Mnie średnio się to przydało, ale kto wie, może komuś uratuje to egzamin algo rozmowę o pracę. 😉
- Dowody i prawdopodobieństwa – znów według mnie średnio trafiony tytuł rozdziału. Omawiana jest w nim po prostu technika powszechnie znana jako Naiwny Bayes. Ale poza problemem z tytułem wszystko jest tutaj bardzo dobrze opisane.
- Reprezentacja i eksploracja tekstu – z tym zagadnieniem koniec końcu najmniej maiłem dotychczas do czynienia, nie wiem więc, jak dobrze napisany jest ten rozdział. Ale wygląda jak dobry wstępniak do dalszej pracy z tekstem.
- Myślenie w kategoriach analityki decyzji II: w kierunku inżynierii analitycznej – rozdział poświęcony kilku dodatkowym przemyśleniom odnośnie do kontekstu biznesowego.
- Inne zadania i techniki nauki o danych – jako, że zbliżamy się do końca książki, autorzy postanowili w kilku bardziej opisowych przykładach zawrzeć informacje o innych technikach, takich jak np. redukcja danych i predykcja połączeń społecznościowych. Nieco mniej konkretów niż we wcześniejszych rozdziałach, ale można zorientować się, co jeszcze zostało do ogarnięcia.
- Nauka o danych i strategia biznesowa – jak zbudować zespół poświęcony analizie danych? Jak użyć analizy danych do zbudowania fundamentów strategii biznesowej? Te i podobne pytania poruszane są tutaj. Nie jest to jednak istota tej książki i mam wrażenie, że ten rozdział powstał jako mały zapełniacz.
- Zakończenie – jak to zwykle w książkach bywa – mają zakończenie. Ta książka również ma zakończenie. Nie wyróżnia się niczym szczególnym. 😀
Komentarz
Dlaczego jestem takim wielkim fanem tej książki? Kiedyś, gdy jeszcze zupełnie się nie znalem na analizie danych i uczeniu maszynowym używałem wszystkich metod, które mi wpadły w ręce. A jako że miałem trochę pracy związanej z danymi z eksperymentów fizycznych, dość mocno improwizowałem. Kombinowałem ze statystyką, trochę z jakimiś własnymi pomysłami, a trochę z jakimiś samouczkami. Gdy jednak natrafiłem na tę książkę (jeszcze po angielsku), to doznałem olśnienia. A w zasadzie całej serii olśnień. Uświadomiłem sobie, że w czasie całych 5-letnich studiów, jedyne, z czym się dobrze zaznajomiliśmy (w kontekście danych), to było stosowanie regresji liniowej do uzasadniania, że przeprowadziliśmy pomiary dobrze. Wiedzieliśmy bowiem, że zjawisko, które badamy, jest liniowe i dobrze wyznaczona regresja to potwierdzała. A ta książka pokazała mi cały, zupełnie inny świat pomysłów na pracę z danymi.
Uważam, że książka ta przyda się każdemu. Czy to studentom (prawie każdy kierunek studiów), czy też biznesmenom (działającym praktycznie w każdym biznesie), a nawet wieloletnim praktykom uczenia maszynowego. Nawet jeśli nie natrafisz w niej na nic odkrywczego, to być może dzięki zawartych w niej przykładach będziesz mógł lepiej wytłumaczyć komuś nieobeznanemu zagadnienie, z jakim walczysz. A to też jest cenna umiejętność. W każdym kontekście. 🙂
Ocena przydatności w analizie danych, uczeniu maszynowym i sztuczniej inteligencji:
10/10
Zalety
- można czytać trochę jak książkę beletrystyczną – kilka przykładów ciągnie się, przez całą książkę
- nie jesteśmy zalewani niepotrzebną matematyką
- lektura jest łatwa i przyjemna
- mniej niż 500 stron
Wady
- nie mamy tutaj żadnej wzmianki o praktycznych implementacjach w R i Pythonie
Bonus
Jeśli chciałbyś sprawdzić, czy styl książki Ci pasuje, możesz pobrać darmowy 40 stronicowy PDF z treścią rozdziału 2. Sprawdź i sam zadecyduj. 😀