Jakiś czas temu pokazałem, że czasem warto użyć bazy danych w projekcie analitycznym. Przeczytasz o tym w moim artykule pt. SQLite i Python – czy warto? Zastanówmy się więc, jak możemy użyć bazy danych do skompletowania sobie aktualnych danych o koncentracji polutantów z GIOŚ. Po co w ogóle się zajmować tym problemem? GIOŚ systematycznie udostępnia … Czytaj dalej Jakość powietrza w Polsce #4 – zróbmy sobie własną bazę SQLite
Kategoria: Tutorial
Co tam na giełdzie słychać? GPW-ML #1
Prawie każdy, komu udało się przewidzieć coś przy pomocy uczenia maszynowego, mniej więcej trzy sekundy po sukcesie wyobraził sobie, jak przewiduje przyszłe wartości spółek giełdowych (lub kryptowalut - ale to przestało być modne ostatnio ;-)). Szczególnie jeśli ostatnio oglądał film Pi (gorąco polecam - nie widzę niestety na żadnym VOD). Giełda, jaka jest, każdy widzi. … Czytaj dalej Co tam na giełdzie słychać? GPW-ML #1
Silhouette Coefficient – czy dobrze pogrupowałem obserwacje?
Powróćmy na chwilę do uczenia nienadzorowanego. Dwa artykuły temu pisałem o jednym z prostszych i jednocześnie użytecznych algorytmów - k-średnich. Zapoznaliśmy się ze sposobem jego działania i z wynikami które dzięki niemu uzyskujemy (koncentrycznie pogrupowane obserwacje). Nie umknęła nam też największa wada tego algorytmu - ustalanie liczby grup, które chcemy uzyskać (tytułowe k). Czasem ustalenie … Czytaj dalej Silhouette Coefficient – czy dobrze pogrupowałem obserwacje?
shap.summary_plot, czyli kilka kolejnych słów o zaglądaniu do modelu
Ostatnio w komentarzach coraz częściej spotykam się z opinią, że nie sztuką jest stworzyć model, ale sztuką jest (powinno?) interpretacja uzyskanych wyników w kontekście problemu, który rozwiązujemy. Z drugiej strony, są też całe kursy od niesamowitych wymiataczy (np. course.fast.ai), których motto brzmi mniej więcej - zacznij jak najszybciej, a później będziemy się wgłębiać w detale. … Czytaj dalej shap.summary_plot, czyli kilka kolejnych słów o zaglądaniu do modelu
Analiza skupień na przykładzie algorytmu k-średnich
Jednym z ciekawszych, a jednocześnie nie jednym z pierwszych zagadnień, na które można natrafić w uczeniu maszynowym, jest analiza skupień. Brzmi to trochę groźnie, ale tak naprawdę chodzi o sensowne grupowanie obserwacji w celu uzyskania jakiejś dodatkowej informacji. Analiza skupień to jedna z dziedzin uczenia nienadzorowanego. Dziedzina ta należy do uczenia nienadzorowanego, gdyż nie mamy … Czytaj dalej Analiza skupień na przykładzie algorytmu k-średnich
Pakiet auditor – weryfikacja, walidacja i analiza błędów modelu w R
Jakiś czas temu pisałem o narzędziach Pythonowych służących do zaglądania do wnętrza modelu predykcyjnego. Poświęciłem temu tematowi trzy artykuły (ELI5 i czarne pudełka, Partial Dependence Plots, Co to jest SHapley Additive exPlanations (SHAP)?) i pewnie poświęcę jeszcze kilka. Ostatnio natrafiłem na podobne narzędzie, ale przygotowane dla języka R. Narzędzie to nazywa się auditor i chociaż … Czytaj dalej Pakiet auditor – weryfikacja, walidacja i analiza błędów modelu w R