Scikit-Learn – kalendarz adwentowy #4

Kolejnym elementem z kategorii "trzeba znać" w kontekście uczenia maszynowego jest Scikit-Learn. Nie jest to narzędzie istniejąca same w sobie, ale jest to biblioteka języka Python. Wszechstronność Najważniejszym atutem biblioteki Scikit-Learn jest jej wszechstronność. Jest to aktualnie najbardziej rozwinięta biblioteka, która oferuje: klasyfikację regresję redukcję wymiarowości analizę skupień przetwarzanie danych porównywanie modeli Jeżeli więc któreś … Czytaj dalej Scikit-Learn – kalendarz adwentowy #4

K najbliższych sąsiadów – kto z kim przestaje, takim się staje

Stawek

Algorytm K najbliższych sąsiadów to bardzo prosty algorytm, który całkiem sensownie ogarnia ideę "nie wiemy, co wydarzy się w tym przypadku, ale jak znajdziemy podobne, to pewnie będzie tak samo". Proste nie? A okazuje się, że również sensowne. Przyjrzyjmy się więc bliżej. Idea - jeden wymiar Zastanówmy się, jak to jest z punktami w jednym … Czytaj dalej K najbliższych sąsiadów – kto z kim przestaje, takim się staje

Dlaczego warto zainteresować się Scikit-Learn?

Sedesowce

Gdy zaczynamy przygodę z uczeniem maszynowym w Pythonie, możemy się poczuć trochę zagubieni. Zastanawiamy się, czy mamy tworzyć nasze rozwiązania wykorzystując tylko i wyłącznie własny kod. A może skorzystać z istniejących już modułów? Szukać jakichś nowinek, które będą implementować nowe i ciekawe pomysły, czy opierać się o przetestowane "starocie", które mają trochę starych standardów, ale … Czytaj dalej Dlaczego warto zainteresować się Scikit-Learn?

Accuracy, precision, recall, F1 – co to za czary?

Gęś

Jeżeli zajmujemy się uczeniem nadzorowanym, to rozwiązujemy jakiś problem na bazie cech niezależnych i wynikających z nich cech zależnych. Nasz program "ogląda" cechy niezależne z każdej strony i próbuje stworzyć jakąś relację między nimi a cechami zależnymi. Na przykład w czasie badania wyszło, że przebadana osoba ma 1000 (jakiś) komórek w jednostce objętości i jest … Czytaj dalej Accuracy, precision, recall, F1 – co to za czary?

Silhouette Coefficient – czy dobrze pogrupowałem obserwacje?

Inspekcja

Powróćmy na chwilę do uczenia nienadzorowanego. Dwa artykuły temu pisałem o jednym z prostszych i jednocześnie użytecznych algorytmów - k-średnich. Zapoznaliśmy się ze sposobem jego działania i z wynikami które dzięki niemu uzyskujemy (koncentrycznie pogrupowane obserwacje). Nie umknęła nam też największa wada tego algorytmu - ustalanie liczby grup, które chcemy uzyskać (tytułowe k). Czasem ustalenie … Czytaj dalej Silhouette Coefficient – czy dobrze pogrupowałem obserwacje?

Nieco więcej o pozbywaniu się niepotrzebnych danych

mewa

Jakiś czas temu pisałem o rozpoznawaniu najważniejszych kolumn w ramce danych (artykuł Które kolumny są dla nas najważniejsze?). Rozpisałem się tam między innymi o niepotrzebnych kosztach wynikających ze składowania i używania wszystkich możliwych danych. Nie podałem tam jednak żadnych konkretnych przykładów. Zabrakło liczb i przykładów. W tym artykule nadrabiam zaległości. Zbiór danych Zbiór danych, który … Czytaj dalej Nieco więcej o pozbywaniu się niepotrzebnych danych