Ostatni wpis w tegorocznym kalendarzu adwentowym dedykuję serwisowi Kaggle. Idea, która za nim stoi jest według mnie bardzo dobrym połączeniem przyjemnego z pożytecznym. Opiera się ona na 5 filarach i jednym „sekretnym” składniku. Zaraz dowiesz się jakich.
1. Cloud GPU — Notebooks
Zacznijmy od czegoś obiektywnie wartościowego, co dostajemy za darmo. Mowa tutaj o cloud GPU. Gdy wejdziemy na kaggle.com w sekcję Notebooks, to dostaniemy możliwość utworzenia notatnika podobnego do notatnika Jupyter Notebook. Notatniki te są podpięte do całkiem zacnej maszyny wirtualnej, która posiada również dostęp do GPU. Nie ma tam problemów z umieszczeniem własnych danych, możemy więc sobie całkiem za darmo skorzystać z GPU do własnych celów.
2. Zbiory danych — Datasets
Gdy wejdziemy w sekcję Datasets, naszym oczom ukaże się lista najgorętszych ostatnio zbiorów danych. Kaggle umożliwia bowiem dzielenie się publicznymi zbiorami danych. Zbiory te są katalogowane i używane przez innych użytkowników platformy. Jest to tak przemyślane, że z poziomu każdego zbioru danych możesz uruchomić notebook, który je widzi, i do każdego notebooka możesz też podłączyć jakiś opublikowany zbiór danych. Użytkownicy dzielą się więc zbiorami danych i notebookami, które je wykorzystują. A najpopularniejsze aktualnie zbiory danych są interpretowane właśnie jako „najgorętsze”.
3. Dyskusja — Discussion
Sekcja Discussion jest chyba najbardziej intuicyjna. Jest to po prostu forum internetowe dedykowane dyskusjom o uczeniu maszynowemu, danych i wszystkim pokrewnym. Oprócz tego forum każdy publiczny notatnik i zbiór danych ma swoją sekcję do dyskusji. Mamy więc tutaj na każdym kroku jakieś dyskusje.
4. Konkursy — Competitions
Sekcja Competitions może z kolei być najmniej intuicyjna. Znajdziemy bowiem tutaj konkursy na rozwiązywanie problemów za pomocą uczenia maszynowego. Jest to najmniej intuicyjna sekcja, ale zarazem według mnie najciekawsza. Nie będę się tutaj rozpisywał, bo napisałem już dwa artykuły wprowadzające w tę tematykę: LANL Earthquake Prediction i APTOS 2019 Blindness Detection. Sądzę, że znajdziesz tam wszystkie potrzebne i zachęcające informacje. Dodam jeszcze tylko, że konkursy są również spięte z dedykowanymi dyskusjami, notebookami i zbiorami danych. Bardzo łatwo jest się więc połapać, na jakich danych i w jakim konkursie działa osoba, której posty w dyskusji się czyta.
5. Kursy — Courses
Sekcja Courses jest z kolei najlepsza dla początkujących. Znajdują się tam krótkie samouczki, które można łatwo zrealizować na platformie Kaggle. Wykorzystują one opublikowane tam zbiory danych i notatniki z przygotowanymi ćwiczeniami. Ciężko znaleźć wygodniejsze miejsce, żeby zacząć „z marszu”.
Rankingi Kaggle
Jest jeden „sekretny” składnik, który sprawia, że Kaggle to miejsce, z którego treści o wysokiej jakości wciekają z każdego miejsca. Ten składnik to ranking. Idea jest tutaj taka, że wszystkie wartościowe aktywności z czterech dziedzin: konkursów, notatników, zbiorów danych oraz dyskusji są premiowane punktami. A punkty te przekuwają się na ranking. Punkty i rankingi te są na tyle wyrafinowanie skonstruowane, że nie da się tutaj łatwo oszukiwać. Stanowią więc one pewien dowód na „bycie ekspertem” w danej aktywności. A, że najwyraźniej rankingi to coś, co przedstawiciele społeczności uczenia maszynowego lubią, to chęć uzyskania wysokiej pozycji w rankingu motywuje do tworzenia wartościowych treści i auto moderacji. Fajna sprawa.
Kaggle — Podsumowanie
Kaggle to platforma, która zaczęła jako miejsce dedykowane konkursom uczenia maszynowego. Systematycznie rozrosła się do miejsca, gdzie praktycy spotykają się i dzielą się zbiorami danych, dyskutują o nowych ideach i ogólnie analizują wzajemnie efekty swojej pracy. Platforma ta jakiś czas temu została wykupiona przez Google, padł więc blady strach, że zaczną coś kombinować i ją zepsują. Okazuje się jednak, że od tamtego czasu udostępniono lepsze maszyny wirtualne z dostępem do GPU oraz przestrzeń na zbiory danych. Do tego wszystkiego dorzucono API oraz integrację z niektórymi usługami Google. Liczba konkursów i pula nagród również zdaje się rosnąć. Więc jak dla mnie, Kaggle to wciąż bardzo przyjazna i wygodna platforma dla osób na dowolnym poziomie zaawansowania. A temat ten wybrałem jako ostatni, bo uważam, że jeśli już przegryzłeś się przez cały kalendarz adwentowy, to możesz śmiało atakować wspomniane powyżej konkursy. Koniecznie daj znać, jak Ci poszło!
A ja chciałem podziękować za cały ten kalendarz adwentowy. Wspaniała robota! Przeczytałem wszystko. I wszystko było bardzo wartościowe i motywujące i inspirujące.
Dzięki!
Hej Łukasz 🙂
Dzięki za info. Cieszę się, że Ci się spodobało! Jak byś miał jakieś pytania odnośnie przedstawionych tam idei, albo nawet ogólnie odnośnie pracy z danymi, to wal śmiało.
Damian.