Nieco więcej o pozbywaniu się niepotrzebnych danych

mewa

Jakiś czas temu pisałem o rozpoznawaniu najważniejszych kolumn w ramce danych (artykuł Które kolumny są dla nas najważniejsze?). Rozpisałem się tam między innymi o niepotrzebnych kosztach wynikających ze składowania i używania wszystkich możliwych danych. Nie podałem tam jednak żadnych konkretnych przykładów. Zabrakło liczb i przykładów. W tym artykule nadrabiam zaległości. Zbiór danych Zbiór danych, który … Czytaj dalej Nieco więcej o pozbywaniu się niepotrzebnych danych

ELI5 i białe pudełka

klocki

Dzisiaj będzie krótko. Chciałbym po prostu pokazać wam proste narzędzie ELI5. Podstawowym sposobem na ocenę naszego świeżo stworzonego modelu jest jego sprawdzenie na pierwotnie dla niego ukrytym zbiorze danych. Jeśli dane podzieliliśmy na stałe zbiory, to możemy w ten sposób całkiem długo testować swoje modele i porównywać wyniki (pokazywałem to między innymi tutaj). Jest to … Czytaj dalej ELI5 i białe pudełka

Które kolumny są dla nas najważniejsze?

Kolumny

Dzięki R i Pythonowi nie jest problemem uruchomienie funkcji modelującej. Fakt, zdobycie danych i przerobienie ich na ramkę danych może być trudne i żmudne. Jednakże jest to często tylko problem techniczny. Uruchamiamy więc nasze funkcje modelujące i z niecierpliwością czekamy na wyniki. Często tak właśnie wygląda całość naszego procesu. Wiemy, że im więcej danych mamy … Czytaj dalej Które kolumny są dla nas najważniejsze?