MNIST – kalendarz adwentowy #15

Nie da się pracować nad rozwiązaniem jakiegoś problemu z wykorzystaniem danych, bez danych. To raczej oczywiste. Ale zastanówmy się, co by się działo, gdyby różne zespoły opracowywały rozwiązanie jakiegoś konkretnego problemu, wykorzystując różne dane. Każdy z nich doszedłby do optymalnego rozwiązania dla jego danych. Po pierwsze, pewnie żaden z nich nie zbliżyłby się do ogólnego optymalnego rozwiązania. A po drugie (i gorsze), nie mogłyby ze sobą porównywać wyników. Aby uniknąć takich problemów, od jakiegoś czasu w mniej lub bardziej zorganizowany sposób powstają wzorcowe zbiory danych, służące do porównywania ze sobą wyników modeli uczenia maszynowego. Jednym z najbardziej znanych takich zbiorów jest MNIST.

Co zawiera MNIST?

MNIST database to skrót od Modified National Institute of Standards and Technology database. Jest to zmodyfikowana baza danych opublikowana przez NIST, który jest amerykańskim odpowiednikiem Głównego Urzędu Miar. Próbka tego zbioru wygląda następująco:

Próbka MNIST
Próbka MNIST
By Josef SteppanOwn work, CC BY-SA 4.0, Link

Jak już zapewne zauważyłeś, nie jest to nic innego jak zbiór zdjęć cyfr w notacji arabskiej pisanych odręcznie. A zadaniem, które jest z nim związane, jest jak najtrafniejsze zidentyfikowanie każdej z cyfr.

Po co nam takie zbiory?

No właśnie, po co nam one? Ze wstępu można wywnioskować, że głównie po to, żeby móc porównywać ze sobą wyniki. Mają też jednak inne cechy.

Jedną z cech, wpisującą się w porównywalność, jest z góry zdefiniowany podział na zbiory testowe i treningowe. W takiej sytuacji każdy zainteresowany wie, którą część powinien użyć do treningu, a którą do testu, tak aby dało się porównać wyniki.

Kolejną pożądaną cechą jest dobrze zdefiniowane kryterium sukcesu. Jest to po prostu jakaś metryka, która dobrze obrazuje, jak zbliżamy się do rozwiązania zadania. Wbrew pozorom, nie zawsze jest to takie oczywiste.

Najważniejszą być może cechą jest fakt, że zbiory te, zawsze zawierają prawdziwe dane. Jest to o tyle ważne, że o ile łatwo możemy wygenerować sobie jakiś sztuczny zbiór danych, to prawdzie dane z wszystkimi ich wadami, często nie są dostępne bez specjalistycznych „dojść” i zasobnego portfela. Natomiast dzięki organizacjom, które postanowiły stworzyć takie wzorcowe zbiory danych, możemy niemalże z ulicy sprawdzić swoje umiejętności w uczeniu maszynowym, na danych, do których normalnie ciężko byłoby nam dotrzeć.

MNIST — Podsumowanie

MNIST nie jest jakimś szczególnym zbiorem danych. Jest jednak znany, bo przez lata stanowił bazę przy porównywaniu różnych podejść do odczytu ręcznie pisanych cyfr. A, że temat ten da się ugryźć na wiele sposobów klasycznych, jak i przy pomocy sieci neuronowych, to wciąż jest popularny. Ale raczej jako ćwiczenie.

Warto zawsze mieć pod ręką jakieś wzorcowe zbiory danych do oceny swoich poczynań. Dobrym miejscem do przeszukania na start może być np. ten spis z Wikipedii. Polecam!

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *