Uczenie maszynowe, sztuczna inteligencja i inne pokrewne dziedziny wiedzy nie są tylko domeną świata IT. Są również, a może przede wszystkim, domeną klasycznych nauk akademickich: matematyki, statystyki i informatyki. A, jako że są ich częścią, możemy je spotkać w kontekście bardzo mocno powiązanym ze światem akademickim. Kontekst ten to publikacje naukowe. A jeśli chodzi o publikacje, to najlepiej zacząć od arXiv!
arXiv — co to takiego?
arXiv (wymawiane jako archiv) to archiwum preprintów. Preprintów, czyli publikacji naukowych, które nie zostały jeszcze zrecenzowane i opublikowane przez wybrane czasopismo naukowe. Archiwum to działa od sierpnia 1991 roku i posiada aktualnie prawie 1.7 miliona preprintów. Każdy z tych preprintów jest dostępny za darmo dla każdego użytkownika internetu.
Serwis ten wywodzi się z Los Alamos National Laboratory, niedziwne więc, że chyba najliczniejszym i najbardziej popularnym działem jest tam fizyka. Za fizyką mamy matematykę i informatykę, a za nimi biologię ilościową, matematykę finansową, statystykę, inżynierię elektryczną i ekonomię. Widzimy więc, że są to nauki przyrodnicze i do tego raczej biurkowe. Studenci i pracownicy politechnik poczują się więc tutaj jak w domu.
Publikuj lub giń!
Jeśli byłeś kiedyś członkiem środowiska akademickiego, mogłeś spotkać się z pojęciem publish or perish. Chodzi tutaj o presję, którą władze uczelni kładą na częste publikowanie wyników badań. Jeśli bowiem nie publikujesz, to ciężko określić czy robisz coś przydatnego. A jeśli nie wydajesz się przydatny, to może Ci być ciężko uzyskać finansowanie. Nawet jeśli jesteś świetnym dydaktykiem, to co jakiś czas powinieneś opublikować wyniki jakichś badań. A najlepiej, żeby te badania były innowacyjne i odkrywcze. Wtedy Twój prestiż, a zarazem prestiż Twojej uczelni rośnie i łatwiej o dalsze pieniądze.
Jeśli działasz we wspomnianych naukach przyrodniczych i biurkowych, to często efekty Twojej pracy da się odtworzyć bardzo szybko. Nie oznacza to, że Ty i Twój zespół nie poświęciliście na to mnóstwo czasu i pracy. A jeśli chcecie przekuć te wyniki w publikację, to musicie poświęcić jeszcze trochę czasu na jej przygotowanie. A później czekacie na jej zatwierdzenie, prośbę o korektę lub odrzucenie. Tyle że często takie czekanie to tygodnie albo nawet i miesiące. A w tym czasie ktoś inny może wpaść na ten sam pomysł i mieć więcej szczęścia w wyborze czasopisma do publikacji. Może więc zebrać laury za jakieś odkrycie, mimo iż technicznie Ty na to „wpadłeś” wcześniej. Owszem, można później probować to odkręcić, ale wszyscy wiemy, że czasem nawet najważniejsze odkrycia dostają tylko „5 minut” popularności, a później pamiętają o nich tylko nieliczni.
Kto był pierwszy?
Pojawił się więc pomysł, żeby w momencie jeśli mamy jakieś fajne „odkrycie”, sklecić publikację i od razu po wysłaniu jej do recenzji wrzucić ją na arXiv, żeby pokazać, jak sprytnie ogarnęliśmy jakiś temat jako pierwsi. A później w razie czego możemy wrzucić aktualizację publikacji jeśli natrafimy na jakieś małe błędy. Brzmi to nieco próżnie, ale raz na jakiś czas faktycznie może to dla kogoś być kwestia udanej kariery jeśli pokaże, że był pierwszy, który nad czymś zaczął pracować. Oficjalnie natomiast mówi się, że jest to unikanie niepotrzebnego opóźniania nauki poprzez blokowanie wartościowych publikacji naukowych w szufladach recenzentów. Ocenę pozostawiam Tobie.
arXiv — Podsumowanie
Chciałem opowiedzieć Ci o arXiv przede wszystkim z jednego powodu. Wewnątrz kategorii computer science wydzielone są dwie mniejsze podkategorie machine learning i artificial intelligence. Mamy więc miejsce ze skatalogowanymi najświeższymi publikacjami naukowymi z interesujących nas dziedzin. Dzisiaj pojawiło się tam odpowiednio 60 (!) i 5 publikacji. Oczywiście mogą one zawierać mniejsze lub większe błędy, lub okazać się całkowicie chybione. Ale trafiają się tam też niezwykle inspirujące i odkrywcze publikacje wysokiej jakości. Jeśli szukamy więc inspiracji do rozwiązania jakiegoś problemu przy pomocy uczenia maszynowego, lub po prostu chcemy być na czasie, to jest to świetne miejsce, żeby zacząć. A z czasem i tak tam pewnie trafimy, bo może się na przykład okazać, że prowadzi tam link z dokumentacji biblioteki, z której korzystamy. A pamiętasz o tym, że to wszystko za darmo i bez rejestracji? Fajnie, nie?