Lato nie sprzyja dłuższym projektom robionym po godzinach. Jest jasno, ciepło i zielono. Siedzenie przed komputerem nie daje więc tyle satysfakcji co przebywanie na świeżym powietrzu. Najlepiej więc wybrać się na wycieczkę i coś pozwiedzać. A najlepiej odwiedzić jakieś miasto, w którym jeszcze nigdy nie byliśmy.
Przyjmijmy więc, że przyjechaliśmy do nowego miasta i obejrzeliśmy już tam każdy kąt, chodząc „na ślepo”. I chcemy więcej. Możemy zastanowić się, czy miasto, w którym przebywamy, nie jest przypadkiem najbliższym miastem dla jakiegoś znaczka turystycznego. Być tutaj i go przegapić? Hańba!
Co oferuje to miasto?
Problem okazuje się prosty do rozwiązania! Weźmy sobie listę wszystkich znaczków turystycznych. Weźmy sobie również listę wszystkich miast w Polsce.
Przejdźmy przez każdy znaczek i wyliczmy dla niego najbliższe miasto. Zapiszmy ten znaczek w liście znaczków dla tego miasta.
Jak przejdziemy przez wszystkie znaczki, to będziemy mieć miasta z listą znaczków. Każdy z tych znaczków wskazał to miasto jako najbliższe dla niego.
W ten sposób udało nam się stworzyć zbiór danych pt. Jeśli jesteś w A, to musisz zobaczyć X, Y i Z.
Jeśli jesteś ciekaw, jakie miasto wyszło najlepiej, bazując na kryterium znaczków turystycznych, to śpieszę z odpowiedzią, że jest to Zakopane.
Zasada Pareto
Zasada Pareto mówi nam o często obserwowanej dysproporcji w relacji. Zastanawiałem się, czy w tym przypadku również możemy ją zaobserwować. Hipoteza, którą chcę zweryfikować, brzmi: „Czy top 20% miast, które leżą najbliżej znaczków, pokryją nam 80% wszystkich znaczków.”
Żeby się przekonać, wystarczy, że posortujemy listę miast i weźmiemy top 20%. Wtedy wystarczy zsumować przyporządkowane do nich znaczki i zobaczyć ile to znaczków z wszystkich znaczków. Aktualnie jest to 46%. Liczba ta świadczy o tym, że mimo iż jest trochę centralnych punktów, to rozmieszczenie znaczków nie jest aż tak mocno skoncentrowane, jak wynikałoby to z nauk socjoekonomicznych. Mniej więcej :-).
Jeśli szukasz kodu, który implementuje powyższy pomysł, to zerknij tutaj: kod. Przykład ten jest przygotowany w środowisku Google Colab, wiec od razu będziesz mógł go zmodyfikować i przetestować.
„rozmieszczenie znaczków nie jest aż tak mocno skoncentrowane, jak wynikałoby to z nauk socjoekonomicznych” – bardzo ciekawe spostrzeżenie! Przy okazji, jaki organ decyduje o tym, że dana atrakcja turystyczna otrzymuje swój znaczek? Z całym szacunkiem do poniżej wymienionych, ale Łęknica albo Kalisz, znajdujące się w czubie listy, biją na głowę np. Kraków lub Gdańsk pod względem liczby znaczków …
Zasada Pareto mogłaby się sprawdzić, gdyby znaczki przyznano w racjonalny sposób (jest „Budynek sądu w Nowym Tomyślu”, a brakuje katedry w Gnieźnie? ) lub każda atrakcja dostała punkty prestiżu. Czyżby powstała nowa hipoteza? 🙂
Przyznam, że zdecydowanie było to prowokacyjne zdanie. Dlatego też od razu umieściłem w następnym zdaniu „Mniej więcej :-)”.
Kryterium jest mi nieznane, ale każdy, kto odwiedził chodź raz Ostrów Tumski we Wrocławiu i zebrał kilka znaczków turystycznych, wie, że zdecydowanie brakuje tam wielu miejsc, a niektóre są takie sobie. Myślę, że zdecydowanie będę musiał powtórzyć taką analizę, ale na innym zbiorze danych. Może lista UNESCO się nada? Dzięki za komentarz! Będę z tak odważnymi hipotezami 😀