Analityczna alternatywa
Świat gna do przodu, wielkie koncerny i ich wzorem mniejsze przedsiębiorstwa stosują wszelkie możliwe sposoby aby zmaksymalizować zysk i zminimalizować koszty. Nie piszę tego przypadkiem – po wzorce z biznesu administracja publiczna sięga już od jakiegoś czasu (to, że z różnym skutkiem pisaliśmy wiele razy). W tym przypadku jednak myślę, że sięgnięcie po rozwiązania stosowane w firmach komercyjnych mogłoby nam bardzo pomóc.
Mowa o data mining, czyli po polsku mówiąc – eksploracji danych. A jeszcze bardziej po polsku: wykorzystywania gromadzonych danych dla wyciągania wniosków ze stanu istniejącego, przewidywania stanu przyszłego i badania, co się zmieni gdy zmieni się jakiś konkretny czynnik (tzw. analiza wariantowa).
W biznesie wykorzystuje się to do różnych celów: do badania jakie towary warto wykładać obok siebie, do segmentacji i stworzenia profilu klienta który daje największe nadzieje, że będzie u danego przedsiębiorcy kupował, do przewidywania zysków, do analizy kolejności „klikań” na stronie internetowej i do wielu innych rzeczy.
W skarbówce potrzebujemy wszystkich trzech opcji. Gdyby ktoś nie wiedział: typowanie do kontroli póki co nie odbywa się jednak na zasadzie: „o, a może ten pan?” (aczkolwiek są zapowiedzi, że jakiś niewielki procent kontroli ma być losowych). Zawsze są jakieś przesłanki, wynikające właśnie z posiadanych danych. Różnych. Mamy ku temu różne narzędzia, ale w mojej ocenie eksploracja danych i ich modelowanie będzie bardzo przydatne do modnej ostatnio segmentacji ogólnej (nawiasem mówiąc, zwrot „segmentacja klientów” kojarzy mi się raczej z akcją seryjnego mordercy niż z klasyfikowaniem klientów do różnych grup. Ale być może za dużo kryminałów przeczytałam i się czepiam…). Tutaj widzę zastosowanie modeli deskrypcyjnych (czyli opisujących stan istniejący).
Poza tym jednym z zadań którym zajmują się często (bo nie zawsze akurat oni) analitycy w urzędach skarbowych to prognozowanie, choćby wpływów z podatków w przyszłości. I tu widzę zastosowanie modeli predykcyjnych (czyli przepowiadających przyszłość). Dzisiaj i tak w tym celu korzystamy z danych historycznych z poprzednich okresów i korygujemy prognozy o różne czynniki zewnętrzne które na moment prognozowania są nam znane. Niemniej zastosowanie modelu bardzo przyspieszy ten proces, bo dziś naprawdę zajmuje to dużo czasu a i tak trudno adresatów zadowolić. Zresztą, ten akurat element raczej nie ulegnie zmianie nawet jeśli data mining będzie w urzędach stosowane powszechnie…
Analiza wariantowa natomiast pozwala uzyskać odpowiedź na dwa pytania: jak się będzie zmieniał wynik jeśli będziemy zmieniać czynnik(i) oraz jak muszą się zmienić czynnik(i) żeby uzyskać pożądany wynik. To z kolei może być przydatne do analiz indywidualnych, ale i do monitorowania stopnia wykonania zadań.
Nie ukrywam, że miałam nieco do czynienia z eksploracją danych poprzez korzystanie z resortowych hurtowni. Stąd też kiedy dostałam od kolegi (wielkie dzięki raz jeszcze dla K.) cynk, że jest szkolenie z data mining starałam się na nie dostać; szkolenie przeznaczone było dla pracowników izb skarbowych i do urzędów oferta w ogóle nie trafiła. Udało mi się dzięki uprzejmości mojego szefostwa (bezpośredniego i jeszcze wyższego), za co również dziękuję. Trochę jednak mnie dziwi dobór adresatów tego szkolenia – w izbach raczej korzysta się dziś z danych zagregowanych już, albo wybranych przez urzędy i ułożonych w tabelki. Dla kogoś, kto nigdy dotąd nie „bawił się” danymi na poziomie najniższym lub nie jest informatykiem kurs był naprawdę ciężki. Ja wiem, że konsolidacja i w ogóle, ale skoro będziemy i tak wszyscy pracownikami izb skarbowych to za taką ofertę byłoby wdzięcznych sporo osób pracujących dziś jako informatycy czy analitycy na poziomie urzędów. Bowiem to od nich wymaga się, żeby wiedzieli i umieli takie właśnie rzeczy, np. dla wybrania danych w nieprzekraczalnym terminie… itd. Niemniej dziś wypełniałam tabelkę z przedstawionymi propozycjami szkoleń resortowych i na liście również dla urzędów znalazły się techniki eksploracji danych i analizy statystycznej. A to oznacza wg mnie, że prędzej czy później wszyscy zajmujący się analizami w urzędach będziemy musieli się tego nauczyć, bo będzie to nasze narzędzie pracy.
Znalazłam w zasobach internetu podręcznik elektroniczny, traktujący o technikach zgłębiania danych. Dla tych, którzy nie mieli okazji poznać tej oferty szkolenia ani z niej skorzystać oraz dla ciekawych link
Do eksploracji i modelowania danych służą różne narzędzia. Na szkoleniu pracowaliśmy z Microsoft SQL Server i z tego co do mnie dotarło na tym właśnie „stać” (no dobra, „chodzić” ;) ) będzie GenTax. Stąd też zaczynam się zastanawiać, czy faktycznie stracimy dostęp do danych na takim poziomie, na jakim informatycy i gdzieniegdzie analitycy w urzędach mają dostęp. Bo bez tej możliwości korzystanie z tego rodzaju narzędzi raczej nie będzie możliwe.
W firmach prywatnych przy tworzeniu modeli i ich testowaniu pracują ramię w ramię analitycy i tzw. eksperci dziedzinowi (wiele mówi fakt, że np. w moim urzędzie często się zdarza, że są to te same osoby… W analizach i planowaniu człowiek musi umieć wszystko i w dodatku często sam sobie tę wiedzę musi nabyć, a jeśli spojrzeć w wartościowanie to... ok, kiedy indziej...). Tutaj aż się prosi o wykorzystanie możliwości dokuwiki, o których pisałam na forum – bo nie dość, że umożliwiłoby „wrzucanie” skryptów i modeli przez autorów z całego kraju, to jeszcze pozwoliłoby na ich testowanie i ewentualne korygowanie, a do tego konsultacje z pracownikami merytorycznymi, czyli właśnie ekspertami dziedzinowymi - też z całego kraju. Przy minimalnych kosztach, bo licencja darmowa a spotkania i dojazdy nie byłyby potrzebne. Nie jest to mój pomysł, tylko dwóch innych osób (wprawdzie stworzony projekt miał nieco inne przeznaczenie, lecz pomysł takiego zastosowania wyszedł nam jak sobie projekt testowaliśmy) – nie wiem czy chcą się ujawniać; ale brałam udział w raczej kameralnych testach i dlatego wiem jaki to rozwiązanie ma potencjał.
A tak w kontekście ostatniej akcji w urzędach skarbowych pt. pismo z Kancelarii Prezydenta to powiem tylko, że bardzo tęsknię za Bożenką i Waldim, dawniej z WHTAXu. Mówi się, że nie ma ludzi niezastąpionych, ale brak niektórych odczuwa się znacznie dotkliwiej niż innych. Więc pewno nie tylko ja za Nimi tęsknię…
A wracając do data mining: nie będę się rozpisywać o naiwnym Bayesie, drzewach decyzyjnych czy sieciach neuronowych, bo nie chcę Was zniechęcić – to wcale nie jest takie straszne jak brzmi jeśli nie liczy się na kartce i liczydle… Może też warto spojrzeć na to w taki sposób: nabycie takiej wiedzy i doświadczenia w wykorzystywaniu jej podnosi szansę na życiową zmianę – pamiętajcie, że umiejętności związane z oceną danych, praca z informacjami czy wydobywanie z nich wiedzy to dziś bardzo cenny towar. Warto więc zainwestować trochę czasu w nabycie tej wiedzy, zwłaszcza że wg przewidywań MF 5% z nas nie przyjmie nowych warunków płacy i pracy. Trzeba szukać jakiejś alternatywy…