też i trochę serio

ProfileO jakości danych, analizie danych, data mining itd. pisałam sama nie wiem już ile razy. Temat do łatwych nie należy, co nie znaczy, że należy go unikać. Przeciwnie. Już dziś wszyscy doświadczamy działania tej technologii, czy nam się to podoba, czy nie. Po raz kolejny więc chcę zwrócić Waszą uwagę właśnie na jakość danych. Tym razem w sposób trochę nietypowy, nawet może mocno abstrakcyjny. Wyobraźmy sobie, że... chcemy zrobić dobrą kiełbasę. Żeby mieć dobry produkt końcowy, musimy zdobyć dobre składniki. Świeże mięso, aromatyczne przyprawy, ładną cebulkę, troszkę czosnku - na pewno zadbamy o to, żeby wszystko miało prawdziwy, a nie chemiczny smak. Odpowiednio przygotowane składniki i dobra receptura dają nam wysokie prawdopodobieństwo sukcesu. Sam produkt końcowy można zjeść od razu albo uwędzić - i umiejętność wędzenia też ma znaczenie, bo i na tym etapie da się coś zepsuć. Na przykład stworzyć pachnące trociny.
Ale wracając do danych: tak samo jak przy produkcji kiełbasy, dokonując analizy danych musimy zadbać o to, aby analizowane dane były rzetelne (wiarygodne), pełne (czyli: na ile to możliwe, obejmowały cały obraz tego co analizujemy) i adekwatne do analizowanego okresu (bieżące - chyba że analizujemy historię). Wydaje się oczywiste? Owszem, ale to nie takie proste. Spełnienie tych trzech warunków czasem może oznaczać tylko jeden właściwy moment. Bo jeśli zrobimy analizę za wcześnie, to dane może i będą aktualne, ale nie będą kompletne (czyli wiarygodne). Jeśli zrobimy ją za późno - to może będą wiarygodne, ale nieaktualne. A aby zbudować sobie obraz pozwalający na ocenę jakie dane nam będą potrzebne to już przed analizą musimy wiedzieć co i po co robimy... No i jeszcze jeden element: obiektywizm. Jeśli robimy analizę do z góry założonej tezy to grozi nam pomijanie danych, które jej nie potwierdzają. Skoro i tak wiemy lepiej - po co analizować?
Natomiast wiarygodność danych uzależniona jest również od tego, czy ktoś ich jakość w ogóle monitoruje - to po pierwsze. A po drugie - jeśli nawet monitoruje to czy w przypadku wykrycia błędów ktoś je w ogóle poprawia. Tu znów włączymy kiełbasę - kiedyś wydawało mi się, że kiełbasa powinna składać się w niemal w całości z mięsa. Tymczasem jak jest każdy widzi, w zależności od ceny i producenta to "niemal" jest większe lub mniejsze. W przypadku np. automatycznego uzupełniania braków w danych (owszem, robi się przy data mining takie rzeczy) możemy to porównać do odkręcenia kranu nad pojemnikiem z mięsem i pójścia na herbatę. Czy na fajkę, wszystko jedno. Błędy zniekształcające zbiór danych porównajmy do wrzucenia do mięsnej masy przez pomyłkę zawartości stojącego obok wiadra z zaprawą murarską. Zamiast kiełbasy uzyskamy niezły pasztet, z tą różnicą, że nie będzie się nadawał do jedzenia.

Umówmy się, że wędzenie będzie algorytmem. W zależności od rodzaju mięsa, pogody i czego tam jeszcze dobiera się rodzaj drewna i czas. Niektórzy twierdzą, że pomaga kilka zaklęć. Przy każdym kolejnym wędzeniu coś tam się zazwyczaj zmienia czy poprawia... I algorytmy też nie powinny być niezmienne, ponieważ dane też się będą zmieniały (choćby ze względu na zmiany prawa czy otoczenia).

Przy dzisiejszych trendach technologicznych ważne są narzędzia, ważne są pomysły, specjaliści od pracy z danymi i programiści. Ale równie ważne są same dane na których to wszystko co supernowoczesne jest oparte. I o tym przede wszystkim trzeba pamiętać. I o ludziach, którzy te dane wprowadzają.

Nawiasem mówiąc, moim zdaniem jednak łatwiej jest zrobić dobrą kiełbasę niż naprawdę dobrą analizę. Łatwiej w pojedynkę ocenić składniki...

 

 

 

Joomla templates by a4joomla