Serwis korporacyjny
 APA Group  

Artykuły

Dane są wszechobecne – czyli słów kilka o big data

Dane są wszechobecne. W dzisiejszych czasach zdanie to może się wydawać truizmem. Rzeczywiście, wszystkie zjawiska zachodzące wokół nas próbujemy mierzyć, analizować, wizualizować. Aby dostrzec, zrozumieć, doskonalić. Produkujemy więc liczby, dużo liczb. W tej nierównej walce od wielu lat wspomagają nas komputery. Uzbrojeni w narzędzia sztucznej inteligencji wkraczamy w świat Przemysłu 4.0.

Dane, wszędzie dane!

Powiew wiatru, promienie słoneczne, praca robota, kursy na giełdzie. Gdy je zmierzymy, każde można zamienić w strumień danych. Ale dane same w sobie są bezużyteczne — dopiero zinterpretowane, dostarczą nam informacji o prędkościach, natężeniu, liczbie cykli pracy czy wystąpieniu krachu. Czy zawsze zgodnie z prawdą? Analitycy muszą zmierzyć się ze zjawiskami takimi jak: mniejsze lub większe braki danych, ich niewłaściwy format, irracjonalne wartości czy jednostki. Bywają one trudne do wykrycia i zazwyczaj stanowią potencjalne uszczuplenie naszej wiedzy. Jakość danych jest absolutnie kluczowa.

Dane są wszechobecne

Nasze potoki obserwacji łączy jeszcze jedna ważna własność — wszystkie odbywają się w czasie. Czas jest podstawowym parametrem opisującym związki przyczynowo-skutkowe, przynajmniej w znanej nam części Wszechświata. Na jednej osi czasu możemy wykreślić temperaturę i wilgotność w hali produkcyjnej, tętno serca pracownika czy interwał potrzebny na wykonanie przez niego konkretnej pracy. Z praktycznego punktu widzenia, jesteśmy w stanie rejestrować współwystępowanie wielu, często pozornie niezwiązanych ze sobą zjawisk. Są tylko dwa problemy: po pierwsze, danych jest dużo. Żadna ludzka percepcja nie jest w stanie wydajnie monitorować tak wielu informacji. Po drugie, samo przyswojenie danych nie stanowi klucza do sukcesu. Dane trzeba zrozumieć.

Lawinowy wzrost

Rozważmy linię produkcyjną, na której pracuje kilka robotów. Załóżmy że monitorujemy ich parametry elektryczne i dynamiczne oraz parametry otoczenia. Z łatwością naliczymy kilkadziesiąt, jeśli nie kilkaset takich parametrów. Jak często musimy je mierzyć? Przykładowo, pomiar temperatury otoczenia z częstotliwością 1kHz (czyli 1000 pomiarów w każdej sekundzie) brzmi absurdalnie; taka sama częstotliwość zastosowana do pomiaru natężenia prądu może już mieć swoje uzasadnienie. Częstotliwość pomiaru powinna być więc dostosowana do charakteru mierzonego procesu. Na potrzeby szacowania załóżmy jednak po prostu rejestrację w odstępach sekundowych. Po jednym dniu musimy liczyć się już z gigabajtami danych — tylko dla kilku urządzeń! Jeżeli chcemy przeprowadzać analizę strumieniowo, i to dla danych różnego typu (od grafiki, np. z kamer fabrycznych, po dane dźwiękowe), to jesteśmy o krok od pojęcia Big Data, które definiuje się z grubsza przez tzw. 3V (Volume, Velocity, Variety). Będziemy potrzebowali komputera.

Od komputera do dziecka i z powrotem

Zdolności arytmetyczne komputerów od dawna przewyższają wielokrotnie możliwości przeciętnego człowieka. Mnożenie dużych liczb, optymalizacja numeryczna, a nawet rachunki symboliczne to dziedziny, w których komputer nie ma sobie równych. Z drugiej strony, zadania trywialne dla rocznego dziecka, takie jak rozpoznawanie twarzy czy wyczuwanie nastroju bliskiej osoby, okazują się trudne do wykonania przez maszynę. Stanowi to ilustrację tzw. paradoksu Moraveca, i zazwyczaj tłumaczy się ewolucyjną genezą ludzkości.

Dane są wszechobecne

Wróćmy do naszych danych. Na pierwszy rzut oka, znamy dobrze dziedzinę która opisuje oraz pomaga w zrozumieniu prawidłowości zachowań większych zbiorów elementów – to statystyka. Dzięki niej szacujemy np. średnie zachmurzenie, oraz jego potencjalną korelację z napięciem na ogniwach fotowoltaicznych. Uzbrojeni w rachunek prawdopodobieństwa możemy pokusić się np. o prognozowanie zużycia energii elektrycznej w następnym miesiącu. Ale jak przekazać komputerowi, co jest typowym zachowaniem robota, a co jest anomalią w jego pracy? Który dzienny profil mocy przedsiębiorstwa jest typowy, a któremu należy się przyjrzeć bliżej? Które dane wskazują na kradzież energii elektrycznej? Metody czysto statystyczne mogą okazać się tu niewystarczające. W sukurs przychodzą nam narzędzia sztucznej inteligencji, takie jak drążenie danych (data mining) i uczenie maszynowe (machine learning).

Obserwuj i ucz się

Najogólniej mówiąc, uczenie maszynowe to zbiór metod programowania, w których reguły postępowania nie są zapisane explicite, ale są weryfikowane i modyfikowane przez program poprzez konfrontację z rezultatami. Pozorny paradoks dotyczący możliwości komputera i dziecka nie pojawił się tu przez przypadek — to właśnie uczenie maszynowe, a w szczególności sztuczne sieci neuronowe, dokonały przełomu w rozwiązywaniu problemów trudnych do zdefiniowania wprost (notabene sieci neuronowe są projektowane nie inaczej, jak poprzez naśladowanie pracy neuronów w mózgu). Metody uczenia maszynowego możemy podzielić z grubsza na dwie klasy: uczenie nadzorowane oraz nienadzorowane. Podczas gdy to pierwsze polega na posiadaniu wstępnej wiedzy (takiej jak przykłady) oraz nauczeniu modelu danego wzorca, to drugie jest w wielu przypadkach tożsame z drążeniem danych, czyli z wyławianiem wymiernych informacji i wzorców, np. poprzez klasyfikację (grupowanie) danych, bez uprzedniej wiedzy o ich strukturze.

Dane są wszechobecne

Techniki te są wręcz stworzone do wyszukiwania anomalii, typowania podejrzanych działań, jak również do optymalizacji procesów czy predykcji. Skuteczność algorytmów uczenia maszynowego polega między innymi na nieustannym i niejako automatycznym korygowaniu wewnętrznych parametrów, tak aby zminimalizować potencjalny błąd modelu. Klasycznym przykładem może być tzw. predictive maintenance, gdzie korzystając z bogatego zbioru danych model jest w stanie nauczyć się, jakie okoliczności prowadzą nieuchronnie do awarii urządzenia (częstokroć nie ma dobrego teoretycznego opisu, czego maszyna tak naprawdę się uczy). Pozwala to nie tylko uelastycznić harmonogram prac konserwacyjnych, ale również ograniczyć liczbę przestojów produkcji. Prawdziwa eksplozja zastosowań tego typu technik w obszarze Internetu Rzeczy (IoT — Internet of Things) stanowi wręcz modelową realizację pojęcia Przemysłu 4.0.

Świetlana przyszłość?

Znaczenie zaawansowanych narzędzi eksploracji danych trudno dziś przecenić. Zapewniają one usprawnienie procesów produkcyjnych, optymalizację zużycia zasobów, dostarczają wiedzę o korelacjach między zdarzeniami i źródłach awarii — wiedzę, której próżno byłoby szukać poprzez naoczną obserwację i analizę. Umiejętność drążenia danych i wyciągania z nich wniosków stanowi również fundament przełomów — tych obecnych i przyszłych — których jesteśmy i niewątpliwie będziemy świadkami w niedalekiej przyszłości. Autonomiczne pojazdy, zastosowanie dronów, telemedycyna — to tylko przykłady tego typu rewolucji. Uczenie maszynowe wkracza też śmiało w obszar nauk przyrodniczych, takich jak astrofizyka, co świadczy przede wszystkim o jego uniwersalności.

Obraz byłby z pewnością niekompletny, gdybyśmy do tej beczki miodu nie dodali choćby łyżki dziegciu. Apetyt na dane będzie mieć teoretycznie każda władza, tym większy, im bardziej będzie ona zbiurokratyzowana. W 2015 roku naukowcy z Cambridge University wykazali, jak analiza zachowań na profilu społecznościowym przybliża profil psychologiczny badanej osoby. Okazało się, że wiedza o 10, 70, 150 i 300 polubieniach dostarcza nam obraz  dokładniejszy niż posiadają odpowiednio: współpracownik, kolega, rodzeństwo, małżonek – tej osoby. Co powstrzyma rząd przed wykorzystaniem tego typu informacji np. do represjonowania niewygodnej opozycji? Wszystko to stawia pod dużym znakiem zapytania ochronę prywatności jednostki i bez wątpienia doprowadzi do przedefiniowania pojęcia „dane osobowe”.

Tekst wypada zakończyć parafrazą znanego cytatu: „Kto ma dane i umie je interpretować, ten ma władzę absolutną”.

1 Gwiazda2 Gwiazdki3 Gwiazdki4 Gwiazdki5 Gwiazdek (oddanych głosów: 6 średnia: 4,83 z 5)
Loading...


Zobacz również