eAuditor v7 WEB - Wykorzystanie AI w klasyfikowaniu stron WWW

Wykorzystywanie sztucznej inteligencji to perspektywa praktycznych zastosowań w firmach. Już od jakiegoś czasu można zaobserwować wysyp narzędzi, czy aplikacji, które wykorzystują mechanizmy uczenia maszynowego.

Wiele firm ma problem z określeniem czego dokładnie potrzebuje, oraz co może osiągnąć inwestując w technologię AI (Artificial Intelligence) i uczenie maszynowe. Najczęstszą barierą jest brak wiedzy i często też, doświadczenia, w jaki sposób efektywnie wdrożyć narzędzia wykorzystujące sztuczną inteligencję. Kolejną barierą jest brak przekonania o zasobach danych, które gromadzone są w firmie.

Zastosowanie Machine learningu w naszym systemie

Machine learning (uczenie maszynowe) w systemie eAuditor V7 WEB dokonuje analizy treści stron WWW oraz przypisuje odpowiednią kategorię.

Klasyfikacja stron internetowych może być przydatna w każdym podmiocie, gdzie nadzór i kontrola aktywności użytkowników może mieć realny wpływ na bezpieczeństwo.

Zaimplementowanie algorytmu uczenia maszynowego pozwala na sprawne i szybkie klasyfikowanie każdej strony internetowej pod kątem jej zawartości, dzięki czemu może być ona przypisania do odpowiedniej kategorii. Moduł klasyfikacji stron WWW w systemie eAuditor V7 WEB przygotowany jest na występowanie różnych zdarzeń losowych w taki sposób, aby mimo błędu po stronie serwera lub wygaśnięcia strony internetowej nie przerywał działania i poprawnie wykonywał swoje zadanie, przypisując strony do odpowiednich kategorii.

Działanie klasyfikatora bayesowskiego

Klasyfikator bayesowski, który bazuje na twierdzeniu Bayesa, nadaje się w szczególności do rozwiązywania problemów o wielu wymiarach na wejściu. Mimo prostoty metody, często działa ona lepiej od innych, bardziej skomplikowanych metod klasyfikujących. Wspomniany klasyfikator można uczyć w trybie – uczenia z nadzorem. Oznacza to, że do poprawnego i jeszcze lepszego działania algorytmu konieczny jest nadzór człowieka, który na bieżąco analizuje i poprawia ewentualne błędy algorytmu. Klasyfikacja jest tak długo poprawna, jak długo poprawna kategoria jest bardziej prawdopodobna od innych.

Warto pamiętać!

W praktyce zdarza się, że algorytm może wskazać inną kategorię, niż się tego spodziewamy. Dzieje się to zwłaszcza na stronach informacyjnych, które składają się z wielu artykułów o wielu tematykach i branżach. Wtedy algorytm może wskazać chybioną kategorię.

Poprawność i czas klasyfikacji stron internetowych

W ramach testu machine learningu w eAuditor V7 WEB skategoryzowano 1000 losowych i mało popularnych stron internetowych. Obecnie jest to już liczba bliska 5 milionom! Poprawność przypisania kategorii dla tych stron wynosi > 95%. Problem z osiąganiem lepszych rezultatów nie stoi po stronie algorytmu, gdyż ten stwierdza największe prawdopodobieństwo wystąpienia danej kategorii. Problematyczny okazuje się fakt, że jedna strona internetowa może zawierać się w kilku kategoriach na raz i każda z kategorii może być poprawna.

Przykład:
Strona www.onet.pl może być skategoryzowany zarówno jako wiadomości i media, jak również jako rozrywka czy prawo i polityka.

Jak działa machine learning w systemie eAuditor V7 WEB?

Dlaczego wprowadziliśmy machine learning do systemu eAuditor V7 WEB?

  • baza danych stron www z przypisanymi kategoriami jest ogromna oraz zajmuje mnóstwo miejsca (pow. 1 TB). Ilość stron www to nie kilka tysięcy czy nawet milionów. Obecnie jest to ilość trudna do oszacowania,
  • zastosowanie gotowej bazy danych nie obejmuje nawet 75% stron przeglądanych przez naszych klientów – jest to fizycznie niemożliwe,
  • strony www mogą zmieniać swoją kategorię szybciej niż gotowe bazy danych kategorii stron,
  • bazy danych wymagają stałej aktualizacji, co jest kosztowne oraz pochłania mnóstwo czasu,
  • machine learning kategoryzuje strony www indywidualnie pod potrzeby każdego użytkownika.

Korzyści z machine learningu dla użytkowników systemu eAuditor:

  • automatyczne przypisanie kategorii do każdej odwiedzanej strony www,
  • wysoka skuteczność klasyfikacji,
  • autodostosowanie do każdego użytkownika systemu eAuditor,
  • brak bazy danych kategorii stron www i konieczności jej aktualizacji,
  • automatyczna reklasyfikacja w przypadku modyfikacji algorytmu lub modyfikacji strony www,
  • niezależność od zewnętrznych dostawców takiej bazy,
  • redukcja kosztów eksploatacji systemu,
  • możliwość integracji z systemem Hyprovision DLP pod kątem blokowania wybranych typów stron.

Jeśli masz pytania – skontaktuj się z nami!

Więcej informacji