eAuditor V7 WEB

Machine learning – klasyfikowanie stron internetowych

Machine learning w systemie eAuditor V7 WEB umożliwia analizę treści stron www oraz przypisanie im – w oparciu o treść – odpowiednich kategorii oraz kontrolowanie użytkowników pod kątem odwiedzanych stron.

Czym jest uczenie maszynowe (machine learning)?

Nauka interdyscyplinarna ze szczególnym uwzględnieniem takich dziedzin jak informatyka, robotyka i statystyka. Głównym celem jest praktyczne zastosowanie dokonań w dziedzinie sztucznej inteligencji do stworzenia automatycznego systemu potrafiącego doskonalić się przy pomocy zgromadzonego doświadczenia (czyli danych) i nabywania na tej podstawie nowej wiedzy.

Źródło: Wikipedia

Powyższa definicja może nie być zrozumiała dla przeciętnego użytkownika, dlatego postaramy się przełożyć ją na bardziej zrozumiały język. Celem uczenia maszynowego jest znalezienie powiązań i schematów działań w celu analizy danych, na których pracuje dany algorytm.

Przykład

Wrzucimy do jeziora dwie kule – jedną czarną, drugą białą. Jedna będzie wykonana ze stali, druga z ołowiu. Obie mają taką samą wielkość. Jedna spadnie szybciej, druga wolniej. Następnie dodamy kolejne próbki, ale zawsze czarna będzie miała większą gęstość niż biała. Przykładowo:

  • bakelit i węgiel,
  • mosiądz i platyna,
  • tytan i złoto.

Jeśli przyjmiemy, że kule czarne zawsze będą mieć większą gęstość niż kule białe, to algorytm po analizie kilku takich przypadków będzie kierować się kolorem kul, a nie ich gęstością.

Komputer uczy się schematu, zgodnie z którym przedmioty o tych właściwościach będą spadać odpowiednio szybko lub wolno. Niestety, komputer nie wie, która z tych właściwości ma znaczenie.

Klasyfikator stron internetowych online

Machine learning w klasyfikacji stron internetowych w systemie eAuditor V7 WEB

Klasyfikacja stron internetowych może być przydatna w każdym podmiocie, gdzie nadzór i kontrola aktywności użytkowników może mieć realny wpływ na bezpieczeństwo. Zaimplementowanie algorytmu uczenia maszynowego pozwala na sprawne i szybkie klasyfikowanie każdej strony internetowej pod kątem jej zawartości i przypisania (sklasyfikowania) do odpowiedniej kategorii. Moduł klasyfikacji stron www w systemie eAuditor V7 WEB przygotowany jest na występowanie różnych zdarzeń losowych w taki sposób, aby mimo błędu po stronie serwera lub wygaśnięcia strony internetowej nie przerywał działania i poprawnie wykonywał swoje zadanie, przypisując strony www do odpowiednich kategorii.

Klasyfikator stron internetowych w systemie eAuditor V7 WEB

Klasyfikator bayesowski, który bazuje na twierdzeniu Bayesa, nadaje się w szczególności do rozwiązywania problemów o bardzo wielu wymiarach na wejściu. Mimo prostoty metody, często działa ona lepiej od innych, bardzo skomplikowanych metod klasyfikujących. Wspomniany klasyfikator można uczyć w trybie uczenia z nadzorem. Oznacza to, że do poprawnego i jeszcze lepszego działania algorytmu konieczny jest nadzór człowieka, który na bieżąco będzie analizował i poprawiał ewentualne błędy algorytmu. Klasyfikacja jest tak długo poprawna, jak długo poprawna kategoria jest bardziej prawdopodobna od innych.

W praktyce zdarza się, że algorytm wskaże inną kategorię, niż się tego spodziewamy. Dzieje się to zwłaszcza na stronach informacyjnych, które składają się z wielu artykułów o wielu tematykach i branżach. Wtedy algorytm może wskazać chybioną kategorię.

Czas klasyfikacji strony internetowej w systemie eAuditor V7 WEB

Klasyfikacja pojedynczego URL trwa od 1 do 2 sekund. W praktyce osiąga się wysoką wydajność z uwagi na wielowątkową obsługę procesów klasyfikacji (jednoczesne klasyfikowanie kilkudziesięciu lub kilkuset stron).

Poprawność klasyfikacji stron internetowych w systemie eAuditor V7 WEB

W ramach testu machine learningu w eAuditor V7 WEB skategoryzowano 1000 losowych i mało popularnych stron internetowych. Poprawność przypisania kategorii dla tych stron wynosi około 90%. Problem z osiągnięciem lepszych rezultatów nie stoi po stronie algorytmu, gdyż ten stwierdza największe prawdopodobieństwo wystąpienia danej kategorii. Problematyczny jest fakt, że jedna strona internetowa może zawierać się w kilku kategoriach na raz i każda z kategorii może być poprawna.

Przykładowo www.onet.pl może być skategoryzowany zarówno jako wiadomości i media, jak również jako rozrywka czy prawo i polityka.

Klasyfikator stron internetowych online

Jak działa machine learning w klasyfikacji stron www w systemie eAuditor V7 WEB?

Etapy klasyfikacji stron www:

  • pobranie listy adresów, które należy skategoryzować,
  • pobranie zawartości konkretnej strony www (tekst),
  • oczyszczenie pobranej strony ze zbędnych informacji takich jak:
    • powtarzające się słowa,
    • analiza tekstu pod kątem występowania wyrażeń w liczbie mnogiej,
    • analiza tekstu pod kątem słów, które nie mają żadnego znaczenia w kategoryzacji stron www (przykładowo: yes, that, where, when oraz gdy, dokąd, kiedy),
    • oczyszczenie tekstu.

Przykład pobranej strony internetowej przed oczyszczeniem

Przykład pobranej strony internetowej przed oczyszczeniem

Przykład pobranej strony internetowej po oczyszczeniu

Przykład pobranej strony internetowej po oczyszczeniu

Widok przygotowany do analizy i przypisania kategorii eAuditor V7 WEB

Widok przygotowany do analizy i przypisania kategorii eAuditor V7 WEB

Wynik przeprowadzonej klasyfikacji stron dla poszczególnie wybranych witryn

Wynik przeprowadzonej klasyfikacji stron dla poszczególnie wybranych witryn

Dlaczego wprowadziliśmy machine learning do systemu eAuditor V7 WEB?

Oto kilka powodów, dla których zastosowaliśmy w systemie eAuditor V7 WEB machine learning, zamiast bazy danych klasyfikacji stron www:

  • baza danych stron www z przypisanymi kategoriami jest ogromna oraz zajmuje mnóstwo miejsca (pow. 1 TB). Ilość stron www to nie kilka tysięcy czy nawet milionów. Obecnie jest to ilość trudna do oszacowania,
  • zastosowanie gotowej bazy danych nie obejmuje nawet 75% stron przeglądanych przez naszych klientów – jest to fizycznie niemożliwe,
  • strony www mogą zmieniać swoją kategorię szybciej niż gotowe bazy danych kategorii stron,
  • bazy danych wymagają stałej aktualizacji, co jest kosztowne oraz pochłania mnóstwo czasu,
  • machine learning kategoryzuje strony www indywidualnie pod potrzeby każdego użytkownika.

Korzyści z machine learningu dla użytkowników systemu eAuditor:

  • automatyczne przypisanie kategorii do każdej odwiedzanej strony www,
  • wysoka skuteczność klasyfikacji,
  • autodostosowanie do każdego użytkownika systemu eAuditor,
  • brak bazy danych kategorii stron www i konieczności jej aktualizacji,
  • automatyczna reklasyfikacja w przypadku modyfikacji algorytmu lub modyfikacji strony www,
  • niezależność od zewnętrznych dostawców takiej bazy,
  • redukcja kosztów eksploatacji systemu,
  • możliwość integracji z systemem Hyprovision DLP pod kątem blokowania wybranych typów stron.
Klasyfikator stron internetowych online