eAuditor V7 WEB
DATASHEET

Klasyfikowanie stron internetowych z wykorzystaniem
Machine Learning

Machine learning w systemie eAuditor V7 WEB dokonuje analizy treści stron www oraz przypisuje odpowiednią kategorię.

Web Classification w eAuditor V7 WEB!
Wypróbuj już teraz klasyfikator stron internetowych.

Klasyfikator stron internetowych online

Machine learning w klasyfikacji stron internetowych w systemie eAuditor V7 WEB

Klasyfikacja stron internetowych może być przydatna w każdym podmiocie, gdzie nadzór i kontrola aktywności użytkowników może mieć realny wpływ na bezpieczeństwo. Zaimplementowanie algorytmu uczenia maszynowego pozwala na sprawne i szybkie klasyfikowanie każdej strony internetowej pod kątem jej zawartości i przypisania (sklasyfikowania) do odpowiedniej kategorii. Moduł klasyfikacji stron www w systemie eAuditor V7 WEB przygotowany jest na występowanie różnych zdarzeń losowych w taki sposób, aby mimo błędu po stronie serwera lub wygaśnięcia strony internetowej nie przerywał działania i poprawnie wykonywał swoje zadanie, przypisując strony www do odpowiednich kategorii.

Klasyfikator stron internetowych w systemie eAuditor V7 WEB

Klasyfikator bayesowski, który bazuje na twierdzeniu Bayesa, nadaje się w szczególności do rozwiązywania problemów o bardzo wielu wymiarach na wejściu. Mimo prostoty metody, często działa ona lepiej od innych, bardzo skomplikowanych metod klasyfikujących. Wspomniany klasyfikator można uczyć w trybie uczenia z nadzorem. Oznacza to, że do poprawnego i jeszcze lepszego działania algorytmu konieczny jest nadzór człowieka, który na bieżąco będzie analizował i poprawiał ewentualne błędy algorytmu. Klasyfikacja jest tak długo poprawna, jak długo poprawna kategoria jest bardziej prawdopodobna od innych.

W praktyce zdarza się, że algorytm wskaże inną kategorię, niż się tego spodziewamy. Dzieje się to zwłaszcza na stronach informacyjnych, które składają się z wielu artykułów o wielu tematykach i branżach. Wtedy algorytm może wskazać chybioną kategorię.

Czas klasyfikacji strony internetowej w systemie eAuditor V7 WEB

Klasyfikacja pojedynczego URL trwa od 1 do 2 sekund. W praktyce osiąga się wysoką wydajność z uwagi na wielowątkową obsługę procesów klasyfikacji (jednoczesne klasyfikowanie kilkudziesięciu lub kilkuset stron).

Poprawność klasyfikacji stron internetowych w systemie eAuditor V7 WEB

W ramach testu machine learningu w eAuditor V7 WEB skategoryzowano 1000 losowych i mało popularnych stron internetowych. Poprawność przypisania kategorii dla tych stron wynosi około 90%. Problem z osiągnięciem lepszych rezultatów nie stoi po stronie algorytmu, gdyż ten stwierdza największe prawdopodobieństwo wystąpienia danej kategorii. Problematyczny jest fakt, że jedna strona internetowa może zawierać się w kilku kategoriach na raz i każda z kategorii może być poprawna.

Przykładowo www.onet.pl może być skategoryzowany zarówno jako wiadomości i media, jak również jako rozrywka czy prawo i polityka.