eAuditor v7 WEB - Analiza i klasyfikacja stron internetowych z wykorzystaniem podlinków i zakładek

Zaimplementowana funkcjonalność przechodzenia przez podlinki w sytuacji, gdy nie ma wystarczającej ilości tekstu na stronie nie zawsze przynosi spodziewane rezultaty. Strony internetowe są budowane na niezliczoną ilość sposobów, co często powoduje niespodziewane kłopoty. Mimo, że program jest przygotowany by obsługiwać różne warianty stron, definiowania podlinków to nie jest w stanie przewidzieć wszystkich możliwości, w jaki sposób użytkownicy umieszczają zasoby na stronie internetowej. Wykonano szereg testów, które pozwalają zobrazować, że dla jednej strony internetowej przechodzenie przez linki czy zakładki w celu zebrania większej ilości słów może być pomocne.

Strona: https://silyzbrojne.plportal.pl
Spodziewana kategoria: Polityka, Prawo i Instytucje rządowe
tematyka: Siły zbrojne

eAuditor v7 WEB - Analiza i klasyfikacja stron internetowych z wykorzystaniem podlinków i zakładek
Tabela przedstawiająca wyniki dla strony głównej, oraz po przejściu przez zakładki (polepszenie)

Algorytm już na stronie głównej poprawnie sklasyfikował stronę (wyjątkiem był algorytm Bayesian, tam spodziewana kategoria została zwrócona na drugim miejscu). Dzięki przejściu przez podlinki algorytmy zwiększyły pewność, co do zwróconej pierwszej kategorii

Algorytm Ridge:

  • Przed przejściem: Polityka, Prawo i Instytucje Rządowe: 100%
  • Przed przejściem: Media, Wiadomości i Pogoda: 96,39%··
  • Po przejściu: Polityka, Prawo i Instytucje Rządowe: 100%
  • Po przejściu: Media, Wiadomości i Pogoda: 77,17%
eAuditor v7 WEB - Analiza i klasyfikacja stron internetowych z wykorzystaniem podlinków i zakładek
Wykres wygenerowany bez przechodzenia przez podlinki
eAuditor v7 WEB - Analiza i klasyfikacja stron internetowych z wykorzystaniem podlinków i zakładek
Wykres wygenerowany po przejściu przez podlinki (polepszenie wyników)

Niestety, przechodzenie przez zakładki powoduje też często pogorszenie wyników, przykładem może tu być link prowadzący do regulaminu serwisu lub klauzul. Z wielkim prawdopodobieństwem zostanie zwrócona wtedy zła kategoria i nie stanie się to z winy algorytmów, gdyż te bazują na takich, a nie innych danych wejściowych w formie tekstowej.

Strona: https://fcolumbus.pl/
Spodziewana kategoria: Ludzie i Media Społecznościowe
tematyka: Rozwój osobisty

eAuditor v7 WEB - Analiza i klasyfikacja stron internetowych z wykorzystaniem podlinków i zakładek
Tabela przedstawiająca wyniki dla strony głównej, oraz po przejściu przez zakładki (pogorszenie)

Mimo, że wystąpiło zebranie większej ilości słów, algorytmy odnotowały pogorszenie swojego działania. Jest to podyktowane sytuacją, że analizowana strona internetowa zawiera wiele zakładek, które mogą jedynie rozregulować działanie algorytmów poprzez wczytywanie słów z różnych kategorii. Są to między innymi zakładki: Sponsorzy, Statut Fundacji, Kontakt.

Algorytm Ridge:

  • Przed przejściem: Finanse, Bankowość i Ubezpieczenia: 100% (błędna)
  • Przed przejściem: Ludzie i Media Społecznościowe: 89,44% (spodziewana)
  • Po przejściu: Kariera, Edukacja i Religia: 100% (błędna)
  • Po przejściu: Ludzie i Media Społecznościowe: wypadło z pierwszej trójki zwracanych kategorii

Czerwonym regionem zaznaczono kategorie spodziewaną, która powinna osiągnąć 100%

eAuditor v7 WEB - Analiza i klasyfikacja stron internetowych z wykorzystaniem podlinków i zakładek
Wykres wygenerowany bez przechodzenia przez podlinki
eAuditor v7 WEB - Analiza i klasyfikacja stron internetowych z wykorzystaniem podlinków i zakładek
Wykres wygenerowany po przejściu przez podlinki (pogorszenie wyników)

Można uchronić się przed taką sytuacją definiując nazwy potencjalnych zakładek, których program nie powinien odwiedzać, przykładowo: Regulamin, Klauzula, Kontakt. Nie jest możliwe całkowite uniknięcie tego problemu, gdyż jak zostało wspomniane, strony internetowe są budowane w nieszablonowy sposób, a różne elementy na nich umieszczone mogą wymykać się z pewnych, ściśle zdefiniowanych ram.

Poniżej przedstawiono wizualizacje dla strony https://fcolumbus.pl/, która ukazuje jak trudnym dla algorytmów klasyfikacji jest praca na niejednolitym zestawie danych wejściowych z pominięciem przechodzenia przez podlinki.

eAuditor v7 WEB - Analiza i klasyfikacja stron internetowych z wykorzystaniem podlinków i zakładek
Wizualizacja wyników zwracanych przez algorytmy dla niejednolitych danych wejściowych

Jeśli masz pytania – skontaktuj się z nami!

Więcej informacji