Analiza i klasyfikacja stron www z wykorzystaniem podlinków i zakładek

Zaimplementowana funkcjonalność przechodzenia przez podlinki w sytuacji, gdy nie ma wystarczającej ilości tekstu na stronie nie zawsze przynosi spodziewane rezultaty.

Funkcjonalność – analiza stron internetowych

Zaimplementowana funkcjonalność przechodzenia przez podlinki w sytuacji, gdy nie ma wystarczającej ilości tekstu na stronie www nie zawsze przynosi spodziewane rezultaty. Strony internetowe są budowane na niezliczoną ilość sposobów, co często powoduje trudności. Mimo, że program jest przygotowany by obsługiwać różne warianty stron i definiować podlinki to nie jest w stanie przewidzieć wszystkich możliwości, w jaki sposób użytkownicy umieszczają zasoby na stronie internetowej. Ponadto witryny www są budowane na różne sposoby. Dlatego wykonano szereg testów, które pozwalają zobrazować, że dla jednej strony internetowej przechodzenie przez linki czy zakładki w celu zebrania większej ilości słów może być pomocne.

Strona: https://silyzbrojne.pl

Spodziewana kategoria: Polityka, Prawo i Instytucje rządowe

Tematyka: Siły zbrojne

Potrzebujesz takiego systemu?

Zostaw kontakt i zamów bezpłatną konsultację z naszym doradcą.

Tabela przedstawiająca wyniki dla strony głównej, oraz po przejściu przez zakładki (polepszenie)

Algorytm już na stronie głównej poprawnie sklasyfikował stronę (wyjątkiem był algorytm Bayesian, tam spodziewana kategoria została zwrócona na drugim miejscu). Dzięki przejściu przez podlinki, algorytmy zwiększyły pewność, co do zwróconej pierwszej kategorii

Algorytm Ridge:

  • Przed przejściem: Polityka, Prawo i Instytucje Rządowe: 100%
  • Przed przejściem: Media, Wiadomości i Pogoda: 96,39%
  • Po przejściu: Polityka, Prawo i Instytucje Rządowe: 100%
  • Po przejściu: Media, Wiadomości i Pogoda: 77,17%
Działanie machine learningu

Wykres wygenerowany bez przechodzenia przez podlinki

Wykres wygenerowany po przejściu przez podlinki (polepszenie wyników na twojej stronie internetowej)

Funkcjonalność analizy podlinków

Niestety, przechodzenie przez zakładki powoduje też często pogorszenie wyników. Przykładem może tu być link prowadzący do regulaminu serwisu lub klauzul. Z wielkim prawdopodobieństwem zostanie zwrócona wtedy zła kategoria i nie stanie się to z winy algorytmów, gdyż te bazują jedynie na danych wejściowych w formie tekstowej.

Przykład strony: FColumbus

Strona firmy: https://fcolumbus.pl/

Spodziewana kategoria: Ludzie i Media Społecznościowe

Tematyka: Rozwój osobisty

Tabela przedstawiająca wyniki dla strony głównej, oraz po przejściu przez zakładki (pogorszenie)

Funkcjonalność analizy podlinków

Mimo, że wystąpiło zebranie większej ilości słów, algorytmy odnotowały pogorszenie swojego działania. Jest to podyktowane sytuacją związaną z faktem, że analizowana strona internetowa zawiera wiele zakładek. Mogą one jedynie rozregulować działanie algorytmów poprzez wczytywanie słów z różnych kategorii. Są to między innymi zakładki: Sponsorzy, Statut Fundacji, Kontakt.

Wykres wygenerowany bez przechodzenia przez podlinki

Funkcjonalność analizy podlinków

Algorytm Ridge:

  • Przed przejściem: Finanse, Bankowość i Ubezpieczenia: 100% (błędna)
  • Przed przejściem: Ludzie i Media Społecznościowe: 89,44% (spodziewana)
  • Po przejściu: Kariera, Edukacja i Religia: 100% (błędna)
  • Po przejściu: Ludzie i Media Społecznościowe: wypadło z pierwszej trójki zwracanych kategorii

Czerwonym regionem zaznaczono kategorie spodziewaną, która powinna osiągnąć 100%

Wykres wygenerowany po przejściu przez podlinki (pogorszenie wyników)

Można uchronić się przed taką sytuacją definiując nazwy potencjalnych zakładek, których program nie powinien odwiedzać. Przykładowo: Regulamin, Klauzula, Kontakt. Nie jest możliwe całkowite uniknięcie tego problemu, gdyż strony internetowe są budowane w nieszablonowy sposób, a różne elementy na nich umieszczone mogą wymykać się z pewnych, ściśle zdefiniowanych ram.

Poniżej przedstawiono wizualizacje dla strony https://fcolumbus.pl/, która ukazuje jak trudna dla algorytmów klasyfikacji jest praca na niejednolitym zestawie danych wejściowych z pominięciem przechodzenia przez podlinki.

Może Cię zainteresować

2023-12-11T16:09:09+01:00