Kontynuujemy cykl naszych wywiadów z prelegentami semKRK#21 BIG. Tym razem naszym (a właściwie Waszym) rozmówcą, który odpowie na pytania zadane przez sli.do jest: Mateusz Kostrzewa – SEO Team Leader w Allegro. Prelegent na naszej scenie poruszył trudny temat związany z semantyką. Jeśli pamiętacie to wystąpienie i chcecie dowiedzieć się więcej, to zapraszamy do lektury!
Powspominaj z nami semKRK#21 BIG!
Zobacz fotorelację z ostatniej edycji
Czy dwa teksty, które są zupełnie inne mogą być uznane za matematycznie podobne?
- Mateusz Kostrzewa
Teoretycznie tak, zwłaszcza jeśli teksty są krótkie. Jest to zależne również od sposobu enkodowania, jaki został wykorzystany albo tego, czy wykluczymy często powtarzające się w danym języku słowa. Kluczem jest wybranie takiego algorytmu/modelu, który dla danego zadania będzie najbardziej optymalny i minimalizuje szansę na tego typu zdarzenia.
Czy podobne rezultaty nie otrzymamy przy porównywaniu entities przez NLP? Czy jest to to samo?
- Mateusz Kostrzewa
Wg mojej wiedzy to jest dokładnie to samo. W tym przypadku entities możemy rozumieć jako słowa w dokumencie i ich ważność względem innych enitites (w modelu TF-IDF).
Jak jeszcze można wykorzystać enkodowanie w SEO/marketingu?
- Mateusz Kostrzewa
Enkodowanie tekstu może być wykorzystywane we wszystkich zadaniach uwzględniających działanie na jakimkolwiek zbiorze znaków. Może to być szukanie podobieństw, tworzenie automatycznych systemów linkowania semantycznego, tworzenia chmury tagów, podsumowywania tekstu, rozumienia znaczenia/kontekstu tekstu, analizy sentymentu, a nawet tworzeniu własnych modeli generatywnych.
Jak można zapobiegać kanibalizacji treści?
- Mateusz Kostrzewa
Przede wszystkim należy tak zaprojektować strukturę serwisu, by naturalnie nie tworzyła dużej ilości treści o tym samym kontekście. Automatyczne indeksowanie wyników wyszukiwania jest jednym z przykładów stron mających tendencje do duplikacji. Warto również rozważyć przykłady stosowania adresów kanonicznych do wersji stron z jednym rozmiarem liter (np. adres kanonicznyl wskazujący adres z jedynie małymi literami).
To canonicale jeszcze są czy nie są okej?
- Mateusz Kostrzewa
Kanonicale zawsze były ok i nadal są, nawet jeśli Google sam jest w stanie niektóre z nich wykrywać. Precyzyjnie wskazane adresy kanoniczne potrafią nie tylko zmniejszyć duplikację, ale także podnieść ranking strony kanonicznej. Zwłaszcza w dużych serwisach.
Co z klasteryzacja słów kanapy i sofy? Czy Google przypadkiem ich nie rozdziela bo widzi że SEOwcy stosują to w dwóch kontekstach?
- Mateusz Kostrzewa
Oczywiście można zastosować 2 różne strony rankujące dla tych dwóch słów. Często jednak jedna strona rankująca na wiele fraz kluczowych jest silniejsza, niż wiele stron rankujących na pojedyncze. Z doświadczenia wiem, że Google wręcz zachęca do takich praktyk i łączy te konteksty.
Czy udało Ci się ustalić drugi czynnik rankujacy dla adresów z podobieństwem <0.35?
- Mateusz Kostrzewa
Adresy z podobieństwem mniejszym, niż 0.35 mają po prostu małą szansę na akceptację adresu kanonicznego.
To znaczy, że w sumie można mieć podobne treści na stronie, byle nie przekraczały o.35 i wtedy google się nie zorientuje i przepuści każdą podstronę?
- Mateusz Kostrzewa
W pewnym sensie tak, ale wtedy te treści nadal mogą rankować na te same frazy kluczowe, a Google a) ma mniejsze szanse automatycznie wykryć stronę kanoniczną b) może nie zaakceptować adresu kanonicznego ustawionego przez nas. Oczywiście możemy próbować stosować tę taktykę, gdzie mamy po 2 różniące się strony na te same frazy, by prezentować podwójne wyniki wyszukiwań w Google.
Czy na pewno duplikacje treści są złe jeżeli listing produktów może odpowiadać np. dla dwóch różnych intencji? Czy trzeba to kanonizować?
- Mateusz Kostrzewa
W tym przypadku należy przeanalizować plusy i minusy deduplikacji. W naszym przypadku, przy często więcej, niż 2 stronach docelowych rankujących na te same frazy, uznaliśmy, że użycie kanonikali jest wskazane. W przypadku duplikacji treści pomiędzy artykułem i stroną produktową, nie zalecałbym tej praktyki.
Jak poprawiałeś wskaźnik podobieństwa na podstronach, gdzie wskaźnik podobieństwa był za duży na akceptację przez algorytm?
- Mateusz Kostrzewa
Potencjalne rozwiązania, to dodanie treści opisowych (teksty SEO) oraz rozmowa z zespołami zajmującymi się wyświetlaniem treści na listingach, by wyświetlały bardziej podobne oferty. Nie skupiałem się jednak na tym ze względu na ilość listingów z wysokim podobieństwem.
0,35 - czy mozesz rozwinac dokladnie co oznacza ten wynik?
- Mateusz Kostrzewa
Jest to wynik działania liczącego podobieństwo kosinusowe na wektorach stworzonych za pomocą algorytmu TF-IDF. W tym przypadku mieści się w przedziale pomiędzy 0-1. Wzór na TF-IDF to: [liczba_wystąpień_frazy / suma(liczba_wystąpień_wszystkich_fraz_w_dokumencie)] * (liczba_dokumentów_w_korpusie / liczba_dokumentów_zawierających_przynajmniej_jedno_wystąpienie_frazy) Wzór na podobieństwo kosinusowe: [A*B (iloczyn skalarny między wektorami/macierzami)] / [||A||*||B||(iloczyn norm wektorów, czyli sumy kwadratów jego współrzędnych)]
Jakie zastosowania podobieństwa kosinusowego można znaleźć poza analizą tekstu?
- Mateusz Kostrzewa
Przykładowe użycie: - analiza obrazów przy reprezentacji wektorowej - w systemach rekomendacyjnych np. Spotify, YouTube - wyszukiwanie w bazach danych reprezentowanych wektorowo - analiza muzyczna na podstawie wektorów - klasyfikacja obiektów na podstawie wektorów - analiza danych w badaniach np. społecznych - i inne wszelkie możliwe porównywania pomiędzy wektorami.
Czy myślałeś o klastrowaniu wyników by zmniejszyć ilość porównań?
- Mateusz Kostrzewa
Tak, klastrowanie wyników na podstawie tych enkodowań byłoby dobrym pomysłem.
Jak stwierdzileś, które z par adresów będą kanoniczne, a które duplikacja?
- Mateusz Kostrzewa
W przypadku stron rankujących było to proste i wyznaczałem adres, który miał lepsze statysyki. W przypadku stron, które nie rankują, nie miało to dużego znaczenia.
Mateuszowi bardzo dziękujemy za odpowiedzi na pytania i mamy nadzieje, że jesteście nimi usatysfakcjonowani!
Sprawdź wywiad z Sebastianem Heymannem
Dowiedz się, jak unikać najpowszechniejszych błędów w SEO