Robots.txt
Robots.txt to plik, dzięki któremu możemy komunikować się z robotami wyszukiwarki, które indeksują naszą stronę. Korzystając z niego, informujemy boty, co powinny, a czego nie powinny indeksować w naszej witrynie. Nie jest obowiązkowe, aby każda strona posiadała ten plik, lecz rekomenduje się jego stworzenie. Jeśli jednak plik ten istnieje, to powinien składać się z komend zgodnych ze standardem Robots Exclusion Protocol.
Więcej na temat tego, jak poprawnie dodać stronę do indeksu Google znajdziesz w naszym wpisie blogowym Indeksowanie strony w Google.
Robots.txt – jak z niego korzystać?
Roboty wyszukiwarek internetowych, np. Google, działają na takiej zasadzie, że po wejściu na stronę najpierw sprawdzają plik robots.txt. Na tej podstawie wiedzą, czy webmaster chce, żeby zasoby serwisu zostały zaindeksowane. W pliku tym można wskazać wybrane pliki czy foldery, których właściciel strony nie chce zaindeksować. W przypadku witryn, które znajdują się na etapie projektowania, często blokuje się całkowicie indeksację strony do momentu, aż będzie ona zrealizowana w całości.
Następnie robot wyszukiwarki indeksuje dane zasoby i zgodnie ze swoim algorytmem umieszcza je w wynikach wyszukiwania na danej pozycji. Plik robots.txt informuje robota, jakie są oczekiwania webmastera, ale nie oznacza to, że bot musi działać tak, jak chce tego właściciel strony. Roboty wszystkich popularnych wyszukiwarek pracują zgodnie ze znalezionymi komendami – są jednak i takie, które mogą je zignorować. Dlatego, jeśli webmaster chce ukryć przed wszystkimi odbiorcami daną treść, to powinien zastosować dodatkowe zabezpieczenie w postaci np. hasła założonego na dany katalog.
Jak stworzyć plik robots.txt?
Wiele popularnych systemów CMS automatycznie tworzy plik robots.txt w czasie instalacji strony. Zadaniem webmastera jest ewentualnie dodanie komend, o ile istnieje taka potrzeba. Często popularne systemy CMS, choćby WordPress, od razu dodają takie komendy, żeby dane zasoby serwisu nie były indeksowane ze względu na bezpieczeństwo witryny. Plik ten możemy edytować ręcznie – na serwerze albo na dysku komputera, a wystarczy, jak w przypadku każdego pliku txt, notatnik.
Podejmij współpracę z profesjonalną agencją
Komendy w pliku robots.txt
W pliku robots.txt można umieścić wiele różnych komend, ale należy zachować ostrożność, edytując go, gdyż efektem nieodpowiedniego postępowania może być wyindeksowanie zasobów serwisu. Tak może zareagować np. Googlebot. Łatwo można spowodować, że dany adres zniknie z Google – może to być tylko jeden URL, ale równie dobrze cała witryna. Oto przykładowe komendy, które są najczęściej wykorzystywane w pliku robots.txt:
1. Jeśli w robots.txt znajduje się poniższa komenda, to wówczas strona będzie indeksowana przez robota Google i inne roboty.
User-agent: *
Allow:
- W przypadku poniższej komendy sytuacja będzie odwrotna – jeśli plik robots.txt zawiera taką komendę, to domena, a w zasadzie strona, nie zostanie zaindeksowana. Nie jest to jedyny sposób na to, by zablokować indeksację witryny. Często specjaliści SEO używają do tego dyrektywy: <meta name=”robots” content=”noindex” /> .
User-agent: *
Disallow: /
- Stosując odpowiednią komendę, możemy zablokować również tylko wybrany folder strony.
User-agent: *
Disallow: /admin/
- Można również zablokować konkretny adres URL, tzn. podstronę serwisu. Dzięki temu indeksowanie w tym przypadku nie powinno być możliwe.
User-agent: *
Disallow: /strona/wazne.html
Komend, z których można skorzystać w robots.txt jest wiele, ale należy pamiętać, że zawartość pliku trzeba dokładnie sprawdzić, żeby nie spowodować, że nasze strony nie będą widoczne w wynikach wyszukiwania. Dzięki odpowiedniemu korzystaniu z tego pliku możemy również oszczędzać crawl budget, tzn. robot nie będzie wykorzystywać zasobów na zapoznanie się z treściami, których nie chcemy indeksować.
« Wróć do słownika pojęć SEO/SEM/e-marketing