Dziś będzie o kolejnym (po .htaccess) istotnym przydatnym pliku, który powinien (a na pewno nie zaszkodzi) znaleźć się w głównym katalogu naszej strony, na serwerze…
Plik robots.txt, czyli Robots Exclusion Protocol
Plik robots.txt jest częścią protokołu „Robots Exclusion Protocol”, i jest to rodzaj informacji – drogowskazu – dla „robotów internetowych/indeksujących”, by np. jakiegoś elementu naszej strony nie indeksowały.
Przy czym – w przeciwieństwie do wcześniej przywołanego pliku .htaccess nie jest elementem konfiguracji serwera, a tym samym nie ma „mocy sprawczej” – bardziej jest to „prośba”, którą „dobrze wychowane roboty internetowe/indeksujące” zazwyczaj spełniają…
Podstawowa konfiguracja robots.txt
Podstawowa konfiguracja (zawartość) pliku wygląda np. tak:
User-Agent: *
Allow: /
Ew. wersja alternatywna:
User-Agent: *
Disallow:
Oznacza to, że każdy robot (*) może zaindeksować całą stronę (Allow: /) lub – w przypadku wersji alternatywnej – nie może indeksować tylko „niczego” (Disallow:).
W sumie, to w tym wariancie sytuacja jest podobna do sytuacji gdybyśmy takiego pliku nie mieli…
Strona w wersji deweloperskiej/rozwojowej
Choć uważam, że stronę w wersji deweloperskiej – czyli takiej nad którą trwają prace – warto zablokować za pomocą pliku .htaccess, to czasem może zajść potrzeba zablokowania do niej dostępu tylko robotom indeksującym:
User-Agent: *
Disallow: /
Ew. gdy pracujemy nad jakimś działem, a reszta już jest OK:
User-agent: *
Disallow: /wersja_testowa01/
Disallow: /wersja_testowa02/
Disallow: /jakiś_katalog/strona_prywatna.html
Nie dla robota grafika
Możemy też zablokować indeksowanie konkretnych typów plików, np. grafiki:
User-agent: *
Disallow: /*.png$
Disallow: /*.jpg$
Disallow: /*.gif$
Robot robotowi nie równy
Do tej pory zwracaliśmy się „z prośbą” do wszystkich robotów (User-agent: *), ale możemy nasze „prośby” kierować indywidualnie do każdego robota.
Katalog poza Google, czyli „blokujemy” robota Google:
User-agent: GoogleBot
Disallow: /katalog/
I wariant łączony, czyli nasza grafika poza Google Grafika:
User-agent: googlebot-image
Disallow: /*.png$
Disallow: /*.jpg$
Disallow: /*.gif$
Mapa strony
W pliku robots.txt możemy również wskazać położenie tzw. „mapy strony”, która jest pewnego rodzaju mapą dla robotów indeksujących dzięki której mogą sprawniej poruszać się po naszej stronie.
Standardowo jest to plik sitemap.xml znajdujący się w głównym katalogu serwera/strony/domeny, ale możemy skierować robota do innego pliku:
Sitemap: http://adres_nasze_strony.pl/alternatywna_mapa_strony.xml
Z podstaw to chyba na razie tyle… ;-)

Zapraszam do naszego Newslettera - ZERO SPAMu, same konkrety, oraz dostęp do dodatkowych materiałów przeznaczonych dla subskrybentów!
- We wtyczce MailPoet (newsletter w WordPressie) pojawiła się opcja wysyłki także pozostałych wiadomości e-mail „ze strony” - 1970-01-01
- Prosty sposób na skasowanie przycisku „zamów ponownie” w szczegółach zamówienia w WooCommerce - 1970-01-01
- Obejrzyj filmy dokumentujące firmy należące do czarnych, czyli – w moim odczuciu – rasizm i dyskryminacja w/od Vimeo - 1970-01-01