Dziś będzie o kolejnym (po .htaccess) istotnym przydatnym pliku, który powinien (a na pewno nie zaszkodzi) znaleźć się w głównym katalogu naszej strony, na serwerze…

Plik robots.txt, czyli Robots Exclusion Protocol

Plik robots.txt jest częścią protokołu „Robots Exclusion Protocol”, i jest to rodzaj informacji – drogowskazu – dla „robotów internetowych/indeksujących”, by np. jakiegoś elementu naszej strony nie indeksowały.

Przy czym – w przeciwieństwie do wcześniej przywołanego pliku .htaccess nie jest elementem konfiguracji serwera, a tym samym nie ma „mocy sprawczej” – bardziej jest to „prośba”, którą „dobrze wychowane roboty internetowe/indeksujące” zazwyczaj spełniają…

Podstawowa konfiguracja robots.txt

Podstawowa konfiguracja (zawartość) pliku wygląda np. tak:

User-Agent: *
Allow: /

Ew. wersja alternatywna:

User-Agent: *
Disallow:

Oznacza to, że każdy robot (*) może zaindeksować całą stronę (Allow: /) lub – w przypadku wersji alternatywnej – nie może indeksować tylko „niczego” (Disallow:).

W sumie, to w tym wariancie sytuacja jest podobna do sytuacji gdybyśmy takiego pliku nie mieli…

Strona w wersji deweloperskiej/rozwojowej

Choć uważam, że stronę w wersji deweloperskiej – czyli takiej nad którą trwają prace – warto zablokować za pomocą pliku .htaccess, to czasem może zajść potrzeba zablokowania do niej dostępu tylko robotom indeksującym:

User-Agent: *
Disallow: /

Ew. gdy pracujemy nad jakimś działem, a reszta już jest OK:

User-agent: *
Disallow: /wersja_testowa01/
Disallow: /wersja_testowa02/
Disallow: /jakiś_katalog/strona_prywatna.html

Nie dla robota grafika

Możemy też zablokować indeksowanie konkretnych typów plików, np. grafiki:

User-agent: *
Disallow: /*.png$
Disallow: /*.jpg$
Disallow: /*.gif$

Robot robotowi nie równy

Do tej pory zwracaliśmy się „z prośbą” do wszystkich robotów (User-agent: *), ale możemy nasze „prośby” kierować indywidualnie do każdego robota.

Katalog poza Google, czyli „blokujemy” robota Google:

User-agent: GoogleBot
Disallow: /katalog/

I wariant łączony, czyli nasza grafika poza Google Grafika:

User-agent: googlebot-image
Disallow: /*.png$
Disallow: /*.jpg$
Disallow: /*.gif$

Mapa strony

W pliku robots.txt możemy również wskazać położenie tzw. „mapy strony”, która jest pewnego rodzaju mapą dla robotów indeksujących dzięki której mogą sprawniej poruszać się po naszej stronie.

Standardowo jest to plik sitemap.xml znajdujący się w głównym katalogu serwera/strony/domeny, ale możemy skierować robota do innego pliku:

Sitemap: http://adres_nasze_strony.pl/alternatywna_mapa_strony.xml

Z podstaw to chyba na razie tyle… ;-)

Zgłoś błąd na stronie

Potrzebujesz profesjonalnej pomocy? Skontaktuj się z nami!

WebInsider poleca księgowość wFirma
WebInsider korzysta z VPSa w HitMe.pl
WebInsider poleca VPSy DigitalOcean
WebInsider poleca serwis Vindicat
Napisz komentarz
wipl_napisz-komentarz_01Jeśli informacje zawarte na tej stronie okazały się pomocne, możesz nam podziękować zostawiając poniżej swój komentarz.

W tej formie możesz również zadać dodatkowe pytania dotyczące wpisu, na które - w miarę możliwości - spróbujemy Ci odpowiedzieć.
Linki partnerskie
Niektóre z linków na tej stronie to tzw. "linki partnerskie", co oznacza, że jeśli klikniesz na link i dokonasz wymaganej akcji (np. zakup/rejestracja) możemy otrzymać za to prowizję. Pamiętaj, że polecamy tylko te produkty i usługi, z których sami korzystamy, i uważamy, że są tego na prawdę warte... :-)
Znaki towarowe i nazwy marek
W niektórych wpisach (oraz innych miejscach na stronie) mogą być przedstawione/użyte znaki towarowe i/lub nazwy marek, które stanowią własność intelektualną tych podmiotów, a zostały użyte wyłącznie w celach informacyjnych.

Potrzebujesz profesjonalnej pomocy? Skontaktuj się z nami!