Dziś będzie o kolejnym (po .htaccess) ~~istotnym~~ przydatnym pliku, który powinien (a na pewno nie zaszkodzi) znaleźć się w głównym katalogu naszej strony, na serwerze, czyli pliku robots.txt, który umożliwia pewnego rodzaju dialog między stroną (nami) a wyszukiwarką (robotami indeksującymi).

Spis treści w artykule

1 Plik robots.txt, czyli Robots Exclusion Protocol
- 1.1 Podstawowa konfiguracja robots.txt
2 Tag noindex

Plik robots.txt, czyli Robots Exclusion Protocol

Plik robots.txt jest częścią protokołu „Robots Exclusion Protocol”, i jest to rodzaj informacji – drogowskazu – dla „robotów internetowych/indeksujących”, by np. jakiegoś elementu naszej strony nie odwiedzały, tym samy też nie indeksowały (ale o tym więcej niżej).

Zobacz również: Sterowanie robotami indeksującymi za pomocą pliku robot.txt na przykładzie sklepu na WooCommerce

Przy czym – w przeciwieństwie do wcześniej przywołanego pliku .htaccess nie jest elementem konfiguracji serwera, a tym samym nie ma „mocy sprawczej” – bardziej jest to „prośba”, którą „dobrze wychowane roboty internetowe/indeksujące” zazwyczaj spełniają…

Podstawowa konfiguracja robots.txt

Podstawowa konfiguracja (zawartość) pliku wygląda np. tak:

User-Agent: *
Allow: /

Ew. wersja alternatywna:

User-Agent: *
Disallow:

Oznacza to, że każdy robot (*) może odwiedzić całą stronę (Allow: /) lub – w przypadku wersji alternatywnej – nie może (nie powinien) odwiedzać wybranych adresów (Disallow:).

Strona w wersji deweloperskiej/rozwojowej

Choć uważam, że stronę w wersji deweloperskiej – czyli takiej, nad którą trwają prace – warto zablokować za pomocą pliku .htaccess, to czasem może zajść potrzeba zablokowania do niej dostępu tylko robotom indeksującym:

User-Agent: *
Disallow: /

Ew. gdy pracujemy nad jakimś działem, a reszta już jest OK:

User-agent: *
Disallow: /wersja_testowa01/
Disallow: /wersja_testowa02/
Disallow: /jakiś_katalog/strona_prywatna.html

Nie dla robota grafika

Możemy też zablokować indeksowanie konkretnych typów plików, np. grafiki:

User-agent: *
Disallow: /*.png$
Disallow: /*.jpg$
Disallow: /*.gif$

Robot robotowi nie równy

Do tej pory zwracaliśmy się „z prośbą” do wszystkich robotów (User-agent: *), ale możemy nasze „prośby” kierować indywidualnie do każdego robota.

Katalog poza Google, czyli „blokujemy” robota Google:

User-agent: GoogleBot
Disallow: /katalog/

I wariant łączony, czyli nasza grafika poza Google Grafika:

User-agent: googlebot-image
Disallow: /*.png$
Disallow: /*.jpg$
Disallow: /*.gif$

Mapa strony

W pliku robots.txt możemy również wskazać położenie tzw. „mapy strony”, która jest pewnego rodzaju mapą dla robotów indeksujących, dzięki której mogą sprawniej poruszać się po naszej stronie.

Standardowo jest to plik sitemap.xml znajdujący się w głównym katalogu serwera/strony/domeny, ale możemy skierować robota do innego pliku:

Sitemap: http://adres_nasze_strony.pl/alternatywna_mapa_strony.xml

Z czego zresztą często korzystają np. wtyczki od SEO.

Tag noindex

Na koniec warto napisać, że „blokada” w robots.txt to nie tylko prośba, ale też jest tylko informacją dla robota indeksującego, by danego adresu nie odwiedzać. Natomiast jeśli już na taką stronę trafi (np. z jakiegoś linku), to może ją zaindeksować.

By tego uniknąć, można zastosować tag „noindex” w sekcji <head> strony, który informuje roboty indeksujące odwiedzające daną stronę (adres), by go nie indeksowały:

<meta name="robots" content="noindex">

Co istotne, w takiej sytuacji – wykorzystanie tagu „noindex” – najlepiej nie blokować dostępu do danej (pod)strony za pomocą pliku robots.txt, tak by robot indeksujący mógł stronę odwiedzić i zapoznać się z regułą „noindex”.

Przejdź do strony głównej

Lub napisz komentarz

Pomogłem? To może postawisz mi wirtualną kawę?

LUTy dla D-Cinelike (DJI Mini 3 Pro, DJI Avata, OSMO Pocket) od MiniFly

Wdrożenie Omnibusa w sklepie na WooCommerce

Jak (legalnie) latać dronem w Kategorii Otwartej

O autorze
Ostatnie artykuły

Patryk

CEO Webinsider.pl, a do tego CTO, CIO, CFO, CMO, CSO, COO i CRO ;-)
Pasjonat nowych technologii - od sprzętu po oprogramowanie, od serwerów po smartfony i rozwiązania IoT. Potencjalnie kiepski bloger, bo nie robi zdjęć "talerza" zanim zacznie jeść.

Dumny przyjaciel swoich psów :-)

Ostatnie artykuły: Patryk (zobacz wszystkie)

Napisz komentarz Anuluj pisanie odpowiedzi

Pamiętaj by podpisać się imieniem lub pseudonimem (nick) - inne podpisy (zwłaszcza słowa kluczowe, nazwa domeny, nazwa firmy, itp.) mogą być modyfikowane. Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *.
Komentarze mogą być moderowane - dlatego może się zdarzyć, że Twój komentarz nie pojawi się od razu...

Komentarz

Komentarze mogą być moderowane - dlatego może się zdarzyć, że Twój komentarz nie pojawi się od razu...

Nazwa *

E-mail *

Uwaga *

Informuj mnie o odpowiedziach poprzez email. Subskrybuj bez komentarza.

Klikając przycisk "wyślij komentarz" akceptujesz, że Twoje dane będą przetwarzane zgodnie z naszą polityką prywatności.

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Plik robots.txt, czyli dialog z robotami internetowymi (indeksującymi)

Plik robots.txt, czyli Robots Exclusion Protocol

Podstawowa konfiguracja robots.txt

Strona w wersji deweloperskiej/rozwojowej

Nie dla robota grafika

Robot robotowi nie równy

Mapa strony

Tag noindex

O autorze

Patryk

Napisz komentarz Anuluj pisanie odpowiedzi

Zostańmy przyjaciółmi

Wesprzyj nas!

Promocja własna

Najnowsze wpisy

Zakupy w sklepie Bambu Lab bez podatku VAT, czyli rejestracja jako B2B oraz specjalny link do specjalnego sklepu

W Home Assistant 2024.7 w końcu można bezpośrednio z właściwości danego elementu zarządzać jego rozmiarem w cały jeszcze czas eksperymentalnym układzie „sekcje”

Sprzedajesz drona DJI? Usuń go ze swojego konta. Kupujesz używanego drona DJI? Zadbaj, by dotychczasowy właściciel usunął go ze swojego konta!

Wtyczka BackWPup i błąd „open_basedir” przy tworzeniu kopii zapasowych strony na WordPressie

ESPHome 2024.6.0, to m.in. istotne zmiany w mechanizmie OTA, HTTP Request, oraz obsłudze czujników temperatury Dallas DS18B20

Promocja własna

Newslog

WordPressa 6.6 „Dorsey”, czyli ponownie nowości dotyczą głównie edytora blokowego, ale jest też jedna, która może zainteresować potencjalnie wszystkich

DJI 4G Cellular Dongle 2, czyli gdy OcuSync nie daje rady, a akurat musisz dronem polecieć do innego miasta

Proton Drive, czyli coś jak Google Drive (Dysk Google), ale z pełnym szyfrowaniem

Cloudflare z nową funkcją, pozwalającą za pomocą „jednego kliknięcia” zablokować roboty indeksujące związane z AI (sztuczną inteligencją)

Ponowna premiera serwisu Co Tu Lata (CoTuLata.pl), czyli strony do zgłaszania podejrzanych lotów dronami

Promocja własna

Pin It on Pinterest

Plik robots.txt, czyli dialog z robotami internetowymi (indeksującymi)

Plik robots.txt, czyli Robots Exclusion Protocol

Podstawowa konfiguracja robots.txt

Strona w wersji deweloperskiej/rozwojowej

Nie dla robota grafika

Robot robotowi nie równy

Mapa strony

Tag noindex

O autorze

Podobne wpisy

Napisz komentarz Anuluj pisanie odpowiedzi

Zostańmy przyjaciółmi

Wesprzyj nas!

Promocja własna

Najnowsze wpisy

Promocja własna

Newslog

Promocja własna

Pin It on Pinterest