Dziś będzie o kolejnym (po .htaccess) ~~istotnym~~ przydatnym pliku, który powinien (a na pewno nie zaszkodzi) znaleźć się w głównym katalogu naszej strony, na serwerze, czyli pliku robots.txt, który umożliwia pewnego rodzaju dialog między stroną (nami) a wyszukiwarką (robotami indeksującymi).

Spis treści w artykule

1 Plik robots.txt, czyli Robots Exclusion Protocol
- 1.1 Podstawowa konfiguracja robots.txt
2 Tag noindex

Plik robots.txt, czyli Robots Exclusion Protocol

Plik robots.txt jest częścią protokołu “Robots Exclusion Protocol”, i jest to rodzaj informacji – drogowskazu – dla “robotów internetowych/indeksujących”, by np. jakiegoś elementu naszej strony nie odwiedzały, tym samy też nie indeksowały (ale o tym więcej niżej).

Zobacz również: Sterowanie robotami indeksującymi za pomocą pliku robot.txt na przykładzie sklepu na WooCommerce

Przy czym – w przeciwieństwie do wcześniej przywołanego pliku .htaccess nie jest elementem konfiguracji serwera, a tym samym nie ma “mocy sprawczej” – bardziej jest to “prośba”, którą “dobrze wychowane roboty internetowe/indeksujące” zazwyczaj spełniają…

Podstawowa konfiguracja robots.txt

Podstawowa konfiguracja (zawartość) pliku wygląda np. tak:

User-Agent: *
Allow: /

Ew. wersja alternatywna:

User-Agent: *
Disallow:

Oznacza to, że każdy robot (*) może odwiedzić całą stronę (Allow: /) lub – w przypadku wersji alternatywnej – nie może (nie powinien) odwiedzać wybranych adresów (Disallow:).

Strona w wersji deweloperskiej/rozwojowej

Choć uważam, że stronę w wersji deweloperskiej – czyli takiej, nad którą trwają prace – warto zablokować za pomocą pliku .htaccess, to czasem może zajść potrzeba zablokowania do niej dostępu tylko robotom indeksującym:

User-Agent: *
Disallow: /

Ew. gdy pracujemy nad jakimś działem, a reszta już jest OK:

User-agent: *
Disallow: /wersja_testowa01/
Disallow: /wersja_testowa02/
Disallow: /jakiś_katalog/strona_prywatna.html

Nie dla robota grafika

Możemy też zablokować indeksowanie konkretnych typów plików, np. grafiki:

User-agent: *
Disallow: /*.png$
Disallow: /*.jpg$
Disallow: /*.gif$

Robot robotowi nie równy

Do tej pory zwracaliśmy się “z prośbą” do wszystkich robotów (User-agent: *), ale możemy nasze “prośby” kierować indywidualnie do każdego robota.

Katalog poza Google, czyli “blokujemy” robota Google:

User-agent: GoogleBot
Disallow: /katalog/

I wariant łączony, czyli nasza grafika poza Google Grafika:

User-agent: googlebot-image
Disallow: /*.png$
Disallow: /*.jpg$
Disallow: /*.gif$

Mapa strony

W pliku robots.txt możemy również wskazać położenie tzw. “mapy strony”, która jest pewnego rodzaju mapą dla robotów indeksujących, dzięki której mogą sprawniej poruszać się po naszej stronie.

Standardowo jest to plik sitemap.xml znajdujący się w głównym katalogu serwera/strony/domeny, ale możemy skierować robota do innego pliku:

Sitemap: http://adres_nasze_strony.pl/alternatywna_mapa_strony.xml

Z czego zresztą często korzystają np. wtyczki od SEO.

Tag noindex

Na koniec warto napisać, że “blokada” w robots.txt to nie tylko prośba, ale też jest tylko informacją dla robota indeksującego, by danego adresu nie odwiedzać. Natomiast jeśli już na taką stronę trafi (np. z jakiegoś linku), to może ją zaindeksować.

By tego uniknąć, można zastosować tag “noindex” w sekcji <head> strony, który informuje roboty indeksujące odwiedzające daną stronę (adres), by go nie indeksowały:

<meta name="robots" content="noindex">

Co istotne, w takiej sytuacji – wykorzystanie tagu “noindex” – najlepiej nie blokować dostępu do danej (pod)strony za pomocą pliku robots.txt, tak by robot indeksujący mógł stronę odwiedzić i zapoznać się z regułą “noindex”.

| Lub postaw nam kawę :-)

LUTy dla D-Cinelike (DJI Mini 3 Pro, DJI Avata, OSMO Pocket) od MiniFly

Wdrożenie Omnibusa w sklepie na WooCommerce

Jak (legalnie) latać dronem w Kategorii Otwartej

Przejdź do strony głównej

Lub napisz komentarz

O autorze
Ostatnie artykuły

Patryk

CEO Webinsider.pl, a do tego CTO, CIO, CFO, CMO, CSO, COO i CRO ;-)
Pasjonat nowych technologii - od sprzętu po oprogramowanie, od serwerów po smartfony i rozwiązania IoT. Potencjalnie kiepski bloger, bo nie robi zdjęć "talerza" zanim zacznie jeść.

Dumny przyjaciel swoich psów :-)

Ostatnie artykuły: Patryk (zobacz wszystkie)

Napisz komentarz Anuluj pisanie odpowiedzi

Pamiętaj by podpisać się imieniem lub pseudonimem (nick) - inne podpisy (zwłaszcza słowa kluczowe, nazwa domeny, nazwa firmy, itp.) mogą być modyfikowane. Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *.
Komentarze mogą być moderowane - dlatego może się zdarzyć, że Twój komentarz nie pojawi się od razu...

Komentarz

Komentarze mogą być moderowane - dlatego może się zdarzyć, że Twój komentarz nie pojawi się od razu...

Nazwa *

E-mail *

Uwaga *

Informuj mnie o odpowiedziach poprzez email. Subskrybuj bez komentarza.

Klikając przycisk "wyślij komentarz" akceptujesz, że Twoje dane będą przetwarzane zgodnie z naszą polityką prywatności.

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Plik robots.txt, czyli dialog z robotami internetowymi (indeksującymi)

Plik robots.txt, czyli Robots Exclusion Protocol

Podstawowa konfiguracja robots.txt

Strona w wersji deweloperskiej/rozwojowej

Nie dla robota grafika

Robot robotowi nie równy

Mapa strony

Tag noindex

O autorze

Patryk

Napisz komentarz Anuluj pisanie odpowiedzi

Zostańmy przyjaciółmi

Wesprzyj nas!

Promocja własna

Najnowsze wpisy

Opcja “restore_from_flash”, czyli sposób na zapamiętywanie ustawień w ESPHome na układach ESP8266

Blokowe szablony powiadomień (block notice) w WooCommerce, nawet w klasycznych motywach

Poznaj aplikację DroneTower, czyli nowy (i teoretycznie obecnie jedyny) sposób zgłaszania lotów dronami

WordPress 6.5 i “Requires Plugins”, czyli autor wtyczki może teraz w prosty sposób określić, jakie wtyczki są niezbędne (wymagane), do działania jego wtyczki

Przegląd nowości w aktualizacji 01.03.1300 oprogramowania kontrolera DJI RC (RM330)

Promocja własna

Newslog

Atak typu Browser In The Browser na użytkowników platformy Steam, czyli dobry menedżer haseł i/lub klucz sprzętowy (dodatkowym) strażnikiem Twojego bezpieczeństwa

SkyShowtime z reklamami, czyli nowy pakiet tańszy o 5 zł, ale oprócz – jak sama nazwa wskazuje – reklam, są też dodatkowe ograniczenia

Od 15.04. jedynym systemem do zgłaszania lotów dronów jest aplikacja mobilna DroneTower, ale na razie nie bardzo chce działać

DJI Avata 2 z klasą C1 i gogle z kamerami nie oznaczają, że można latać tym dronem w Kategorii Otwartej bez obserwatora (w goglach)

wFirma znowu podnosi ceny swoich usług księgowości internetowej

Promocja własna

Pin It on Pinterest

Plik robots.txt, czyli dialog z robotami internetowymi (indeksującymi)

Plik robots.txt, czyli Robots Exclusion Protocol

Podstawowa konfiguracja robots.txt

Strona w wersji deweloperskiej/rozwojowej

Nie dla robota grafika

Robot robotowi nie równy

Mapa strony

Tag noindex

O autorze

Podobne wpisy

Napisz komentarz Anuluj pisanie odpowiedzi

Zostańmy przyjaciółmi

Wesprzyj nas!

Promocja własna

Najnowsze wpisy

Promocja własna

Newslog

Promocja własna

Pin It on Pinterest