Wszystko o robots.txt | Webinsider - Internet widziany od środka ™

Tag: robots.txt

Bot Fight Mode i User Agent Blocking w CloudFlare, czyli sposób na odcięcie od strony m.in. niesfornych pająków internetowych

Można by powiedzieć, ze dzisiejszy poranek był klasyczny, czyli spacer z psami, później podgląd raportów z różnych usług, w tym serwerów, na których działają różne strony. I jak to przy takim przeglądzie bywa, zawsze trafi się jakieś zmasowane skanowanie storny – czy to w poszukiwaniu jakiejś podatności, czy też w ramach analizy zawartości. Dziś jednak raporty dotyczące akurat strony Webinsider.pl pokazywały, że ktoś skanuje stronę, i nie jest to robot żadnej z popularnych wyszukiwarek, bo te akurat szanują obostrzenia/restrykcje co do intensywności swoich działań. Tak więc nie pozostało nic innego, jak ograniczyć dostęp dla nieproszonych pajączków (nie mylić z pewnym pajączkiem z pewnego technopudelka, bo ten – jako czytelnik – zawsze mile widziany, a do tego nawet robiąc „przedruk” nie musiałby męczyć się z tłumaczeniem, tak, jak z zagranicznych serwisów ;-)).

Plik robots.txt, czyli dialog z robotami internetowymi (indeksującymi)

Dziś będzie o kolejnym (po .htaccess) istotnym przydatnym pliku, który powinien (a na pewno nie zaszkodzi) znaleźć się w głównym katalogu naszej strony, na serwerze, czyli pliku robots.txt, który umożliwia pewnego rodzaju dialog między stroną (nami) a wyszukiwarką (robotami indeksującymi).

Loading

Pin It on Pinterest