Wszystko o robots.txt | Webinsider - Internet widziany od środka ™

Tag: robots.txt

Bot Fight Mode i User Agent Blocking w CloudFlare, czyli sposób na odcięcie od strony m.in. niesfornych pająków internetowych

Można by powiedzieć, ze dzisiejszy poranek był klasyczny, czyli spacer z psami, później podgląd raportów z różnych usług, w tym serwerów, na których działają różne strony. I jak to przy takim przeglądzie bywa, zawsze trafi się jakieś zmasowane skanowanie storny – czy to w poszukiwaniu jakiejś podatności, czy też w ramach analizy zawartości. Dziś jednak raporty dotyczące akurat strony Webinsider.pl pokazywały, że ktoś skanuje stronę, i nie jest to robot żadnej z popularnych wyszukiwarek, bo te akurat szanują obostrzenia/restrykcje co do intensywności swoich działań. Tak więc nie pozostało nic innego, jak ograniczyć dostęp dla nieproszonych pajączków (nie mylić z pewnym pajączkiem z pewnego technopudelka, bo ten – jako czytelnik – zawsze mile widziany, a do tego nawet robiąc „przedruk” nie musiałby męczyć się z tłumaczeniem, tak, jak z zagranicznych serwisów ;-)).

robots.txt – czyli dialog z robotami internetowymi (indeksującymi)

Dziś będzie o kolejnym (po .htaccess) istotnym przydatnym pliku, który powinien (a na pewno nie zaszkodzi) znaleźć się w głównym katalogu naszej strony, na serwerze, czyli pliku robots.txt, który umożliwia pewnego rodzaju dialog między stroną (nami) a wyszukiwarką (robotami indeksującymi).

Loading

#AkcjaSpołeczna

Zainteresujmy Urząd Ochrony Konkurencji i Konsumentów (internetowym) gospodarstwem domowym Netflix, czyli pobierz gotowe pismo do wysłania do urzędu

Promocja własna

LUTy dla D-Cinelike (DJI Mini 3 Pro, DJI Avata, OSMO Pocket) od MiniFly

Promocja własna

WordPress: Pierwsze kroki

Promocja własna

WordPress: Pierwsze kroki

Pin It on Pinterest