Wszystko o user-agent | Webinsider - Internet widziany od środka ™

Tag: user-agent

Pobieranie filmów z serwisu Vider.info za pomocą narzędzi dla deweloperów i zmodyfikowanego nagłówka UA (user agent)

Zdarza mi się – choćby w celach “naukowo-badawczych” – czasem pobierać materiały z serwisów, które takie pobieranie starają się jak nie uniemożliwić, to przynajmniej utrudnić. Czasem trzeba się nieźle nagimnastykować, czasem wystarczy skorzystać z jakiejś sztuczki. Celowo zazwyczaj nie korzystam z wyspecjalizowanych programów, a szukam “alternatywnych sposobów”, bo jak już wspomniałem – cel to nie zawsze pobranie materiału samo w sobie, a często nauka przez doświadczenie. Linki do kilku artykułów na ten temat wstawię gdzieś w treści tego artykułu, a teraz bierzemy na tapet serwis Vider.info, o który zapytała dziś koleżanka…

Bot Fight Mode i User Agent Blocking w CloudFlare, czyli sposób na odcięcie od strony m.in. niesfornych pająków internetowych

Można by powiedzieć, ze dzisiejszy poranek był klasyczny, czyli spacer z psami, później podgląd raportów z różnych usług, w tym serwerów, na których działają różne strony. I jak to przy takim przeglądzie bywa, zawsze trafi się jakieś zmasowane skanowanie storny – czy to w poszukiwaniu jakiejś podatności, czy też w ramach analizy zawartości. Dziś jednak raporty dotyczące akurat strony Webinsider.pl pokazywały, że ktoś skanuje stronę, i nie jest to robot żadnej z popularnych wyszukiwarek, bo te akurat szanują obostrzenia/restrykcje co do intensywności swoich działań. Tak więc nie pozostało nic innego, jak ograniczyć dostęp dla nieproszonych pajączków (nie mylić z pewnym pajączkiem z pewnego technopudelka, bo ten – jako czytelnik – zawsze mile widziany, a do tego nawet robiąc “przedruk” nie musiałby męczyć się z tłumaczeniem, tak, jak z zagranicznych serwisów ;-)).

Wykrywanie urządzeń mobilnych w języku PHP (biblioteka Mobile Detect) i w WordPressie (wbudowana funkcja)

Właśnie skończyłem prace nad jednym z modułów projektu, nad którym pracuję, a w którym to module ważna jest funkcja “wyłapywania” urządzeń mobilnych (głównie telefony, tablety z racji większego ekranu nie były już tak istotne). Operację taką w PHP można wykonać choćby za pomocą funkcji preg_match(), która może wyłapywać – po słowach kluczowych w nagłówku HTTP_USER_AGENT – przeglądarkę/system, i na bazie spróbować rozpoznać, czy mamy do czynienia z urządzeniem mobilnym. Jest to dość skuteczna metoda, tyle tylko, że wymaga ciągłego śledzenia “rynku przeglądarek mobilnych”, co w tym przypadku nie wchodzi(ło) w grę. Dlatego postanowiłem skorzystać z gotowca. A właściwie, to 2 gotowców…

Sterowanie robotami indeksującymi za pomocą pliku robot.txt na przykładzie sklepu na WooCommerce

Zwrócił się do mnie ostatnio jeden z czytelników z prośbą o pomoc przy “ogarnięciu sklepu internetowego na WooCommerce”. Zagadnień było sporo, ale chyba wszystko udało się zrobić, bo nie było protestów przy odbieraniu wystawionej faktury VAT. A wszystko zaczęło się od “nagłego spowolnienia działania strony”, i jak się okazało – powodem takiego stanu rzeczy był robot indeksujący Google, czyli Googlebot. Dlatego dziś mały “poradnik” jak w takiej sytuacji okiełznać nad aktywnego Googlebota…

Plik robots.txt, czyli dialog z robotami internetowymi (indeksującymi)

Dziś będzie o kolejnym (po .htaccess) istotnym przydatnym pliku, który powinien (a na pewno nie zaszkodzi) znaleźć się w głównym katalogu naszej strony, na serwerze, czyli pliku robots.txt, który umożliwia pewnego rodzaju dialog między stroną (nami) a wyszukiwarką (robotami indeksującymi).

Loading

Pin It on Pinterest