Witam forumowiczów pytaniem spowodowanym tak nachalną inwigilacją moich stron przez boty typu achrefs że permanentnie walczę z przekraczaniem limitów bezpieczeństwa, które jak wiemy zbyt wysoko ustawione nie są, a dokupić ich nie sposób ;-) Szczególnie we znaki daje mi się jakiś nowy, może nawet polski wynalazek pod nazwą Inwegro (InwegroBot). Porobiłem odpowiednie reguły w robots.txt, równolegle stosuję listę blokowanych botów w .htaccess - ale to wszystko nie działa. Przeanalizowałem logi. Np. ten Inwegro przedstawia się nazwą serwera pt. "50.7.207.26". Dodałem do .htaccess wpis: order allow,deny deny from 50.7.207.26 allow from all ale gad dalej masakruje serwer. Czy ktoś podpowie co i jak można użyć spośród informacji widocznych w logach serwera www aby zablokować dziada? A może macie jakieś inne sposoby radzenia sobie z tym?
W pierwszej kolejności podpowiedziałbym o pliku robots.txt, ale jeśli jest to jakiś złośliwy robot, to będzie ignorował reguły zapisane w tym pliku Plik „robots.txt” jedynie informuje o odpowiednim zachowaniu, nie wymusza go zaś w żaden sposób. Wszystkie uznane roboty (np. roboty popularnych wyszukiwarek internetowych) będą przestrzegać zasad zawartych w pliku „robots.txt”, jednak niektóre roboty mogą je zignorować. Ignorowanie zapisów zawartych w pliku „robots.txt” jest możliwe, ponieważ nie można narzucić bezwarunkowego przestrzegania zasad zawartych w pliku „robots.txt”, w związku z czym niektórzy spamerzy i inni "oszuści" pod przykrywką robotów mogą go zignorować. W takich przypadkach zalecamy używanie haseł do ochrony poufnych informacji, np. za pomocą pliku .htaccess (funkcja ukrytego katalogu) lub blokowania po adresach IP w pliku htaccess, tak jak wspomniałeś w swoim poście. Spróbuj może rozszerzyć blokadę na adres IP w formie 50.7.207.* , gdzie gwiazdka oznacza dowolny ciąg znaków. Zbadam Twoją sprawę i sprawdzę też inne alternatywne rozwiązania i jeszcze się odezwę w tym temacie
Dzięki. Nie mam problemu z dostępem do poufnych informacji ale ze skanowaniem publicznych zasobów przez niechciane boty. Tak jak napisałem - dodałem odpowiednie wpisy w robots.txt ale domyślam się że większość bandyckich botów to ignoruje. Nie mam pewności czy blokada przez htaccess może być przez nie ignorowana co do zasady, a jeśli nie - to być może mają patenty na jej omijanie, bo nie specjalnie działa. Blokowanie po adresach IP w htaccess: ale skąd brać te adresy? W logach mam nazwę serwera, a nie adres IP. Jak pokazuje przykład bota Inwegro - czasem wyglądający jak adres IP... Czy mogę jakoś blokować w htaccess posługując się tą nazwą z logów? Moja próba z blokadą nazwy "50.7.207.26" zdaje się temu przeczyć, chociaż może jest to jakiś prozaiczny błąd "braku przecinka"...? A może blokowanie działa i obecność tych wywołań w logach temu nie przeczy? Jeśli taki bot dostaje odpowiedź 403? Przy właściwie działającej blokadzie w logu nie powinno być po nim śladu, czy wywołanie powinno być odnotowane, tyle że taką właśnie "czterystatrójką"??
spokojnie można blokować po hostach, a nie ip, z różnymi maskami typu *, ale trzeba uważać aby nie zablokować za dużo znam przykład zablokowania całego ruchu z dawnego TP S.A.
Ale byłby spokój Rozumiem że jeśli widzę nadal gada w logach, ale odpowiedź na jego wywołania brzmi "403" to jest to skuteczna blokada i nic więcej zrobić nie mogę?