Gérer les robots et les bannir si besoin


Les robots c'est cool, il y a notamment celui de Google (et les autres on s'en fout) pour pouvoir chercher "tela botanica" ou "carnet en ligne" dans Google.
Mais des fois les robots c'est chiant, ça génÚre des petalol de hits sur nos serveurs pour queue-dalle (coucou Semrush).

Donc on peut utiliser plusieurs techniques pour renvoyer ces braves bĂȘtes dans leurs niche :

Robots.txt

C'est standard mais du coup ça marche pas forcĂ©ment, des fois ça prend du temps pour que le robot s’aperçoive que le contenu Ă  changĂ© ou ptetr mĂȘme qu'il l'ignore totalement (coucou Semrush).
Voir http://robots-txt.com/

LĂ  par exemple on interdit Ă  Semrush de consulter tout le site alors qu'on autorise tous les autres :
User-agent: SemrushBot
Disallow: /

User-agent: *
Disallow:


Apache

On va envoyer les robots en 403, c'est radical donc forcément un peu mieux.

AprÚs avoir épluché les logs et déterminé quels bots sont à bannir on ajoute leur user-agent à la liste des Bad-Bots.
Cette liste peur ĂȘtre mise dans un .htaccess (et surement mĂȘme directement dans le vhost).
Voir : https://www.askapache.com/htaccess/setenvif/

Faut activer le module setenvif (a2enmod setenvif) et ensuite dans un .htaccess bien placé on met :
SetEnvIfNoCase User-Agent "^.*semrushbot.*$" bad_bot
SetEnvIfNoCase User-Agent "^.*semrush.*$" bad_bot

Order Allow,Deny
Allow from All
Deny from env=bad_bot


Liste Ă  bloquer


AhrefsBot (voir https://ahrefs.com/robot)
SemrushBot (voir http://www.semrush.com/bot.html)

More banned bots pleazzz


https://www.buildersociety.com/threads/block-unwanted-bots-on-apache-nginx-constantly-updated.1898/