Suite à mon poste ou je demandais vos avis sur une ip qui a fait un crawl suspect sur un de mes sites, je me met dans l'idée de créer une fonction (php pour ma part mais ici je veux juste parler de conception) qui detecterait les visiteurs suspect.
Je commence la reflexion donc ne m'en voulez pas si je divague un peu.
Pele mele mes premiere idées pour les detecter :
-Une black list -> ca doit certainement déja exister
-Une white list ip: bah oui faudrait pas bloquer les robots qui nous interesse!
-les cookies : j'ai remarqué que les bots n'acceptent pas les cookies
-les user-agent : je pense que c'est une fausse bonne idée étant donné que c'est la premiere chose que je changerai si je faisais un bad-bot.
-Le temps de crawl entre les pages
-Le nombre de pages vue (dans mon cas, au dela de 100 pages ca commence à etre douteux)
-un regex sur la remote adresse (exemple :msnbot-207-46-13-96.search.msn.com -> si contient "msn.com" alors good-bot)
-Le pays avec un black ou white list histoire de rejeter les connexions douteuses (je vois des connexions de Dakar ou du Bénin)
En dehors de cas clairement identifiés (un blacklisté par exemple), on peut attribuer un score de doutabilité. Genre celui qui cumule un nombre de vue trop grand, avec un temps trop court entre chaque pages, qui n'accepte pas les cookies et qui est dans un pays Asiatique : blocage (voir redirection sur un concurrent pour les vicieux!).
Ensuite il faut hierarchiser tout ca, et logger les connexions avec un statut accept ou denied histoire d'améliorer.
Si vous avez des idées a ajouter n'hésitez pas.
-----------------------
Tu fais du SEO dans le secteur du service à la personne ? (ou tu connais quelqu'un qui le fait) envoi moi un MP
🔴 Hors ligne
j'ai eu un peu les mêmes problématiques et j'ai préféré opter pour du nginx / fail2ban. Le script PHP va pas bloquer les requetes vers js, css, images ... Avec fail2ban tu peux créer des règles de blocages d'ip automatique en fonction de requetes douteuses en GET / POST, tu peux blacklister / whitelister des ips ... Du coup ca relève plus de l'administration serveur que du dev mais à mon avis c'est plus efficace
🔴 Hors ligne
Je vais appelé Octave mais pas sur qu'il me laisse trop bricoler sur un mutu .
Je vais partir sur une solution simple a base de ce que j'ai mis plus haut. D'autant plus que je suis plus dev qu'admin serveur. J'aurais plus vite fait de coder ma fonction que d'apprendre a maitriser des nouveau logicielles.
Merci pour l'autre piste que tu as citée (requete fail ou douteuses), je vais la mettre aussi dans ma fonction.
-----------------------
Tu fais du SEO dans le secteur du service à la personne ? (ou tu connais quelqu'un qui le fait) envoi moi un MP
🔴 Hors ligne
Deja la question c'est : pourquoi bloqué les bots ?
Deja tu peu souvent faire une base avec un htaccess (voir ci dessous)
Si c'est pour Bloqué Paul ou Michel qui veulent scrappé tes data ... tu pourra pas vraiment les en empeché ... car c'est tres facile de mettre des sleep() random dans ton code, de changer d'ip, de changer d'user agent, accepté les cookie etc ...
Apres tu pourrai t'inspiré de google genre : tu fait un script qui calcul le nombre/vitesse de requêtes d'une ip... si c'est trop rapide , Captcha ... si le mec repond tu reset son nombre de requête autorisé
🔴 Hors ligne