Gestion de la liste des bots et adresses IPs

almylez · #1 2021-04-05 19:16:49

Salut,
je voudrais faire un script cloaking custom. La liste des bots et des adresses ip Google et autres moteurs de recherche est elle stable dans le temps ?
Merci

OncleShu · #2 2021-04-05 19:31:03

hello, je dirais que c'est un vaste sujet mais en quelques mots :
- les scripts de cloaking les plus efficaces se basent sur un reverse DNS, ca te permet d'etre sur du proprio de l'IP qui visite ta page. Tu trouveras pas mal de réponses à ce sujet sur le forum
- si tu veux aussi check le user agent il y a des listes de bots qui sont mises à jour fréquemment, puisqu'il y a de nouveaux bots tous les jours. Ex : https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/_generator_lists/bad-user-agents.list

si tu cherches une liste exhaustive de bot : https://user-agents.net/bots

Dernière modification par OncleShu (2021-04-05 19:31:54)

almylez · #3 2021-04-05 19:46:49

Merci @OncleShu pour ta réponse. Je veux m'assurer de catcher les google bots pour ne pas me prendre des pénalités. Si d'autres se passe pour ce qu'ils ne sont pas, cela ne me dérange pas forcément, dans un premier temps en tout cas.
Je vais creuser les deux pistes que tu as lister. je pense que ça suffit à mon bonheur.
Mon script ou plutôt mon plugin wp, sera installé sur plusieurs sites. Je pense donc à mettre la liste sur un site central en fichier.js et faire pointer le plugin dessus. La liste sera quand elle mise à jour régulièrement par une tache cron ou autre avec les sources que tu as citées.

Sogliath · #4 2021-04-06 09:06:47

Pourquoi réinventer la route alors qu'il existe déjà un framework efficace et gratuit ?

=> https://www.in-cloaking-veritas.com/

Dernière modification par Sogliath (2021-04-06 09:07:10)

DevForEver · #5 2021-04-06 19:00:42

Salut,

almylez a écrit :

je voudrais faire un script cloaking custom. La liste des bots et des adresses ip Google et autres moteurs de recherche est elle stable dans le temps ?
Merci

je rejoins ce qui t'as déjà été conseillé.

1. Niveau de finesse du clocking
Entre un IPBan amélioré et un système Datadome, l'approche et les moyens à mettre en oeuvre sont différents
ça va dépendre du temps et du budget à ta disposition

2. Attribution IP stable
Depuis la pénurie des IPv4, ça bouge souvent. Un reverse DNS permet de filtrer une partie du trafic, par contre l'opération est parfois un longue (100-200 ms), un système de cache est indispensable.
Pour les crawlers 'officiels', c'est pas la peine de s’embêter plus que ça. Les IP sont connues et les UserAgent indiquent le but de la requête. ça tient en quelques octets avec une annotation CIDR.

3. Temps à y consacrer
Comme le dit @Sogliath, si le clocking est standard, ne passe pas trop de temps dessus
De toutes façons, s'ils le souhaitent vraiment, les principaux intéressés ont tout ce qu'il faut à leur disposition, par exemple ip+UserAgent de Mme Michu ou tout simplement une remontée d'info de Chrome

Dernière modification par DevForEver (2021-04-06 19:06:51)

almylez · #6 2021-04-07 06:47:33

Salut,

Je ne veux surtout pas réinventer la roue Excuser mon ignorance ici; je vais bien sûr regarder du côté in-cloaking-veritas
Je suis sur wp + woocommerce
Je fais du cloaking de content avec un plugin de cloaking. Ce dernier le fais seulement sur les categories de site. J'ai besoin de le faire sur les pages produits e-commerce.
Ce plugin est malheureusement obfusqué pour pouvoir l'adapter légèrement. Je suis entrain d'évaluer les possibilités de le deobfusquer ou créer un autre; ma curiosité m'a après amené à me demander comment le cloacking ne peut pas être detectable par Google, s'il suffit de se passer pour un user de temps en temps!
@DevForEver:
ip+UserAgent de Mme Michu : Tu veux définir le user agent dans la requête et mettre ce que tu veux
remontée d'info de Chrome : là, je n'ai aucune idée de ce que tu voudrais dire

poulpe_centriste · #7 2021-04-07 11:54:29

DevForEver a écrit :

Pour les crawlers 'officiels', c'est pas la peine de s’embêter plus que ça. Les IP sont connues et les UserAgent indiquent le but de la requête

Petit ajout sur ce point: j'ai l'impression cependant que parfois, certaines boîtes connues pour crawler passent parfois par des araignées qui ne s'annoncent pas forcément comme travaillant pour elles (des sous-traitants?). A voir -selon les besoins- si disposer des honeypots n'est pas pertinent pour trier tout ça.

DevForEver · #8 2021-04-07 19:23:33

comme le dit @OncleShu, c'est un vaste sujet

afin de rendre plus concret les choses, prenons l'exemple de ip+UserAgent

je suis le bot de GG officiel
IP: 66.249.64.159
hostname: crawl-66-249-64-159.googlebot.com
UserAgent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
=> l'intention du crawler est clairement annoncée

le même GoogleBot modifie l'entete de la requete et passe par un tunnel
IP: 46.105.7.167 (OVH)
hostname: vps13352.ovh.net
UserAgent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36 (Chrome sur Ubuntu)
=> l'intention du crawler est plus obscure et difficile à bloquer

Les trois données (IP, UA, reverse DNS) sont très simples à changer.

Donc si tu souhaites bloquer le 1er cas, ne perds pas ton temps, de bonnes solutions existent déjà
Si tu souhaites bloquer le 2è cas, prépare la CB

Pour la petite histoire, le plus dur à faire est de passer pour le cas n°1, c'est à dire simuler le passage de GoogleBot alors que le crawler appartient en fait à un filou

D'expérience, le clocking fonctionne très bien aussi longtemps que tu restes dans l'ombre. Dès qu'un gars s'y intéresse un peu plus, les redirections sont plus ou moins faciles à déjouer.
Effectivement si Google veut connaitre le vrai contenu d'une page, son sous-traitant loue un VPS à 2€ chez Octave , modifie l'UA de son BOT et place un reverse DNS bidon sur l'IP, 98% des clocking sont mis à nus.

Seulement voila, GG a une solution bien meilleure et qui lui coute quasiment rien: Chrome, le navigateur est maintenu par ses ingénieurs. Ce qui est connu: des tonnes d'info sont aspirés chez les internautes, ce qui est moins connu: quelle type d'info et qu'en fait GG ?

A mon avis, le clocking est une bonne solution pour les crawlers du web, cacher ses liens, ... dès tu attires l'attention et qu'un humain y mettre son nez et souhaite passer derrière le camouflage, techniquement, c'est très simple à faire.

Privilégie la solution qui te prends le moins de temps

Dernière modification par DevForEver (2021-04-07 19:36:34)

OncleShu · #9 2021-04-07 20:16:52

je suis pas tout à fait daccord avec une chose : au plus tu vas soigner ton cloaking au plus tu seras tranquille à mon avis (pas vis à vis de google mais vis à vis d'eventuels jaloux). Si tu peux mettre des batons dans les roues à un mec qui veut juster dénoncer pour le plaisir autant se prémunir du mieux qu'on peut. Je pense qu'il y des cloaking qui sont quand même très difficilement détectables notamment quand tu montres les choses qu'à GG et que tu le fais bien.

almylez · #10 2021-04-08 18:05:59

DevForEver a écrit :

le même GoogleBot modifie l'entete de la requete et passe par un tunnel
IP: 46.105.7.167 (OVH)
hostname: vps13352.ovh.net
UserAgent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36 (Chrome sur Ubuntu)

D'où mon étonnement. Comment google ne peut il pas détecter tous les clockaing, puis qu'il suffit de se passer pour n'importe quel internaute.
Une petite comparaison avec son cache, et des milliers de site seraient pénalisés. Ma demande initiale était dans ce sens d'ailleurs, une liste qui détecte quand google change d'IP/UA ( Je ne sais pas si c'est légal pour autant de son côté!!)
J'imagine que ça doit etre aussi lourd à gérer si il devait sous traiter tous les requêtes!

DevForEver a écrit :

Donc si tu souhaites bloquer le 1er cas, ne perds pas ton temps, de bonnes solutions existent déjà
Si tu souhaites bloquer le 2è cas, prépare la CB

C'est déjà le cas. J'ai deux devs sur le pont. Peu d'expérience en SEO malheureusement. Je m'occupe de la veille et des techniques avancés. Enfin j'essaie. Je suis rentrer dans ce monde il y a moins d'un an.
J'ai développé surtout en C dans mon jeune âge; j'y touche encore un peu.

DevForEver a écrit :

Seulement voila, GG a une solution bien meilleure et qui lui coute quasiment rien: Chrome, le navigateur est maintenu par ses ingénieurs. Ce qui est connu: des tonnes d'info sont aspirés chez les internautes, ce qui est moins connu: quelle type d'info et qu'en fait GG ?

Je suis moins sûr. Je pense que tombe sous le coût de la RGPD directe ou équivalent moins stricte aux US. Vu les milliards qu'il brassent; Se sont une belle cible pour les classe actions. le VPS à deux euros ferai largement l'affaire

Merci en tout cas de tes infos

almylez · #11 2021-04-08 18:07:41

Une petite question qui n'a rien à voir. Peut on modifier nos messages. Je laisse passer des erreurs de grammaire/Orthographe, mais je ne peux pas éditer le message pour les corriger

Jaffaar · #12 2021-04-08 18:12:26

@almylez : Il faut passer level 2 pour cela. Le level 2 se gagne de deux façons :

- Atteindre 100 msg (sans spammer)
- Être selectionné arbitrairement par un level 4 ou 5 s'il remarque que vous êtes actifs et impliqués.

Pour les fautes ce n'est pas très grave même s'il est cool de les corriger effectivement.

Je me demande à réduire le pallier d'exigence auto du level 2 a 50 msg et la sélection arbitraire aussi plus souple du coup.

Je vais y réflechir, en atendant si tu es actif et apporte des partages de qualité je t'upgraderai rapidement avec la 2 ème méthode.

Attention au dela du level 2 l'arbitraire ne marche plus, pour le level 3 une seule régle : selection par un level 3 ou + et parrainage. Si aucune opposition des level 3+ actuels alors c'est ok.

Level 4 et 5 sont en fait la modération et l'administration, capitaines et gardiens et la les process de recrutement sont "spéciaux" : c'est le staff donc très limité et sur mesure au cas par cas.

Voila pour les infos de base

almylez · #13 2021-04-09 17:21:16

C'est noté.
message++;
Plus que 91

Jaffaar · #14 2021-04-09 17:25:09

@almylez : les messages de qualité permettent un upgrade anticipé

🟣 Gestion de la liste des bots et adresses IPs

#1 2021-04-05 19:16:49

Gestion de la liste des bots et adresses IPs

#2 2021-04-05 19:31:03

Re : Gestion de la liste des bots et adresses IPs

#3 2021-04-05 19:46:49

Re : Gestion de la liste des bots et adresses IPs

#4 2021-04-06 09:06:47

Re : Gestion de la liste des bots et adresses IPs

#5 2021-04-06 19:00:42

Re : Gestion de la liste des bots et adresses IPs

#6 2021-04-07 06:47:33

Re : Gestion de la liste des bots et adresses IPs

#7 2021-04-07 11:54:29

Re : Gestion de la liste des bots et adresses IPs

#8 2021-04-07 19:23:33

Re : Gestion de la liste des bots et adresses IPs

#9 2021-04-07 20:16:52

Re : Gestion de la liste des bots et adresses IPs

#10 2021-04-08 18:05:59

Re : Gestion de la liste des bots et adresses IPs

#11 2021-04-08 18:07:41

Re : Gestion de la liste des bots et adresses IPs

#12 2021-04-08 18:12:26

Re : Gestion de la liste des bots et adresses IPs

#13 2021-04-09 17:21:16

Re : Gestion de la liste des bots et adresses IPs

#14 2021-04-09 17:25:09

Re : Gestion de la liste des bots et adresses IPs

Pied de page des forums