Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 Gestion de la liste des bots et adresses IPs


#1 2021-04-05 19:16:49

Mention almylez
♟️ Grade : Recruit

Disciple
Inscription : 2020-03-30
Messages : 10
Likes : 7

Développement C
Marketing

Gestion de la liste des bots et adresses IPs

Salut,
je voudrais faire un script cloaking custom. La liste des bots et des adresses ip Google et autres moteurs de recherche est elle stable dans le temps ?
Merci

1
J'aime ❤️

🔴 Hors ligne

#2 2021-04-05 19:31:03

Mention OncleShu
🥈 Grade : Soldier

Membre du CercleOfficierIngénieur web250likesConsomateur de LiensMembre HospitalierPhilantrope
Inscription : 2018-03-09
Messages : 674
Likes : 370

Développement PHP
intégration Html Css
Adminstration Serveur
Data Base Admin

Re : Gestion de la liste des bots et adresses IPs

hello, je dirais que c'est un vaste sujet mais en quelques mots :
- les scripts de cloaking les plus efficaces se basent sur un reverse DNS, ca te permet d'etre sur du proprio de l'IP qui visite ta page. Tu trouveras pas mal de réponses à ce sujet sur le forum
- si tu veux aussi check le user agent il y a des listes de bots qui sont mises à jour fréquemment, puisqu'il y a de nouveaux bots tous les jours. Ex : https://github.com/mitchellkrogza/apache-ultimate-bad-bot-blocker/blob/master/_generator_lists/bad-user-agents.list

si tu cherches une liste exhaustive de bot : https://user-agents.net/bots

Dernière modification par OncleShu (2021-04-05 19:31:54)

3
J'aime ❤️

🔴 Hors ligne

#3 2021-04-05 19:46:49

Mention almylez
♟️ Grade : Recruit

Disciple
Inscription : 2020-03-30
Messages : 10
Likes : 7

Développement C
Marketing

Re : Gestion de la liste des bots et adresses IPs

Merci @OncleShu pour ta réponse. Je veux m'assurer de catcher les google bots pour ne pas me prendre des pénalités. Si d'autres se passe pour ce qu'ils ne sont pas, cela ne me dérange pas forcément, dans un premier temps en tout cas.
Je vais creuser les deux pistes que tu as lister. je pense que ça suffit à mon bonheur.
Mon script  ou plutôt mon plugin wp, sera installé sur plusieurs sites. Je pense donc à mettre la liste sur un site central en fichier.js et faire pointer le plugin  dessus. La liste sera quand elle mise à jour régulièrement par une tache cron ou autre avec les sources que tu as citées.

1
J'aime ❤️

🔴 Hors ligne

#4 2021-04-06 09:06:47

Mention Sogliath
🥈 Grade : Soldier

Membre du CercleOfficierStratège500likesConsomateur de LiensMembre HospitalierPhilantrope
Inscription : 2019-12-06
Messages : 949
Likes : 508

Adminstration Serveur
Automatisation Web
Audit et Analyse
Netlinking Auto

Re : Gestion de la liste des bots et adresses IPs

Pourquoi réinventer la route alors qu'il existe déjà un framework efficace et gratuit ?

=> https://www.in-cloaking-veritas.com/

Dernière modification par Sogliath (2021-04-06 09:07:10)

3
J'aime ❤️

🔴 Hors ligne

#5 2021-04-06 19:00:42

Mention DevForEver
🥉 Grade : Scout

AuxiliaireIngénieur web10likes
Lieu : Alsace
Inscription : 2016-02-16
Messages : 178
Likes : 13

PHP
JAVA
DB Admin
Sécurité

Re : Gestion de la liste des bots et adresses IPs

Salut,

almylez a écrit :

je voudrais faire un script cloaking custom. La liste des bots et des adresses ip Google et autres moteurs de recherche est elle stable dans le temps ?
Merci

je rejoins ce qui t'as déjà été conseillé.

1. Niveau de finesse du clocking
Entre un IPBan amélioré et un système Datadome, l'approche et les moyens à mettre en oeuvre sont différents
ça va dépendre du temps et du budget à ta disposition


2. Attribution IP stable
Depuis la pénurie des IPv4, ça bouge souvent. Un reverse DNS permet de filtrer une partie du trafic, par contre l'opération est parfois un longue (100-200 ms), un système de cache est indispensable.
Pour les crawlers 'officiels', c'est pas la peine de s’embêter plus que ça. Les IP sont connues et les UserAgent indiquent le but de la requête. ça tient en quelques octets avec une annotation CIDR.

3. Temps à y consacrer
Comme le dit @Sogliath, si le clocking est standard, ne passe pas trop de temps dessus
De toutes façons, s'ils le souhaitent vraiment, les principaux intéressés ont tout ce qu'il faut à leur disposition, par exemple ip+UserAgent de Mme Michu ou tout simplement une remontée d'info de Chrome tongue

Dernière modification par DevForEver (2021-04-06 19:06:51)

3
J'aime ❤️

🔴 Hors ligne

#6 2021-04-07 06:47:33

Mention almylez
♟️ Grade : Recruit

Disciple
Inscription : 2020-03-30
Messages : 10
Likes : 7

Développement C
Marketing

Re : Gestion de la liste des bots et adresses IPs

Salut,

Je ne veux surtout pas réinventer la roue smile Excuser mon ignorance ici; je vais bien sûr regarder du côté in-cloaking-veritas
Je suis sur wp + woocommerce
Je fais du cloaking de content avec un plugin de cloaking. Ce dernier le fais seulement sur les categories de site. J'ai besoin de le faire sur les pages produits e-commerce.
Ce plugin est malheureusement obfusqué pour pouvoir l'adapter légèrement. Je suis entrain d'évaluer les possibilités de le deobfusquer ou créer  un autre; ma curiosité m'a après amené  à me demander comment le cloacking ne peut pas être detectable par Google, s'il suffit de se passer pour un user de temps en temps!
@DevForEver:
ip+UserAgent de Mme Michu : Tu veux définir le user agent dans la requête et mettre ce que tu veux
remontée d'info de Chrome : là, je n'ai aucune idée de ce que tu voudrais dire

1
J'aime ❤️

🔴 Hors ligne

#7 2021-04-07 11:54:29

Mention poulpe_centriste
🥈 Grade : Soldier

Membre du CercleOfficier100likes
Inscription : 2018-07-03
Messages : 573
Likes : 173

Re : Gestion de la liste des bots et adresses IPs

DevForEver a écrit :

Pour les crawlers 'officiels', c'est pas la peine de s’embêter plus que ça. Les IP sont connues et les UserAgent indiquent le but de la requête

Petit ajout sur ce point: j'ai l'impression cependant que parfois, certaines boîtes connues pour crawler passent parfois par des araignées qui ne s'annoncent pas forcément comme travaillant pour elles (des sous-traitants?). A voir -selon les besoins- si disposer des honeypots n'est pas pertinent pour trier tout ça.

2
J'aime ❤️

🔴 Hors ligne

#8 2021-04-07 19:23:33

Mention DevForEver
🥉 Grade : Scout

AuxiliaireIngénieur web10likes
Lieu : Alsace
Inscription : 2016-02-16
Messages : 178
Likes : 13

PHP
JAVA
DB Admin
Sécurité

Re : Gestion de la liste des bots et adresses IPs

comme le dit @OncleShu, c'est un vaste sujet

afin de rendre plus concret les choses, prenons l'exemple de ip+UserAgent

je suis le bot de GG officiel
IP: 66.249.64.159
hostname: crawl-66-249-64-159.googlebot.com
UserAgent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
=> l'intention du crawler est clairement annoncée

le même GoogleBot modifie l'entete de la requete et passe par un tunnel
IP: 46.105.7.167 (OVH)
hostname: vps13352.ovh.net
UserAgent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36 (Chrome sur Ubuntu)
=> l'intention du crawler est plus obscure et difficile à bloquer

Les trois données (IP, UA, reverse DNS) sont très simples à changer.

Donc si tu souhaites bloquer le 1er cas, ne perds pas ton temps, de bonnes solutions existent déjà
Si tu souhaites bloquer le 2è cas, prépare la CB big_smile

Pour la petite histoire, le plus dur à faire est de passer pour le cas n°1, c'est à dire simuler le passage de GoogleBot alors que le crawler appartient en fait à un filou tongue

D'expérience, le clocking fonctionne très bien aussi longtemps que tu restes dans l'ombre. Dès qu'un gars s'y intéresse un peu plus, les redirections sont plus ou moins faciles à déjouer.
Effectivement si Google veut connaitre le vrai contenu d'une page, son sous-traitant loue un VPS à 2€ chez Octave lol, modifie l'UA de son BOT et place un reverse DNS bidon sur l'IP, 98% des clocking sont mis à nus.

Seulement voila, GG a une solution bien meilleure et qui lui coute quasiment rien: Chrome, le navigateur est maintenu par ses ingénieurs. Ce qui est connu: des tonnes d'info sont aspirés chez les internautes, ce qui est moins connu: quelle type d'info et qu'en fait GG ?

A mon avis, le clocking est une bonne solution pour les crawlers du web, cacher ses liens, ... dès tu attires l'attention et qu'un humain y mettre son nez et souhaite passer derrière le camouflage, techniquement, c'est très simple à faire.

Privilégie la solution qui te prends le moins de temps wink

Dernière modification par DevForEver (2021-04-07 19:36:34)

2
J'aime ❤️

🔴 Hors ligne

#9 2021-04-07 20:16:52

Mention OncleShu
🥈 Grade : Soldier

Membre du CercleOfficierIngénieur web250likesConsomateur de LiensMembre HospitalierPhilantrope
Inscription : 2018-03-09
Messages : 674
Likes : 370

Développement PHP
intégration Html Css
Adminstration Serveur
Data Base Admin

Re : Gestion de la liste des bots et adresses IPs

je suis pas tout à fait daccord avec une chose : au plus tu vas soigner ton cloaking au plus tu seras tranquille à mon avis (pas vis à vis de google mais vis à vis d'eventuels jaloux). Si tu peux mettre des batons dans les roues à un mec qui veut juster dénoncer pour le plaisir autant se prémunir du mieux qu'on peut. Je pense qu'il y des cloaking qui sont quand même très difficilement détectables notamment quand tu montres les choses qu'à GG et que tu le fais bien.

1
J'aime ❤️

🔴 Hors ligne

#10 2021-04-08 18:05:59

Mention almylez
♟️ Grade : Recruit

Disciple
Inscription : 2020-03-30
Messages : 10
Likes : 7

Développement C
Marketing

Re : Gestion de la liste des bots et adresses IPs

DevForEver a écrit :

le même GoogleBot modifie l'entete de la requete et passe par un tunnel
IP: 46.105.7.167 (OVH)
hostname: vps13352.ovh.net
UserAgent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36 (Chrome sur Ubuntu)

D'où mon étonnement. Comment google ne peut il pas détecter tous les clockaing, puis qu'il suffit de se passer pour n'importe quel internaute.
Une petite comparaison avec son cache, et des milliers de site seraient pénalisés. Ma demande initiale était dans ce sens d'ailleurs, une liste qui détecte quand google change d'IP/UA ( Je ne sais pas si c'est légal pour autant de son côté!!)
J'imagine que ça doit etre aussi lourd à gérer si il devait sous traiter tous les requêtes!

DevForEver a écrit :

Donc si tu souhaites bloquer le 1er cas, ne perds pas ton temps, de bonnes solutions existent déjà
Si tu souhaites bloquer le 2è cas, prépare la CB big_smile

C'est déjà le cas. big_smile J'ai deux devs sur le pont. Peu d'expérience en SEO malheureusement. Je m'occupe de la veille  et des techniques avancés. Enfin j'essaie. Je suis rentrer dans ce monde il y a moins d'un an.
J'ai développé surtout en C dans mon jeune âge; j'y touche encore un peu.

DevForEver a écrit :

Seulement voila, GG a une solution bien meilleure et qui lui coute quasiment rien: Chrome, le navigateur est maintenu par ses ingénieurs. Ce qui est connu: des tonnes d'info sont aspirés chez les internautes, ce qui est moins connu: quelle type d'info et qu'en fait GG ?

Je suis moins sûr. Je pense que tombe sous le coût de la RGPD directe ou équivalent moins stricte aux US.  Vu les milliards qu'il brassent; Se sont une belle cible pour les classe actions. le VPS à deux euros ferai largement l'affaire

Merci en tout cas de tes infos wink

1
J'aime ❤️

🔴 Hors ligne

#11 2021-04-08 18:07:41

Mention almylez
♟️ Grade : Recruit

Disciple
Inscription : 2020-03-30
Messages : 10
Likes : 7

Développement C
Marketing

Re : Gestion de la liste des bots et adresses IPs

Une petite question qui n'a rien à voir. Peut on modifier nos messages. Je laisse passer des erreurs de grammaire/Orthographe, mais je ne peux pas éditer le message pour les corriger

1
J'aime ❤️

🔴 Hors ligne

#12 2021-04-08 18:12:26

Mention Jaffaar
🥇 Grade : Guardian

AdminMembre du Black LaboMembre du CercleOfficierForce PolyvalenteIngénieur webKilluavie1000likesConsomateur de Liens1000 messagesMembre HospitalierPhilantrope
Lieu : Consultant SEO / WEB
Inscription : 2012-06-01
Messages : 8 536
Likes : 1368

Développement PHP
Développement JS
Networking SEO
Social Engineering

Re : Gestion de la liste des bots et adresses IPs

@almylez : Il faut passer level 2 pour cela. Le level 2 se gagne de deux façons :

- Atteindre 100 msg (sans spammer)
- Être selectionné arbitrairement par un level 4 ou 5 s'il remarque que vous êtes actifs et impliqués.

Pour les fautes ce n'est pas très grave même s'il est cool de les corriger effectivement.

Je me demande à réduire le pallier d'exigence auto du level 2 a 50 msg et la sélection arbitraire aussi plus souple du coup.

Je vais y réflechir, en atendant si tu es actif et apporte des partages de qualité je t'upgraderai rapidement avec la 2 ème méthode.

Attention au dela du level 2 l'arbitraire ne marche plus, pour le level 3 une seule régle : selection par un level 3 ou + et parrainage. Si aucune opposition des level 3+ actuels alors c'est ok.

Level 4 et 5 sont en fait la modération et l'administration, capitaines et gardiens et la les process de recrutement sont "spéciaux" : c'est le staff donc très limité et sur mesure au cas par cas.

Voila pour les infos de base smile


Comment Ranker ?
Nouveauté : Ninja Web Pro Pack copies limitées !
Ebook : Ninjalinking 2022 (-25% : labo25e)           
Conseils stratégiques ou techniques ? ( Skype : jaffaarbh )

1
J'aime ❤️

🟢 En ligne

#13 2021-04-09 17:21:16

Mention almylez
♟️ Grade : Recruit

Disciple
Inscription : 2020-03-30
Messages : 10
Likes : 7

Développement C
Marketing

Re : Gestion de la liste des bots et adresses IPs

C'est noté.
message++;
Plus que 91 big_smile

1
J'aime ❤️

🔴 Hors ligne

#14 2021-04-09 17:25:09

Mention Jaffaar
🥇 Grade : Guardian

AdminMembre du Black LaboMembre du CercleOfficierForce PolyvalenteIngénieur webKilluavie1000likesConsomateur de Liens1000 messagesMembre HospitalierPhilantrope
Lieu : Consultant SEO / WEB
Inscription : 2012-06-01
Messages : 8 536
Likes : 1368

Développement PHP
Développement JS
Networking SEO
Social Engineering

Re : Gestion de la liste des bots et adresses IPs

@almylez : les messages de qualité permettent un upgrade anticipé wink


Comment Ranker ?
Nouveauté : Ninja Web Pro Pack copies limitées !
Ebook : Ninjalinking 2022 (-25% : labo25e)           
Conseils stratégiques ou techniques ? ( Skype : jaffaarbh )

1
J'aime ❤️

🟢 En ligne

Pied de page des forums