Vous n'êtes pas identifié(e).
Salut les SEO, comme vous avez du vous en rendre compte, Majestic contourne les blocages Robots.txt ou Htaccess et remontent maintenant les liens. J'ai vu ici et là pas mal d'interrogations sur twitter. Certains pensent que Majestic achète la data à d'autres, ou d'autres disent qu'un autre nom de bot a été lancé et c'est via celui-ci que la data est maintenue à jour.
Avez vous remarqué cela également (depuis mai dernier environ) ?
Comment trouver et bloquer ce bot ? Des idées ?
Merci à vous
🔴 Hors ligne
Yop, le bloquage robots.txt ils peuvent bien le faire sauter si ils veulent mais le htaccess si tu bloque leurs ips, je vois pas bien comment ils peuvent passer outre ? Ils ont tant d'ips que ça qui tourne ?
🔴 Hors ligne
Yop, le bloquage robots.txt ils peuvent bien le faire sauter si ils veulent mais le htaccess si tu bloque leurs ips, je vois pas bien comment ils peuvent passer outre ? Ils ont tant d'ips que ça qui tourne ?
@Mitsu la liste est longue: hxxps://help.ahrefs.com/getting-started-with-ahrefs/ahrefs-explained/what-is-the-list-of-your-ip-ranges
🔴 Hors ligne
Comment trouver et bloquer ce bot ? Des idées ?
p'etre que certains bots Majestic passent par des proxy avec un UserAgent et nom d'hote anonyme,
comme tous ceux qui scrappent
Le piège est assez facile à mettre en place:
1. sur un site crawlé fréquemment par majestic, mettre un lien sur une page orpheline,
2. blaster un peu l'url de la page orpheline
3. jetter un coup d'oeil dans les logs Apache pour extraire les requêtes vers la page orpheline.
En théorie, il n'y aura que des robots qui auront visité la page puisqu'elle n'est pas maillé dans le site. En surveillant le fresh index de Majestic, y a moyen d'avoir une quasi certitude sur le type de crawl utilisé par Majestic.
Dernière modification par DevForEver (2018-07-24 13:09:35)
🔴 Hors ligne
@Gelexylophone : Tu parles de ahrefs là, pour le coup la liste est longue bof en fait ils ont très peu de plages ips différentes.
🔴 Hors ligne
🔴 Hors ligne
Pour le contournement du blocage via htaccess je ne sais pas, par contre je confirme bien que le bot de Majestic passe outre les directives robots.txt depuis cette année, ce qui n'était pas le cas avant.
🔴 Hors ligne
Oh, c'est bon à savoir, ça. Et ça explique bien des choses !
Merci de l'info !
Cultivons l'efficience.
🔴 Hors ligne
p'etre que certains bots Majestic passent par des proxy avec un UserAgent et nom d'hote anonyme,
comme tous ceux qui scrappent
.
Je ne pense pas car sur les sites qui ont cette extension d'installée, les BL ne remontent pas dans Majestic : https://fr.wordpress.org/plugins/stopbadbots/
ils doivent acheter à un scrapper "connu"
Dernière modification par jeromeweb (2018-07-25 20:27:37)
Jérôme - Générer des revenus avec les NDD expirés (formation) | Blog perso jeromeweb.net
🔴 Hors ligne
Je ne pense pas car sur les sites qui ont cette extension d'installée, les BL ne remontent pas dans Majestic : https://fr.wordpress.org/plugins/stopbadbots/
ils doivent acheter à un scrapper "connu"
sacré plugin, d'après les sources ils filtrent sur les plages d'IP, l'UA et p'etre suivant d'autres critères
merci pour le lien ça donne des idées
🔴 Hors ligne
C'est une évidence, mais robots.txt n'est pas un blocage, ce sont juste des instructions. Rien n'oblige à les respecter.
Quant au blocage par htaccess, bah, il faut pas oublier que les entreprises comme Majestic font leur beurre sur les données, plus ils en collectent, mieux c'est, donc à mon avis, ils n'hésitent pas à multiplier les bots et surtout à mettre un user agent banal (Chrome, Safari, etc)
Donc bon, c'est un combat un peu perdu d'avance.
Vente de Backlinks thématique Parentalité, lifestyle, bébé/enfants à bon prix. Glissez en MP pour plus d'infos
🔴 Hors ligne
Hello,
Effectivement, j'ai commencé à voir des BL apparaitre sur Majestic depuis des NDD ou je filtrais l'accès aux bots.
Je vais essayer ce qu'a proposé @DevForEver
🔴 Hors ligne
🔴 Hors ligne
Re les seo,
Je suis maintenant à découvert Tous mes liens ou presque ont été découverts par Majestic, depuis l'apparition de leur nouveau bot secret en Avril / Mai
Quelqu'un aurait une piste pour mettre un terme à ce badbot ? Je commence a regarder dans les logs en ce moment pour le trouver, mais étant novice, c'est pas évident.
Dernière modification par Boons (2018-08-29 11:08:10)
🔴 Hors ligne
🔴 Hors ligne
Egalement intéressé par des infos sur le bot de majestic
🔴 Hors ligne
Hello ,
Juste pour répondre en général, les crawlers de Majestic sont des bots distribués, ils ont plusieurs pools d'utilisateurs qui sont rétribués pour faire tourner les crawlers sur leurs propres machines. Il n'y a donc pas de plages d'IP connues pour bloquer Majestic. La façon la plus répandue c'est de bloquer le User Agent : MJ12Bot via .htaccess
Dernière modification par nazim (2019-07-12 22:20:16)
🔴 Hors ligne