Vous n'êtes pas identifié(e).
Pages :: 1
Bonjour les amis,
Je souhaite bloquer les bots pour cacher quelques BL,
J'hésite donc entre l'utilisation d'un Plugin WP, ou insérer simplement dans un robots.txt la liste des bots les plus couramment utilisés.
(( J'ai installé StopBadBots mais il est entré en conflit avec Yoast et WP Rocket. L'admin WP ne fonctionnait plus. ))
Par le htaccess, le code que j'ai trouvé en ligne ne semble pas fonctionner.
Concernant robots.txt, j'ai trouvé ce code à insérer sur scripts-seo : Qu'en pensez-vous ? Merci d'avance pour votre aide
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: Yandex
Disallow: /
User-agent: YandexBot
Disallow: /
User-agent: UbiCrawler
Disallow: /
User-agent: DOC
Disallow: /
User-agent: Zao
Disallow: /
User-agent: sitecheck.internetseer.com
Disallow: /
User-agent: Zealbot
Disallow: /
User-agent: MSIECrawler
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: Fetch
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: WebZIP
Disallow: /
User-agent: linko
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: Xenu
Disallow: /
User-agent: larbin
Disallow: /
User-agent: libwww
Disallow: /
User-agent: ZyBORG
Disallow: /
User-agent: Download Ninja
Disallow: /
User-agent: rogerbot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: Sosospider
disallow: /
User-agent: BacklinkCrawler
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Ezooms
Disallow: /
User-agent: Gigabot
Disallow: /
User-agent: findlinks
Disallow: /
User-agent: SurveyBot
Disallow: /
User-agent: SEOENGBot
Disallow: /
User-agent: BPImageWalker
Disallow: /
User-agent: bdbrandprotect
Disallow: /
User-agent: LinkWalker
Disallow: /
User-agent: Updownerbot
Disallow: /
User-agent: HTTrack
Disallow: /
Edit:
Pensez-vous qu'il faille également bloquer SEMRUSH car il dispose également d'un crawler pour les backlinks ?
Dernière modification par Boons (2017-05-11 18:32:42)
🔴 Hors ligne
Merci @superframboise pour ton retour,
J'ai mis celui-ci
Je ne suis pas du tout expert sur le htaccess, j'ai fais ce copier-coller simplement, et j'ai remarqué que Majestic remontait les BL.
🔴 Hors ligne
@superframboise
et que penses-tu de la liste robots.txt mise plus haut ?
🔴 Hors ligne
@superframboise
tu aurais un htaccess sous la main fonctionnel ?
le mien ne semble pas marcher
🔴 Hors ligne
@superframboise
la troisième portion de code fonctionne-t-elle bien ?
Elle semble indiquer Ahref et Majestic
Si tu valides ce code, je peux tester
Toutefois, à quoi correspond la dernière ligne ?
Dernière modification par Boons (2017-05-12 15:29:02)
🔴 Hors ligne
Merci @superframboise pour tes réponses,
J'ai mis le code ainsi dans le htaccess, en supprimant la dernière ligne
Je vais le tester et voir si MJ12, Ahref et Semrush remonte les BL.
Pour le robots.txt, je touche à rien, afin de savoir si ce htaccess fonctionne ou non.
Pour le moment, je doute de son efficacité, XENU qui est censé être bloqué arrive tout de même à crawler le site en question..
🔴 Hors ligne
lool @superframboise
J'ai bien compris la métaphore
je vais donc ajouter la dernière phrase
Mais, en inscrivant le site exemple.com, les bots seront redirigés sur cette URL et vont en principe crawler le site, n'est ce pas ?
Les BL qu'ils vont remonter, seront-ils liés au site crawlé (donc exemple.com) ou rattachés à mon site, les bots ne comprenant pas qu'ils ont été redirigés via une 301 ?
Du coup, que penses-tu de cette dernière ligne
Que signifie-t-elle ?
Merci @superframboise pour ton aide précieuse !
🔴 Hors ligne
Excellent ! Merci @superframboise
Avec RewriteRule .* - [F] j'ai de nouveau testé et XENU est bien bloqué, yeaaahh
Du coup, je me demande s'il est utile d'ajouter le Disallow: / en robots.txt pour les différents user-agent
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: Yandex
Disallow: /
User-agent: YandexBot
Disallow: /
User-agent: UbiCrawler
Disallow: /
User-agent: DOC
Disallow: /
User-agent: Zao
Disallow: /
User-agent: sitecheck.internetseer.com
Disallow: /
User-agent: Zealbot
Disallow: /
User-agent: MSIECrawler
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: Fetch
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: WebZIP
Disallow: /
User-agent: linko
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: Xenu
Disallow: /
User-agent: larbin
Disallow: /
User-agent: libwww
Disallow: /
User-agent: ZyBORG
Disallow: /
User-agent: Download Ninja
Disallow: /
User-agent: rogerbot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: Sosospider
disallow: /
User-agent: BacklinkCrawler
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Ezooms
Disallow: /
User-agent: Gigabot
Disallow: /
User-agent: findlinks
Disallow: /
User-agent: SurveyBot
Disallow: /
User-agent: SEOENGBot
Disallow: /
User-agent: BPImageWalker
Disallow: /
User-agent: bdbrandprotect
Disallow: /
User-agent: LinkWalker
Disallow: /
User-agent: Updownerbot
Disallow: /
User-agent: HTTrack
Disallow: /
Dernière modification par Boons (2017-05-17 14:30:52)
🔴 Hors ligne
@superframboise ok top, je vais utiliser le htaccess que tu as validé avec la dernière ligne,
Xenu semble bloqué pour le moment
Je verrai dans quelques jours si les BL remontent sur les principaux bots de BL utilisés : MJ12, Ahref, Semrush
Je laisse le robots.txt de coté donc,
Merci pour ton aide,
🔴 Hors ligne
Suite à ton aide @superframboise , voici mon retour d'expérience après 2 mois d'utilisation,
Le code placé en htaccess a très bien fonctionné. Les différents bots connus et mis dans le htaccess ont bien été bloqués et les BL ne sont pas remontés.
En revanche, en utilisant un autre crawler qui ne figurait pas dans le htaccess, tout remonte bien (logique)
Se pose du coup la question de la réussite à moyen terme d'une stratégie de blocage des bots, puisqu'il est en réalité impossible de tous les bloquer. Il en restera toujours certains qui passeront à l'as. Il suffit donc pour le SEO concurrent de connaitre un crawler peu connu et qui fait le job pour récupérer les BL.
🔴 Hors ligne
Se pose du coup la question de la réussite à moyen terme d'une stratégie de blocage des bots, puisqu'il est en réalité impossible de tous les bloquer. Il en restera toujours certains qui passeront à l'as. Il suffit donc pour le SEO concurrent de connaitre un crawler peu connu et qui fait le job pour récupérer les BL.
Et bien justement si, et c'est ce qu'il disait au-dessus.
Tu peux pas tout bloquer mais tu peux laisser uniquement google voir le lien.
Résultat sa bloque tous les crawler, sauf google.
C'est la solution ultime. après sache qu'il y'a toujours ou presque un moyen de finalement voir le lien, mais déjà tu ne sera pas "grillé" sur les crawler et les tools utilisés par les SEO.
J'ai M sur le front tel Babidi
🔴 Hors ligne
Merci @vetaga-m pour ton retour,
Je me rends également compte que Majestic ne suit pas toujours le htaccess puisqu'il remonte les BL sur certains sites (qui bloquaient pourtant le bot)
En quoi consiste la solution de bloquer TOUS les bots sauf Google ?
Je ne maitrise que trop peu le htaccess pour rédiger un code opérationnel
Merci pour votre aide,
🔴 Hors ligne
Pages :: 1