Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 Robots.txt ou plugin ?


#1 2017-05-11 18:31:23

Mention Boons
🥉 Grade : Scout

AuxiliaireConsomateur de Liens
Lieu : Jerusalem, Israel
Inscription : 2017-04-12
Messages : 44
Likes : 0

Robots.txt ou plugin ?

Bonjour les amis,
Je souhaite bloquer les bots pour cacher quelques BL,

J'hésite donc entre l'utilisation d'un Plugin WP, ou insérer simplement dans un robots.txt la liste des bots les plus couramment utilisés.
(( J'ai installé StopBadBots mais il est entré en conflit avec Yoast et WP Rocket. L'admin WP ne fonctionnait plus. ))

Par le htaccess, le code que j'ai trouvé en ligne ne semble pas fonctionner.
Concernant robots.txt, j'ai trouvé ce code à insérer sur scripts-seo :  Qu'en pensez-vous ? Merci d'avance pour votre aide


User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: Yandex
Disallow: /
User-agent: YandexBot
Disallow: /
User-agent: UbiCrawler
Disallow: /
User-agent: DOC
Disallow: /
User-agent: Zao
Disallow: /
User-agent: sitecheck.internetseer.com
Disallow: /
User-agent: Zealbot
Disallow: /
User-agent: MSIECrawler
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: Fetch
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: WebZIP
Disallow: /
User-agent: linko
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: Xenu
Disallow: /
User-agent: larbin
Disallow: /
User-agent: libwww
Disallow: /
User-agent: ZyBORG
Disallow: /
User-agent: Download Ninja
Disallow: /
User-agent: rogerbot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: Sosospider
disallow: /
User-agent: BacklinkCrawler
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Ezooms
Disallow: /
User-agent: Gigabot
Disallow: /
User-agent: findlinks
Disallow: /
User-agent: SurveyBot
Disallow: /
User-agent: SEOENGBot
Disallow: /
User-agent: BPImageWalker
Disallow: /
User-agent: bdbrandprotect
Disallow: /
User-agent: LinkWalker
Disallow: /
User-agent: Updownerbot
Disallow: /
User-agent: HTTrack
Disallow: /


Edit:
Pensez-vous qu'il faille également bloquer SEMRUSH car il dispose également d'un crawler pour les backlinks ?

Dernière modification par Boons (2017-05-11 18:32:42)

0
J'aime ❤️

🔴 Hors ligne

#2 2017-05-11 20:29:53

Mention Boons
🥉 Grade : Scout

AuxiliaireConsomateur de Liens
Lieu : Jerusalem, Israel
Inscription : 2017-04-12
Messages : 44
Likes : 0

Re : Robots.txt ou plugin ?

Merci @superframboise pour ton retour,

J'ai mis celui-ci

<IfModule mod_rewrite.c>
RewriteEngine On
# On block les backlinks crawlers
# Majestic SEO [http://www.majestic12.co.uk/projects/dsearch/mj12bot.php]
RewriteCond %{HTTP_USER_AGENT} MJ12bot        [NC,OR]
# Ahrefs [http://ahrefs.com/robot/]
RewriteCond %{HTTP_USER_AGENT} AhrefsBot      [NC,OR]
# Seomoz [http://www.seomoz.org/dp/rogerbot]
RewriteCond %{HTTP_USER_AGENT} rogerbot       [NC,OR]
# SeoProfiler [http://www.seoprofiler.com/bot/]
RewriteCond %{HTTP_USER_AGENT} spbot        [NC,OR]
# Backlinktest [http://www.backlinktest.com/]
RewriteCond %{HTTP_USER_AGENT} BacklinkCrawler            [NC,OR]
# Sosospider [http://help.soso.com/webspider.htm]
RewriteCond %{HTTP_USER_AGENT} Sosospider     [NC,OR]
# Alexa [http://www.alexa.com/help/webmasters]
RewriteCond %{HTTP_USER_AGENT} ia_archiver      [NC,OR]
# Ezooms
RewriteCond %{HTTP_USER_AGENT} Ezooms       [NC,OR]
# Gigablast [http://www.gigablast.com/spider.html]
RewriteCond %{HTTP_USER_AGENT} Gigabot        [NC,OR]
# Findlinks [http://wortschatz.uni-leipzig.de/findlinks/]
RewriteCond %{HTTP_USER_AGENT} findlinks      [NC,OR]
# Sogou [http://www.sogou.com/docs/help/webmasters.htm#07]
RewriteCond %{HTTP_USER_AGENT} Sogou\ web\ spider         [NC,OR]
# Blocage des whois source
RewriteCond %{HTTP_USER_AGENT}  SurveyBot     [NC,OR]
# SeoEngine [http://www.seoengine.com/seoengbot.htm]
RewriteCond %{HTTP_USER_AGENT}  SEOENGBot     [NC,OR]
# BrandProtect [http://www.brandprotect.com/]
RewriteCond %{HTTP_USER_AGENT} BPImageWalker            [NC,OR]
RewriteCond %{HTTP_USER_AGENT} bdbrandprotect           [NC,OR]
RewriteCond %{HTTP_USER_AGENT} LinkWalker     [NC,OR]
# Bots de merde
RewriteCond %{HTTP_USER_AGENT} Updownerbot      [NC,OR]
# Les aspirateurs de site
RewriteCond %{HTTP_USER_AGENT} HTTrack        [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Net\ Vampire             [NC,OR]
# Notre ami appspot
RewriteCond %{HTTP_USER_AGENT} AppEngine-Google           [NC]
RewriteCond %{REQUEST_URI} !^/[0-9]+\..+\.cpaneldcv$
RewriteCond %{REQUEST_URI} !^/[A-F0-9]{32}\.txt(?:\ Comodo\ DCV)?$
RewriteRule ^(.*)$ - [F]
</IfModule>
 

Je ne suis pas du tout expert sur le htaccess, j'ai fais ce copier-coller simplement, et j'ai remarqué que Majestic remontait les BL.

0
J'aime ❤️

🔴 Hors ligne

#3 2017-05-12 13:26:47

Mention Boons
🥉 Grade : Scout

AuxiliaireConsomateur de Liens
Lieu : Jerusalem, Israel
Inscription : 2017-04-12
Messages : 44
Likes : 0

Re : Robots.txt ou plugin ?

@superframboise
et que penses-tu de la liste robots.txt mise plus haut ?

0
J'aime ❤️

🔴 Hors ligne

#4 2017-05-12 13:36:58

Mention Boons
🥉 Grade : Scout

AuxiliaireConsomateur de Liens
Lieu : Jerusalem, Israel
Inscription : 2017-04-12
Messages : 44
Likes : 0

Re : Robots.txt ou plugin ?

@superframboise
tu aurais un htaccess sous la main fonctionnel ?

le mien ne semble pas marcher

0
J'aime ❤️

🔴 Hors ligne

#5 2017-05-12 15:28:08

Mention Boons
🥉 Grade : Scout

AuxiliaireConsomateur de Liens
Lieu : Jerusalem, Israel
Inscription : 2017-04-12
Messages : 44
Likes : 0

Re : Robots.txt ou plugin ?

@superframboise
la troisième portion de code fonctionne-t-elle bien ?
Elle semble indiquer Ahref et Majestic big_smile

RewriteCond %{HTTP_USER_AGENT} ^.*AhrefsBot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*MJ12bot.*$ [NC,OR]
 

Si tu valides ce code, je peux tester

Toutefois, à quoi correspond la dernière ligne ?

RewriteRule ^(.*)$ http://example.com/ [L,R=301]

Dernière modification par Boons (2017-05-12 15:29:02)

0
J'aime ❤️

🔴 Hors ligne

#6 2017-05-17 13:35:27

Mention Boons
🥉 Grade : Scout

AuxiliaireConsomateur de Liens
Lieu : Jerusalem, Israel
Inscription : 2017-04-12
Messages : 44
Likes : 0

Re : Robots.txt ou plugin ?

Merci @superframboise pour tes réponses,

J'ai mis le code ainsi dans le htaccess, en supprimant la dernière ligne
Je vais le tester et voir si MJ12, Ahref et Semrush remonte les BL.
Pour le robots.txt, je touche à rien, afin de savoir si ce htaccess fonctionne ou non.

Pour le moment, je doute de son efficacité, XENU qui est censé être bloqué arrive tout de même à crawler le site en question..




<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{REQUEST_URI} !/robots.txt$
RewriteCond %{HTTP_USER_AGENT} ^.*BLEXBot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*BlackWidow.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Nutch.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Jetbot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebVac.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Stanford.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*scooter.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*naver.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*dumbot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Hatena\ Antenna.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*grub.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*looksmart.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebZip.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*larbin.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*b2w/0.1.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Copernic.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*psbot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Python-urllib.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*NetMechanic.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*URL_Spider_Pro.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*CherryPicker.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*EmailCollector.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*EmailSiphon.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebBandit.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*EmailWolf.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Email.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*ExtractorPro.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*CopyRightCheck.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Crescent.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*SiteSnagger.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*ProWebWalker.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*CheeseBot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*LNSpiderguy.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*ia_archiver.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Alexibot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Teleport.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*MIIxpc.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Telesoft.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Website\ Quester.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*moget.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebStripper.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebSauger.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebCopier.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*NetAnts.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Mister\ PiX.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebAuto.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*TheNomad.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WWW-Collector-E.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*RMA.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*libWeb/clsHTTP.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*asterias.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*httplib.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*turingos.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*spanner.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Harvest.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*InfoNaviRobot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Bullseye.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebBandit.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*NICErsPRO.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Microsoft\ URL\ Control.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*DittoSpyder.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Foobot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebmasterWorldForumBot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*SpankBot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*BotALot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*lwp-trivial.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebmasterWorld.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*BunnySlippers.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*URLy\ Warning.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Wget.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*LinkWalker.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*cosmos.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*hloader.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*humanlinks.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*LinkextractorPro.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Offline\ Explorer.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Mata\ Hari.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*LexiBot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Web\ Image\ Collector.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*The\ Intraformant.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*True_Robot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*BlowFish.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*SearchEngineWorld.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*JennyBot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*MIIxpc.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*BuiltBotTough.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*ProPowerBot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*BackDoorBot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*toCrawl/UrlDispatcher.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebEnhancer.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*suzuran.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebViewer.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*VCI.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Szukacz.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*QueryN.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Openfind.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Openbot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Webster.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*EroCrawler.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*LinkScan.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Keyword.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Kenjin.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Iron33.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Bookmark\ search\ tool.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*GetRight.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*FairAd\ Client.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Gaisbot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Aqua_Products.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Radiation\ Retriever\ 1.1.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Flaming\ AttackBot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Oracle\ Ultra\ Search.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*MSIECrawler.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*PerMan.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*searchpreview.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*sootle.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Enterprise_Search.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Bot\ mailto:craftbot@yahoo.com.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*ChinaClaw.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Custo.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*DISCo.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Download\ Demon.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*eCatch.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*EirGrabber.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*EmailSiphon.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*EmailWolf.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Express\ WebPictures.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*ExtractorPro.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*EyeNetIE.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*FlashGet.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*GetRight.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*GetWeb!.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Go!Zilla.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Go-Ahead-Got-It.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*GrabNet.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Grafula.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*HMView.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*HTTrack.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Image\ Stripper.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Image\ Sucker.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Indy\ Library.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*InterGET.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Internet\ Ninja.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*JetCar.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*JOC\ Web\ Spider.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*larbin.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*LeechFTP.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Mass\ Downloader.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*MIDown\ tool.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Mister\ PiX.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Navroad.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*NearSite.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*NetAnts.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*NetSpider.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Net\ Vampire.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*NetZIP.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Octopus.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Offline\ Explorer.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Offline\ Navigator.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*PageGrabber.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Papa\ Foto.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*pavuk.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*pcBrowser.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*RealDownload.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*ReGet.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*SiteSnagger.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*SmartDownload.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*SuperBot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*SuperHTTP.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Surfbot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*tAkeOut.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Teleport\ Pro.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*VoidEYE.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Web\ Image\ Collector.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Web\ Sucker.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebAuto.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebCopier.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebFetch.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebGo\ IS.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebLeacher.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebReaper.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebSauger.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Website\ eXtractor.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Website\ Quester.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebStripper.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebWhacker.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WebZIP.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Wget.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Widow.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*WWWOFFLE.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Xaldon\ WebSpider.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Zeus.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Semrush.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*BecomeBot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*AhrefsBot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*MJ12bot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*rogerbot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*exabot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Xenu.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*dotbot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*gigabot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*BlekkoBot.*$ [NC]
</IfModule>
0
J'aime ❤️

🔴 Hors ligne

#7 2017-05-17 14:08:34

Mention Boons
🥉 Grade : Scout

AuxiliaireConsomateur de Liens
Lieu : Jerusalem, Israel
Inscription : 2017-04-12
Messages : 44
Likes : 0

Re : Robots.txt ou plugin ?

lool @superframboise
J'ai bien compris la métaphore cool
je vais donc ajouter la dernière phrase smile

Mais, en inscrivant le site exemple.com, les bots seront redirigés sur cette URL et vont en principe crawler le site, n'est ce pas ?
Les BL qu'ils vont remonter, seront-ils liés au site crawlé (donc exemple.com) ou rattachés à mon site, les bots ne comprenant pas qu'ils ont été redirigés via une 301 ?


Du coup, que penses-tu de cette dernière ligne
Que signifie-t-elle ?

RewriteRule ^(.*)$ - [F]

Merci @superframboise pour ton aide précieuse !

0
J'aime ❤️

🔴 Hors ligne

#8 2017-05-17 14:29:51

Mention Boons
🥉 Grade : Scout

AuxiliaireConsomateur de Liens
Lieu : Jerusalem, Israel
Inscription : 2017-04-12
Messages : 44
Likes : 0

Re : Robots.txt ou plugin ?

Excellent ! Merci @superframboise
Avec  RewriteRule .* - [F]  j'ai de nouveau testé et XENU est bien bloqué, yeaaahh

Du coup, je me demande s'il est utile d'ajouter le Disallow: /  en robots.txt pour les différents user-agent




User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: Yandex
Disallow: /
User-agent: YandexBot
Disallow: /
User-agent: UbiCrawler
Disallow: /
User-agent: DOC
Disallow: /
User-agent: Zao
Disallow: /
User-agent: sitecheck.internetseer.com
Disallow: /
User-agent: Zealbot
Disallow: /
User-agent: MSIECrawler
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: Fetch
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: WebZIP
Disallow: /
User-agent: linko
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: Xenu
Disallow: /
User-agent: larbin
Disallow: /
User-agent: libwww
Disallow: /
User-agent: ZyBORG
Disallow: /
User-agent: Download Ninja
Disallow: /
User-agent: rogerbot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: Sosospider
disallow: /
User-agent: BacklinkCrawler
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Ezooms
Disallow: /
User-agent: Gigabot
Disallow: /
User-agent: findlinks
Disallow: /
User-agent: SurveyBot
Disallow: /
User-agent: SEOENGBot
Disallow: /
User-agent: BPImageWalker
Disallow: /
User-agent: bdbrandprotect
Disallow: /
User-agent: LinkWalker
Disallow: /
User-agent: Updownerbot
Disallow: /
User-agent: HTTrack
Disallow: /

Dernière modification par Boons (2017-05-17 14:30:52)

0
J'aime ❤️

🔴 Hors ligne

#9 2017-05-17 14:55:35

Mention Boons
🥉 Grade : Scout

AuxiliaireConsomateur de Liens
Lieu : Jerusalem, Israel
Inscription : 2017-04-12
Messages : 44
Likes : 0

Re : Robots.txt ou plugin ?

@superframboise ok top, je vais utiliser le htaccess que tu as validé avec la dernière ligne,
Xenu semble bloqué pour le moment

Je verrai dans quelques jours si les BL remontent sur les principaux bots de BL utilisés : MJ12, Ahref, Semrush

Je laisse le robots.txt de coté donc,
Merci pour ton aide,

0
J'aime ❤️

🔴 Hors ligne

#10 2017-07-16 10:07:02

Mention Boons
🥉 Grade : Scout

AuxiliaireConsomateur de Liens
Lieu : Jerusalem, Israel
Inscription : 2017-04-12
Messages : 44
Likes : 0

Re : Robots.txt ou plugin ?

Suite à ton aide @superframboise , voici mon retour d'expérience après 2 mois d'utilisation,
Le code placé en htaccess a très bien fonctionné. Les différents bots connus et mis dans le htaccess ont bien été bloqués et les BL ne sont pas remontés.
En revanche, en utilisant un autre crawler qui ne figurait pas dans le htaccess, tout remonte bien (logique)

Se pose du coup la question de la réussite à moyen terme d'une stratégie de blocage des bots, puisqu'il est en réalité impossible de tous les bloquer. Il en restera toujours certains qui passeront à l'as. Il suffit donc pour le SEO concurrent de connaitre un crawler peu connu et qui fait le job pour récupérer les BL.

0
J'aime ❤️

🔴 Hors ligne

#11 2017-07-16 10:10:33

Mention vetaga-m
🥉 Grade : Scout

AuxiliaireStratège
Inscription : 2017-07-10
Messages : 67
Likes : 0

Netlinking
Networking SEO
Scraping
Sémantique

Re : Robots.txt ou plugin ?

Boons a écrit :

Se pose du coup la question de la réussite à moyen terme d'une stratégie de blocage des bots, puisqu'il est en réalité impossible de tous les bloquer. Il en restera toujours certains qui passeront à l'as. Il suffit donc pour le SEO concurrent de connaitre un crawler peu connu et qui fait le job pour récupérer les BL.

Et bien justement si, et c'est ce qu'il disait au-dessus.

Tu peux pas tout bloquer mais tu peux laisser uniquement google voir le lien.
Résultat sa bloque tous les crawler, sauf google.

C'est la solution ultime. après sache qu'il y'a toujours ou presque un moyen de finalement voir le lien, mais déjà tu ne sera pas "grillé" sur les crawler et les tools utilisés par les SEO.


J'ai M sur le front tel Babidi

0
J'aime ❤️

🔴 Hors ligne

#12 2017-07-17 10:32:57

Mention Boons
🥉 Grade : Scout

AuxiliaireConsomateur de Liens
Lieu : Jerusalem, Israel
Inscription : 2017-04-12
Messages : 44
Likes : 0

Re : Robots.txt ou plugin ?

Merci  @vetaga-m pour ton retour,
Je me rends également compte que Majestic ne suit pas toujours le htaccess puisqu'il remonte les BL sur certains sites (qui bloquaient pourtant le bot)

En quoi consiste la solution de bloquer TOUS les bots sauf Google ?
Je ne maitrise que trop peu le htaccess pour rédiger un code opérationnel

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteRule .* - [F]
</IfModule>

Merci pour votre aide,

0
J'aime ❤️

🔴 Hors ligne

Pied de page des forums