Vous n'êtes pas identifié(e).
Bonjour à tous,
en septembre un site a été piraté (qui est propre aujourd'hui) et depuis 1 mois google pénalise le site à cause des milliers (million) d'erreurs 404 que cela génère.
Les adresses erreurs 404 sont sous cette forme
La série de dossier horever va de 1 à 60 000, j'ai réussi à créer cette série facilement avec excel, mais je ne sais pas comment intégrer le sous dossier automatiquement. Le sous dossier est une série de 1 à 10 000.
Je ne sais pas quoi chercher sur google pour trouver un tuto, cela doit être tout simple j'en suis sur mais je suis paumé !
Si quelqu'un connait une commande pour y arriver ou les mots clés pour trouver un tuto ca serait génial !
Ma première idée était de faire une redirection 410 dans le htaccess
J'ai fais comme cela :
Je pensais que ça allait prendre l'ensemble des sous dossiers, mais apparemment cela ne fonctionne pas assez bien d'après la Google SC
Tous les jours elle m'annonce de nouvelles erreurs 404
Merci
Dernière modification par Remi33 (2018-03-19 06:48:21)
La vie est un puzzle dont chacun a une pièce.
🔴 Hors ligne
Hello,
alors, je pourrais t'expliquer comment faire ça sur Excel, mais en l'occurrence je pense que ce n'est pas la bonne méthode. Tu vas surcharger ton .htaccess pour rien.
Tu dois utiliser une regex pour faire ça.
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne
Salut, j'ai remarqué que rien qu'avec 60 000 lignes il est déjà passé 4mo... Je vais regarder qu'est ce qu'une regex
Merci
La vie est un puzzle dont chacun a une pièce.
🔴 Hors ligne
Vu que toutes les erreurs 404 finissent par default.aspl je pourrais peut etre utiliser :
RewriteRule \.aspl$ - [G]
est ce que ca serait suffisant svp ?
Dernière modification par Remi33 (2018-03-19 09:02:25)
La vie est un puzzle dont chacun a une pièce.
🔴 Hors ligne
Why not pour le coup je ferais sur les deux pattern. Aussi, pourquoi rediriger toutes ces URLs, autant faire plus simple et bloquer l'exploration tout de suite depuis le fichier robots.txt:
Disallow: /horever*
Disallow: *.aspl$
🔴 Hors ligne
Merci mitsu pour l'idée, parfois la simplicité est plus dure à trouver......:D
La vie est un puzzle dont chacun a une pièce.
🔴 Hors ligne
Euh, moi je les bloquerai pas tout de suite dans le robots.txt
Jte conseillerait de d’abord mettre en place les 410 avec Regex. Laisser le temps à GoogleBot de tomber dessus, tout depend de ton budget de crawl, mais ça peut aller assez vite (1 mois) et ensuite peut-être bloquer ces pages dans le robots.txt.
Si tu bloques tout de suite ces pages via le robots.txt, elles risquent de rester dans l'index et puis rien ne dit que GoogleBot n'ira pas les explorer même si elles sont censées être bloquées dans le robots.txt.
"Faut mailler, mailler, mailler" (Booba, SEO Émérite)
🔴 Hors ligne
Du coup j'ai :
Dans le lot j'ai aussi des urls genre domaiine.fr/fr_8bdg5/index.html
Maintenant que vous m'avez aidé à trouvé des solutions, vous me mettez dans une impasse
robots.txt avec disallow ou htaccess et 410 ?
La vie est un puzzle dont chacun a une pièce.
🔴 Hors ligne
Pour le coup je suis d'accord avec @GBB_N12 je ne bloquerais pas l'exploration tout de suite sinon Google ne pourras pas savoir que ces pages sont en 410.
Donc regex dans le .htaccess pour envoyer des 410. Puis check régulier pour voir l'évolution (idem, je pense qu'en un mois ça devrait être bon).
Tu peux aussi demander la suppression de ces URLs de l'index si tu es très pressé (via Search Console https://www.google.com/webmasters/tools/url-removal) mais il va te falloir un bot car ça se fait URL par URL.
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne
c'est dommage qu'il y est rien de prévu chez google pour ce genre de chose, je dois pas être le seul dans ce cas..
En tout cas merci beaucoup à tous pour ces précieux conseils
La vie est un puzzle dont chacun a une pièce.
🔴 Hors ligne