Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 404 - CRAWL d'URL inexistantes


#1 2024-05-14 12:34:20

Mention Renorcht
🥉 Grade : Scout

Auxiliaire
Inscription : 2018-08-27
Messages : 65
Likes : 2

404 - CRAWL d'URL inexistantes

Bonjour tout le monde,
Je me retrouve confronté à un souci que je vais essayer d'expliquer de manière claire, car au final le problème est pénible à expliquer.
J'ai un site (environ 120k pages) qui s'appuie sur une API pour avoir un catalogue (prenons l'exemple des pokémons).
Les pages de mes pokémons n'existent pas vraiment elles sont générées par mon CMS en Laravel à la volée (Si je vais dans Pages->Tortank elle n'existe pas).
Le site ranke bien, les visites sont là, mais voilà j'ai un souci de 404.
Dans la Search console j'ai un gros volume de 404 (+10k) lié à un crawl de google bot sur des URL qui n'existent pas (multilingue) par exemple :
FR : www.pokestars.com/fr/pokemon/eau/force/nomdupokemon - Ici tout va bien MAIS...
en anglais l'URL devrait être : www.pokestars.com/en/pokemon/water/force/pokemonname alors que dans la GSC j'ai des URL type : www.pokestars.com/en/pokemon/eau/force/nomdupokemon qui forcément renvoient des 404 car ces URL sont inaccessibles.

Dans mon sitemap, ces URL n'existent pas, tout est OK de mon côté mais je ne comprends pas comment cela est possible.

Vraiment avez-vous une idée, car ça commence à me rendre fou !
J'ai pris cet exemple car je ne souhaite pas dévoiler le site ni la thématique, j'espère que vous ne m'en voudrez pas !

1000 mercis à qui voudra bien m'aider !


Personne n'échappe à son tarif, pas même moi.

0
J'aime ❤️

🔴 Hors ligne

#2 2024-05-14 13:26:23

Mention Sogliath
🥈 Grade : Soldier

Membre du CercleOfficierStratège500likesConsomateur de LiensMembre HospitalierPhilantrope
Inscription : 2019-12-06
Messages : 943
Likes : 500

Adminstration Serveur
Automatisation Web
Audit et Analyse
Netlinking Auto

Re : 404 - CRAWL d'URL inexistantes

Spontanément j'aurais envie de te dire de suivre ces pistes :

- Vérifier tes balises hreflang :

<link rel="alternate" href="http://www.pokestars.com/en/pokemon/water/force/pokemonname" hreflang="en" />
<link rel="alternate" href="http://www.pokestars.com/fr/pokemon/eau/force/nomdupokemon" hreflang="fr" />

- Contrôler qu'il n'y ait pas de directive bloquantes dans ton robots.txt (pas lié directement mais ça mange pas de pain de contrôler) :

User-agent: *
Disallow: /fr/pokemon/eau/force/nomdupokemon
Disallow: /en/pokemon/eau/force/nomdupokemon

- Contrôler les logs système

- Contrôler tes BL

En attendant tu peux mettre en place des redirection 301, ça ne règlera pas le problème en amont mais ça évitera les 404 :

Route::get('/en/pokemon/eau/force/nomdupokemon', function() {
    return redirect('/en/pokemon/water/force/pokemonname', 301);
});
0
J'aime ❤️

🔴 Hors ligne

#3 2024-05-15 07:26:53

Mention Daman
🥉 Grade : Scout

AuxiliaireStratège100likesConsomateur de Liens
Lieu : Alsace
Inscription : 2019-07-29
Messages : 346
Likes : 123

Audit et Analyse
Sémantique
Marketing

Re : 404 - CRAWL d'URL inexistantes

D'accord avec @Sogliath, surtout pour les hreflang, c'est un classique.

Aussi, contrôler :
- balise canonical => peut-être que la version EN a une canonical erronée (très fréquent aussi ça)
- règle de ré-écriture d'URLs pour la version EN
- menu pour switcher les langues => selon la techno, le module... Y a franchement tout et n'importe quoi possible comme bug. Ton menu vers l'EN fait peut-être un lien vers la page version EN, avec des paramètres / redirections / réécritures...
- que tu aies un seul sitemap, et pas un doublon généré à la volé justement

Dernière piste : tu as fait un crawl intégral du site ?
Vérifie qu'il n'y ait pas un lien relatif qui perturbe tout.
Comme tes URLs sont générées à la volée (là on n'a pas tout le détail de comment c'est développé... donc j'émets des hypothèses) peut-être qu'un seul mauvais lien interne crée une version dupliquée "FR" sur une base "EN".
Ça peut paraître capillotracté, mais j'ai déjà vu un truc similaire.

Dernière modification par Daman (2024-05-15 07:31:07)

0
J'aime ❤️

🔴 Hors ligne

#4 2024-05-16 08:32:12

Mention Renorcht
🥉 Grade : Scout

Auxiliaire
Inscription : 2018-08-27
Messages : 65
Likes : 2

Re : 404 - CRAWL d'URL inexistantes

Merci pour ton retour @Sogliath.
Je vais regarder cela. Pour ce qui est de contrôler les logs systèmes, tu parles des logs serveurs ? Si oui, tu passes par quels outils pour cela, car le fichier brut est dur à digérer ! smile
Log File Analyser de Screaming Frog ?

Sogliath a écrit :

Spontanément j'aurais envie de te dire de suivre ces pistes :

- Vérifier tes balises hreflang :

<link rel="alternate" href="http://www.pokestars.com/en/pokemon/water/force/pokemonname" hreflang="en" />
<link rel="alternate" href="http://www.pokestars.com/fr/pokemon/eau/force/nomdupokemon" hreflang="fr" />

- Contrôler qu'il n'y ait pas de directive bloquantes dans ton robots.txt (pas lié directement mais ça mange pas de pain de contrôler) :

User-agent: *
Disallow: /fr/pokemon/eau/force/nomdupokemon
Disallow: /en/pokemon/eau/force/nomdupokemon

- Contrôler les logs système

- Contrôler tes BL

En attendant tu peux mettre en place des redirection 301, ça ne règlera pas le problème en amont mais ça évitera les 404 :

Route::get('/en/pokemon/eau/force/nomdupokemon', function() {
    return redirect('/en/pokemon/water/force/pokemonname', 301);
});

Personne n'échappe à son tarif, pas même moi.

0
J'aime ❤️

🔴 Hors ligne

#5 2024-05-16 08:53:31

Mention Renorcht
🥉 Grade : Scout

Auxiliaire
Inscription : 2018-08-27
Messages : 65
Likes : 2

Re : 404 - CRAWL d'URL inexistantes

Hello @Daman, merci pour ton retour !
Je regarde aussi !

Daman a écrit :

D'accord avec @Sogliath, surtout pour les hreflang, c'est un classique.

Aussi, contrôler :
- balise canonical => peut-être que la version EN a une canonical erronée (très fréquent aussi ça)
- règle de ré-écriture d'URLs pour la version EN
- menu pour switcher les langues => selon la techno, le module... Y a franchement tout et n'importe quoi possible comme bug. Ton menu vers l'EN fait peut-être un lien vers la page version EN, avec des paramètres / redirections / réécritures...
- que tu aies un seul sitemap, et pas un doublon généré à la volé justement

Dernière piste : tu as fait un crawl intégral du site ?
Vérifie qu'il n'y ait pas un lien relatif qui perturbe tout.
Comme tes URLs sont générées à la volée (là on n'a pas tout le détail de comment c'est développé... donc j'émets des hypothèses) peut-être qu'un seul mauvais lien interne crée une version dupliquée "FR" sur une base "EN".
Ça peut paraître capillotracté, mais j'ai déjà vu un truc similaire.


Personne n'échappe à son tarif, pas même moi.

0
J'aime ❤️

🔴 Hors ligne

#6 2024-05-16 08:54:36

Mention Renorcht
🥉 Grade : Scout

Auxiliaire
Inscription : 2018-08-27
Messages : 65
Likes : 2

Re : 404 - CRAWL d'URL inexistantes

Bon, visiblement tout est ok de ce que j'ai pu en voir, il semblerait que google garde en cache mes urls (celles avant que je fasse toutes les modifs).

Du coup avez-vous une solution pour lui dire de "vider son cache" ?

Merci


Personne n'échappe à son tarif, pas même moi.

0
J'aime ❤️

🔴 Hors ligne

#7 2024-05-16 09:49:26

Mention Sogliath
🥈 Grade : Soldier

Membre du CercleOfficierStratège500likesConsomateur de LiensMembre HospitalierPhilantrope
Inscription : 2019-12-06
Messages : 943
Likes : 500

Adminstration Serveur
Automatisation Web
Audit et Analyse
Netlinking Auto

Re : 404 - CRAWL d'URL inexistantes

Remove cached URLs with Google Search Console : https://www.conductor.com/academy/googl … ed-content

0
J'aime ❤️

🔴 Hors ligne

#8 2024-05-16 11:54:28

Mention Renorcht
🥉 Grade : Scout

Auxiliaire
Inscription : 2018-08-27
Messages : 65
Likes : 2

Re : 404 - CRAWL d'URL inexistantes

Merci pour le lien, je viens de faire la demande sur une langue à faible trafic, car je dois bien avouer que j'ai un peu la goutte au front ! ^^


Personne n'échappe à son tarif, pas même moi.

0
J'aime ❤️

🔴 Hors ligne

Pied de page des forums