Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 Problème pas banal - Crawl récurrent par Google d'URL tronquées


#1 2022-09-16 21:04:08

Mention Speeder59
🥉 Grade : Scout

AuxiliaireStratège
Inscription : 2022-06-27
Messages : 18
Likes : 9

Netlinking
Rédaction
Audit et Analyse
Sémantique

Problème pas banal - Crawl récurrent par Google d'URL tronquées

Hello à tous !

Je fais appel aux experts de la technique qui pourraient traîner ici tard le soir et auraient le coeur à donner un avis sur un problème qui me titille wink

Je travaille sur le site d'un client (profil TF 40+ et legit - 100k+ sessions/mois) qui n'est pas basé sur un CMS open-source classique mais sur une solution vieillissante et presque "custom" lié à des impératifs clients spécifiques. En regardant les 404 qui poppent dans les statistiques d'exploration de la GSC, je constate un nombre très significatif d'URL crawlées par google qui correspondent à des pages existantes mais amputées de leur fin.

Là ou c'est bizarre, c'est que :
- ce problème ne se produit QUE sur les magasins (près de 100 points de vente)
- ces URL sont d'origine inconnue selon la GSC, ne sont présentes ni dans les backlinks répertoriés par Majestic ou présentes sur le site selon Screaming Frog
- une même page peut-être touchée par plusieurs versions de ce bug. Exemple : (domaine.fr/magasins/magasin-paris-id143.html peut devenir "/magasin-par", le jour 1 "/magasin-pari" le jour 2 ou même /"magasin-paris-1" le jour 3 !
- toutes les URL en 404 crawlées par google sont contenues entre 45 et 55 caractères (pas sûr que cette info soit utile)

Résultat : j'ai 15% de 404 sur le site avec une grande partie liée à ces URL étranges et je ne sais pas comment éradiquer le problème à la racine ... avez-vous une idée SVP ?

Merci d'avance !


"Yesterday you said tomorrow"

0
J'aime ❤️

🔴 Hors ligne

#2 2022-09-17 05:54:42

Mention OncleShu
🥈 Grade : Soldier

Membre du CercleOfficierIngénieur web250likesConsomateur de LiensMembre HospitalierPhilantrope
Inscription : 2018-03-09
Messages : 654
Likes : 355

Développement PHP
intégration Html Css
Adminstration Serveur
Data Base Admin

Re : Problème pas banal - Crawl récurrent par Google d'URL tronquées

hello peut etre faire une analyse de log pour tenter de voir le referer de ces pages ?
pas de sitemap erroné ?

1
J'aime ❤️

🔴 Hors ligne

#3 2022-09-17 11:37:07

Mention Speeder59
🥉 Grade : Scout

AuxiliaireStratège
Inscription : 2022-06-27
Messages : 18
Likes : 9

Netlinking
Rédaction
Audit et Analyse
Sémantique

Re : Problème pas banal - Crawl récurrent par Google d'URL tronquées

Merci de ton retour OncleShu !

J'ai fait configurer un compte Seolyzer sur le site justement et il n'y a jamais aucun referrer sur ces 404 inexpliquées sad Rien non plus du côté du sitemap, et un site:domaine.fr ne renvoie aucune URL de ce type (évidemment).

Le développeur en charge du projet me suggère un problème de parser mal configuré qui génèrerait des URL tronquées, mais je ne vois pas comment GoogleBot pourrait être exposé à ces URL si elles ne sont pas linkées quelque part sur le web ? (auquel cas je les trouveraient probablement sur majestic ?)


"Yesterday you said tomorrow"

0
J'aime ❤️

🔴 Hors ligne

#4 2022-09-19 11:27:02

Mention Manuel
🥉 Grade : Scout

AuxiliaireNarcissiqueStratège100likesConsomateur de LiensPhilantrope
Inscription : 2014-03-31
Messages : 296
Likes : 155

Stratégie
Netlinking Auto
Social Engineering
Sémantique
Site Web

Re : Problème pas banal - Crawl récurrent par Google d'URL tronquées

Speeder59 a écrit :

mais je ne vois pas comment GoogleBot pourrait être exposé à ces URL si elles ne sont pas linkées quelque part sur le web ? (auquel cas je les trouveraient probablement sur majestic ?)

Hello,

Google crawl trés souvent des URL qu'il a en "mémoire", bien qu'elles ne soient linkées nul part.

Je ne vois pas ce que Majestic vient faire dans l' histoire ? smile

Dernière modification par Manuel (2022-09-19 11:27:17)

0
J'aime ❤️

🔴 Hors ligne

#5 2022-09-19 12:07:28

Mention Speeder59
🥉 Grade : Scout

AuxiliaireStratège
Inscription : 2022-06-27
Messages : 18
Likes : 9

Netlinking
Rédaction
Audit et Analyse
Sémantique

Re : Problème pas banal - Crawl récurrent par Google d'URL tronquées

Salut Manu et merci !

La question des URL en mémoire est intéressante effectivement car c'est un site qui a du vécu mais je n'ai pas été en mesure de trouver où GoogleBot aurait pu trouver ces liens. Après c'est une hypothèse intéressante car les 404 n'ont pas été traitement depuis longtemps sur ce client que je récupère, mais je ne vois pas comment elles peuvent être autant mangées maintenant ! (c'est plusieurs dizaines d'occurrences par jour)

Pour Majestic : je regardais pour voir si un site externe ne faisait pas des liens tronqués pour une raison x ou y. J'ai utilisé majestic pour voir toute la liste de backlinks mais je pourrais probablement croiser avec Semrush ou ahrefs smile


"Yesterday you said tomorrow"

0
J'aime ❤️

🔴 Hors ligne

Pied de page des forums