Vous n'êtes pas identifié(e).
Salut et bonne année à tous !
Ayant acquis récemment Screaming Frog Log Analyser et ayant un site ecommerce d'un client avec beaucoup de pages (80 000 articles différents) à optimiser, je me demande... comment m'y prendre ?
Parce que j'ai souvent vu des phrases comme "c'est génial l'analyse de log, tu vois tout, tu vois quand GoogleBot passe, du coup tu peux l'optimiser..." mais je n'ai pas trop vu d'articles sur une sorte de méthodologie de l'analyse de logs.
Au niveau de l'outil en lui-même, il est simple d'utilisation, c'est pas le soucis.
C'est vraiment sur la façon de s'y prendre, qu'est-ce qu'il faut concrètement chercher et ce qu'on peut en déduire.
Si vous avez des idées ou des articles là dessus que vous avez vu... à votre bon coeur m'sieurs dames
🔴 Hors ligne
en gros une page qui est accessible en 1 clic (genre depuis la home) sera plus crawlé qu'une page qui se situe à 5 clics de la home
donc en gros avec l'analyse de log on cherche les pages peu crawlé pour voir si elles ne sont pas trop loin de la home (même si c'est faisable avec un crawler)
après tout dépend de tes besoins , tu peux traquer les visiteurs pour connaitre les catégories/pages qui leur plaisent (et inversement)
tu peux analyser les referer , isoler les robots générateur de fausses visites
tu peux voir les erreurs 404 , les images ou fichiers manquants
tu peux voir si quelqu'un essaye de te pirater (masse connexion sur l'admin)
et j'en passe .......
Les logs c'est bien uniquement si tu sais t'en servir (et que tu as l'outil pour ........)
perso je préfère utiliser kibana pour analyser les logs
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
1ere chose que j'ai faite avec de l'analyse de logs :
- regarder quels status code rencontrait google (et là surprise, majorité de 404 pr un site )
- regarder combien de hits il fait par jour
- regarder combien de pages uniques il visite
- regarder ca par type de page, et du coup, par rapport à ton crawl, tu peux voir si tout est visité ou pas
- regarder combien il met de temps à visiter une nouvelle page, etc.
Ensuite si tu as un crawl, regarder le ratio de pages visitées par google selon le niveau de profondeur, etc.
🔴 Hors ligne
Tu croises logs et analytics et ça te donne les pages actives pour le bot seulement, pour l'humain seulement, et pour les deux.
Tant va la loutre à l'eau qu'à la fin elle se mouille...
🔴 Hors ligne
Une méthodogie sympa :
Tu prends 2 semaines de logs
Tu prends toutes les pages de ton site, tu compte les pages qui sont crawlé sur les deux semaines en partant du principe qu'une page pas crawlé en deux semaine à peu de chance de se positionner sur des terme un peu compétitif.
Tu prends les visites aussi pour chaque pages.
Tu catégorise tes urls par pattern tu récupère aussi le nombre de pages et de crawl par page.
Tu récupère aussi le PRI pour chaque cat.
Exemple fiche produit, guides d'achat.
Pour chaque cat tu te dis : Ok tel cat génère masse de traffic à mort et pourtant on a un taux de crawl que de 20% -> Donc potentiel énorme alors j'améliore le maillage pour monter le taux de crawl.
Tel cat rapport aucun traffic pourtant ça bouffe tout le crawl : Réfléchir à bloquer ces pages aux robots pour monter le crawl sur les catégories importante d'urls. Pareil si ça bouffe du pagerank, voir si tu peux dégager les liens ou les obfusquer pour les envoyer là ou est le potentiel. Attention si c'est des pages de contenu unique qui sont sur le papier censé avoir du potentiel, pousser l'analyse pour comprendre le flop, il y a peut être juste quelque ajustement à faire pour les faire décoller (genre title/h1). Ne surtout pas bloquer du contenu unique sur un coup de tête quoi.
L'idée de tout ça c'est d'optimiser crawl budget et PRI.
Ca permet d'ajuster le maillage selon ton potentiel maintenant il y a les tâches plus opérationnels genre code de réponses etc.. comme le disait @razbithume .
🔴 Hors ligne
Pourquoi les soft d'analyze de log coute aussi cher par contre? je ne comprend pas
🔴 Hors ligne
Super, merci à tous pour vos différentes idées qui vont m'inspirer la semaine prochaine quand je vais plonger là-dedans.
Je viendrai poster ici mes découvertes (en espérant que j'en fasse plein !).
Question bête @Mitsu : par PRI tu veux dire PageRank ? (pourquoi I ? ). Comme à un autre endroit tu as écrit pagerank en toutes lettres du coup j'ai un doute.
🔴 Hors ligne
@ciboulette : je pense qu'il y a un marché trop petit (par rapport à des outils plus utilisés par tous les SEO) et que du coup ils sont obligés de les mettre assez cher pour que ce soit rentable. Parce que c'est vrai que c'est pas des softs hyper durs à faire non plus donc ce n'est pas leur complexité qui justifie le prix, d'où mon hypothèse.
🔴 Hors ligne
Pourquoi les soft d'analyze de log coute aussi cher par contre? je ne comprend pas
Ils sont pour certains trop chers, mais la plupart sont abordables au final. En revanche, ce qui est couteux pour les dév de ces outils, c'est la multiplicité des cas d'exception pour les formats d'entrée. On a un outil comme ça qu'on vend "sous le manteau" et pour l'instant, sur 10 clients, on a eu 4 types de logs différents. A chaque fois il faut redéfinir l'interface d'entrée, et ça a un coût.
En fait, contrairement à ce que l'on croit, les logs apache sont loin d'être le seul type de logs utilisés ^^
Tant va la loutre à l'eau qu'à la fin elle se mouille...
🔴 Hors ligne
Ah ok, merci !
Mais tu le calcules avec quoi le PRI ? Je n'ai pas vu ça dans les outils de Crawl ou Log de Screaming Frog par exemple.
🔴 Hors ligne
Ah ok, merci !
Mais tu le calcules avec quoi le PRI ? Je n'ai pas vu ça dans les outils de Crawl ou Log de Screaming Frog par exemple.
Gephy ou outil propriétaire. Attention avec Gephy, la téléportation n'est prise en compte qu'en rajoutant un graphe disjoint aléatoire, et la gestion du nofollow demande du travail sur la donnée d'entrée.
Tant va la loutre à l'eau qu'à la fin elle se mouille...
🔴 Hors ligne
Ah ok, merci. Je n'utilise pas encore Gephy, donc je vais devoir me passer du PRI...
🔴 Hors ligne