Votre avis pour choisir un crawler massif

Daman · #1 2020-02-26 13:08:28

Salut à tous,

J'aimerais avoir vos retours d'expériences pour choisir un outil avec une grosse capacité de crawl svp.

Pour les projets habituels, j'utilise le plus souvent 2 à 3 outils combinés pour crawler les sites, checker les BL etc, et tout va bien.

Là il est question que je sois sur un gros site (~800k pages)... ça rend les analyses plus... tendues...
Surtout pour sortir un ou deux crawls par mois.

Screaming frog :
soit disant illimité, le problème c'est que le bazar mouline non-stop pendant... j'ai arrêté de calculer pour sortir des fichiers de toute façon ingérables.
=> 800k lignes excel, le PC a crashé ^^

Semrush :
j'utilisais un temps, mais je me suis ensuite détourné de l'outil. Et même l'offre business ne suffirait pas.
Donc avant d'essayer de négocier du sur-mesure, sachant que ce n'est de toute façon pas mon tool préféré...
Quelqu'un a testé sur du gros site avec une offre négociée ?

Oncrawl :
j'avais testé. Pas mal sur beaucoup de points, il ne m'a pas encore totalement convaincu. Pour moi il est plus utile côté annonceur que prestataire.
Faudrait au moins l'offre ultimate... est-ce que certains parmi vous l'utilisent à fond ?

Ahrefs :
jamais pris, j'avais opté pour Seobserver pour l'analyse des KW et BL.
Il pourrait crawler +1 M page, donc ça le ferait.
Des avis sur ce qu'il remonte svp ?

Botify :
la première discussion de prix avec eux (y a un moment déjà) m'a étranglé ^^
Que le client le prenne à la limite OK, mais moi en externe... ouch.

Moz :
j'en étais revenu aussi et franchement j'ai pas du tout suivi leurs fonctionnalités. Et je suis moyennement chaud pour repasser chez eux.
Faudrait l'offre max.. certains s'en servent pour du gros site ici ?

Si vous avez d'autres idées, suggestions ?
Voilà, pour un projet massif, qu'est-ce qui semblerait le plus adapté svp ?

Merci de vos retours

DevForEver · #2 2020-02-26 14:02:06

Salut,

à 800k pages, tu as probablement un système de cache.
Est-il stocké en local ou via un CDN ?

Une solution est de prendre quelques VPS, d'y placer un crawler et d'indexer soi-même le contenu avec un sitemap ou en auto. Il existe des solutions OpenSource ou un rapide DEV.

Quelles informations sont à extraire pour les crawl ?

poulpe_centriste · #3 2020-02-26 14:08:48

Je ne me suis jamais amusé à crawler autant de pages perso, mais ça devrait être dans les cordes de Scrappy, pour ensuite export vers une BDD ou du csv, traitement des données aux petits oignons sans problème. Si tu ne touches pas à Python, tu peux trouver un spécialiste de Scrappy (y'a tout un business autour de ça) et ensuite il n'y a qu'à lancer une ligne de commande.

Par contre faut savoir quelle data tu veux extraire et comment tu veux la traiter ensuite.

Daman · #4 2020-02-26 14:54:34

Merci pour vos retours !

@DevForEver
Pour le cache il faut que je me renseigne / teste justement, logiquement CDN puisque site international (sinon ça craint).
En Opensource pour ça tu t'orienterais sur quoi stp ? Crowl (si oui, je n'ai jamais testé) ?

Concernant les infos à extraire... un peu le max possible malheureusement.
Le site est énorme et en même temps a subit des refontes parfois douteuses côté SEO.
De ce que j'ai pu voir jusque là :
- entre les URLs non indexables massivement
- les problèmes Title / Hn / Meta
- les pages sans contenu
- le maillage interne bancal (genre des liens vers des pages non indexables ; mais pas de liens pour pousser les bonnes)
- les filtres
- les images (beaucoup, beaucoup !) sans Alt...

@Poulpe
Eh oui même souci en effet, je ne suis pas dev / ne touche pas à Python.
Et c'est le genre de client qui veut des graphs bien faits clé en main (ça se comprend).

Donc en fait, il faudrait dans un premier temps faire un état des lieux complet des données à extraire avant même l'audit ; puis chiffrer en dev spé pour avoir ça ?
Et en fait, chaque projet est sur-mesure c'est ça ?

DevForEver · #5 2020-02-26 16:11:48

En fonction du système de cache, une partie du crawl peut être évitée. Par exemple, sur un serveur web qui stocke les pages HTML en local, le volume des pages à crawler est du coup faible.
Je n'ai pas trop d'expérience avec des solutions OpenSource, étant Dev, j'ai tendance à tout coder moi-même, on peut en parler en MP si tu veux.

Charger 30k pages/jour et les stocker n'est pas énorme non plus, c'est une fonction de base.
Ce qui est plus délicat et cher est la création d'un back-office permettant d'extraire les données à analyser, générer des rapports, ...

Daman · #6 2020-02-26 16:28:33

Ok merci, c'est plus clair oui.

Yes c'est ça le souci...
D'une part customiser le crawl / scrap, mais surtout traiter la data pour qu'elle soit à la fois utile pour moi, et claire pour le client.

Sinon un truc tout bête auquel je n'avais pas pensé :
screaming frog sur un dédié, et au besoin faire appel à un Dev pour un script / algo qui va traiter la data.
Un pote fait ça sur de très gros sites pour ses clients et ça tourne. Faut juste mettre le prix dans le serveur pour avoir de la patate.

Je vais d'abord tester ça avant de partir sur du scrapy je pense.
Merci pour vos idées

@DevForEver
Oui, au besoin je te contacterai en MP

poulpe_centriste · #7 2020-02-26 18:15:50

Daman a écrit :

Eh oui même souci en effet, je ne suis pas dev / ne touche pas à Python.
Et c'est le genre de client qui veut des graphs bien faits clé en main (ça se comprend).
Donc en fait, il faudrait dans un premier temps faire un état des lieux complet des données à extraire avant même l'audit ; puis chiffrer en dev spé pour avoir ça ?
Et en fait, chaque projet est sur-mesure c'est ça ?

Je présume que oui (je suis autodidacte et pas dev pro, même si j'ai déjà codé mes propres outil,s parfois avec Scrapy. Du coup je me rend pas vraiment compte de combien ça pourrait te coûter avec un pro ). Il faut effectivement définir ce que tu veux extraire. Le plus dur c'est de rester raisonnable, car du coup tu peux vraiment te faire plaisir.

Tu peux effectivement commencer avec une solution hybride, Python sera parfaitement capable de récupérer la data en sortie de Screaming Frog, la retourner dans tous les sens et te pondre ton rapport en csv, xlsx, ggsheet rapport pdf ou même des slides. Des librairies connues comme Pandas, Jinja2 et éventuellement Flask pourront te permettre d'automatiser tout ça. Et après si tu as plus d'argent ou tu y vois un peu plus clair, tu plug Scrapy.

Dernière modification par poulpe_centriste (2020-02-26 18:16:23)

Daman · #8 2020-02-26 18:19:29

@Poulpe_centriste
Au top merci !

Oui je vais commencer comme ça en effet, puis faire chiffrer par la suite du dev scrapy (on m'a déjà parlé de dev très calés en Ukraine / Russie).
Après je vois ça comme un investissement aussi : si je gagne du temps en automatisant, et en sortant exactement ce que je veux... ça peut valoir le coup

omelhor38 · #9 2021-04-02 17:00:29

hextrakt.com :
déjà testé, j'aimais bien, j'ai arrêter après être passé sur screaming frog
Etait beaucoup moins gourmand que screaming frog ( aujourd'hui je sais pas)

greenflare.io
pas testé , j'en entendu parlé, a priori bon outil de crawl

frcc78 · #10 2021-04-02 17:53:46

J'ai pas trop compris ce que tu voulais faire mais zennoposter ou scrapebox pourrait faire l'affaire...
Avec zenno tu fera ce que tu veux. Avec scrapebox tu pourras utiliser les fonctions présentes qui restent limité. Mais si c'est visiter les pages et récupérer les liens externes ou internes ou le code de la page, scrapebox suffit.
Si c'est pour visiter chaque page et récupérer une donnée et l'enregistrer, zenno pourra t'aider. C'est un logiciel Russe donc tu pourras trouver des Russes pour te faire ton script. Mais faudra aussi payer la licence avec thread illimités (400 euros je crois)

Dernière modification par frcc78 (2021-04-02 17:54:18)

Sylvain · #11 2021-04-02 20:02:39

T'as deux types de crawlers :

- les scrappers comme screaming frog, oncrawl, botify, ils prennent tout un site sans discuter, ils sont soit petite dimension soit chers. Tu peux faire la même chose avec scrappy sans trop de difficulté, il est largement opé jusqu'à quelques millions de pages.

- les vrais crawlers : ils crawlent le web et reconstituent l'info des sites ensuite. Tu peux utiliser scrappy, nutch ou bubbing si tu sais coder, avec les deux derniers c'est no limit si tu es un bon dev avec des grosses infras et une grosse stack technique.
Ensuite, les tools seo comme ahref, majestic, semrush et nous chez Babbar : sauf peut etre pour semrush on a reecrit un crawler maison. Pour donner une idée avec Babbar on crawle 800 millions de pages par jour par tranche de 1800 euros de serveurs en location mensuelle.
Les outils basés sur ces types de crawler ont rarement l'exhaustivité d'un site web car leur but n'est pas de bourriner un site mais plutot de comprendre comment il s'intègre dans le reste du web.

Daman · #12 2021-04-06 15:47:03

Hello,
@frcc78 Pour le coup ça serait hyper long avec zenno non ?
Et c'est plus qu'enregistrer juste une ou deux données, mais les liens internes ; balises ; erreurs...

@Sylvain Super intéressant merci ! Je ne connais pas les "vrais crawlers".
Bon le sujet date et dans le cas de ce projet (que je n'ai pas eu d'ailleurs - merci le covid qui a coupé les budgets) l'aspect trop technique pour un nutch ou bubbing aurait sans doute poser problème : je ne suis pas dev / n'en ai pas un super sous la main pour ça ; le prospect n'était clairement pas au niveau non plus.
Je me serais sans doute tourné vers scrappy + développeur : le besoin était de pouvoir analyser au moins une ou deux fois l'intégralité du site, relever tous les problèmes et tout corriger (et je vois qu'ils n'ont rien corrigé en 1 an...).

Ensuite, clairement si demain je devais revoir un tel projet, oui un outil comme Babbar serait super intéressant et utile : maillage interne ; sémantique...
Là, c'est typiquement le cas d'un gros site qui génère des pages à foison, fait des liens en interne... sur des pages non pertinentes / non optimisées / non indexables. Il en est rempli.

frcc78 · #13 2021-04-06 17:13:04

@Daman
Alors je sais pas car je n'ai pas tout a fait compris ce que tu voulais faire.

Exemple d'utilisation zenno:
Mais par exemple, imaginons que je veux prendre sur le site pagesjaunes les noms et adresses de tous les plombiers de tous les départements.
Il y a une fonction recherche avec un champ département et un champ activité.
J'ai une liste de tout les départements.

je fais un robot qui va entrer un departement + "plombier" dans les bon champs, j'enregistre tous les résultats (les pages) en cliquant sur page suivante et apres je visite les pages une par une et je récupère les infos qui m'interesse que je mets dans un csv par exemple.

Tu peux faire ce que tu veux.

Si c'est pour trouver toutes les pages internes d'un site (si elles sont relier quelques part sur le site (lien interne)) --> scrapebox. Ca sera rapide avec des bons proxies.
J'ai utilisé des fichier d'url de plus de 1 millions. Ca crash pas normalement.

Pour trouver les liens cassé d'un site xenu (gratuit) mais pas possible d'utiliser des proxies avec.

Dernière modification par frcc78 (2021-04-06 17:14:58)

potache · #14 2021-04-06 17:23:25

Ahref les crawls mettent un peu de temps, mais les rapports sont très complets. Vu ton volume de pages il va falloir s'armer de patience mais ça semble faisable selon moi. Tu peux automatiser à interval de temps régulier et derrière tu as pleins de beaux graphiques.

Sinon, je ne sais pas ce que ça vaut, mais je vois souvent Oliver Duffez de WebRankInfo poster sur Linkedin à propos de son tool de crawl couplé à Analytics et Search Console. Si ton contrat revient sur la table tu peux lui poser la question.

Daman · #15 2021-04-08 09:38:38

@frcc78 Oui effectivement Zenno (ça aussi faut que je m'y mette... trop de choses prévues ! ^^) serait excellent pour une certaines utilisation d'extraction de données particulières.
Mais là en l’occurrence, le besoin premier était de pouvoir faire un audit et une analyse complète de tout le bazar sur ~800k URLs :
- pages avec paramètres dans l'URL
- pages sans canonical
- hreflang erroné
- meta en doublon / manquantes / trop longues...
- doublons de balises H1 / ou H1 absente
- liens internes vers URLs non indexables
... y a de tout quoi. C'était un vrai bazar.

Du coup, je verrais plus zenno sur une approche qualitative du contenu :
extrait de données ciblées sur les pages pour analyse par exemple.

@Potache ah je n'y pensais pas du tout au tool d'Olivier Duffez, merci. A l'occase ça peut être intéressant.
Le souci d'Ahref c'est que vu le volume, on serait aussi à du 400€ / mois, comme Oncrawl.
A ce tarif, autant payer un dev...

Mais sinon, sans compétences de développeur, à ce stade l'approche d'un pote avec Screaming frog placé sur un VPS permet déjà d'envoyer du pâté.

Si ce contrat revenait (et avec le budget), alors j'opterais même pour quelque chose d'encore plus puissant comme l'évoque Sylvain, avec l'aide d'un dev.
De façon à analyser régulièrement l'intégralité du site (ils sont du genre à mettre en Prod sans vérifier les régressions ).

🟣 Votre avis pour choisir un crawler massif

#1 2020-02-26 13:08:28

Votre avis pour choisir un crawler massif

#2 2020-02-26 14:02:06

Re : Votre avis pour choisir un crawler massif

#3 2020-02-26 14:08:48

Re : Votre avis pour choisir un crawler massif

#4 2020-02-26 14:54:34

Re : Votre avis pour choisir un crawler massif

#5 2020-02-26 16:11:48

Re : Votre avis pour choisir un crawler massif

#6 2020-02-26 16:28:33

Re : Votre avis pour choisir un crawler massif

#7 2020-02-26 18:15:50

Re : Votre avis pour choisir un crawler massif

#8 2020-02-26 18:19:29

Re : Votre avis pour choisir un crawler massif

#9 2021-04-02 17:00:29

Re : Votre avis pour choisir un crawler massif

#10 2021-04-02 17:53:46

Re : Votre avis pour choisir un crawler massif

#11 2021-04-02 20:02:39

Re : Votre avis pour choisir un crawler massif

#12 2021-04-06 15:47:03

Re : Votre avis pour choisir un crawler massif

#13 2021-04-06 17:13:04

Re : Votre avis pour choisir un crawler massif

#14 2021-04-06 17:23:25

Re : Votre avis pour choisir un crawler massif

#15 2021-04-08 09:38:38

Re : Votre avis pour choisir un crawler massif

Pied de page des forums