Vous n'êtes pas identifié(e).
Pages :: 1
Hello,
Pour un projet perso je dois scraper les urls de pagesjaunes.fr afin de récuperer ensuite les noms et en faire un fichier de prospection.
Hors je me rends compte que la liste des urls n'apparait pas dans le DOM
Est ce qu'il y a une sécurité pour récupérer les urls de ce site ?
Car impossible pour ma part...
Jai essayé le parse data, puis je suis allez dans le dom pour extraire toutes les urls commencant par https://www.pagesjaunes.fr/pros/ mais dans le DOM cela me dit que ca n'existe pas donc je n'arrive à faire une regex
Help ?
Merci et bonnes fetes !
Zenoboy
🔴 Hors ligne
Hello, pages jaunes utilise un systeme de protection appele datadome (et surement d’autre) pour proteger son site des scrappeurs. Avec toute les donnees qu’ils mettent a dispo, bcp de monde cherche a scrapper PJ. Je t’invite a aller consulter le site growthhacking.fr il y a enormement de posts a ce sujet et des gars qui sont devenus specialistes tu pourras surement trouver un debut de solution
🔴 Hors ligne
Le parse data est délicat quand le dom change si tu ne maitrises pas
je pense qu'en extractant le dom avec une bonne regex ca devrait fonctionner facilement , dès fois je fais des templates en 30min et je passe 1h à trouver LA bonne regex qui fera toute la différence
après sache que dans le parse data tu peux choisir entre Xpath et CSSelector et dans le Xpath tu as aussi une forme de regex si tu regardes les tutos sur le net
Tous les chemins mènent à Rome
L'idéal est de bien observer si tu trouves des choses qui ne changent pas (ici l'url en https://www.pagesjaunes.fr/pros/ est une bonne piste) il y en a certainement d'autres
Enjoy !
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
🔴 Hors ligne
non désolé rien d'autres que ceux que tu trouves sur google
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
Hello !
Il y a un moment que je n'ai pas scrappé PJ mais j'avais de bons résultats avec ParsHub tu pourrais tenter... Par contre il fallait faire une région à la fois ou paramétrer pour que ça change automatiquement. Et je n'ai que la version gratuite donc je relance tous les 200 résultats...:rolleyes:
Mon nouvel outil d'optimisation sémantique : https://thot-seo.fr/ ★★★
Vous pouvez tester gratuitement depuis la home de Thot SEO
🔴 Hors ligne
Hello
Merci à tous pour vos réponses et bonne année
Du coup j'ai laissé tombé, et j'ai pris un autre logiciel dont j'ai trouvé la cerise sur le web et qui fait parfaitement le job
Je retenterais à l'occaz
PS: j'ai essayé avec le Dom mais c'etait en masqué
@+
🔴 Hors ligne
Pages :: 1