Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 Parse data dans pagesjaunes.fr impossible ?


#1 2020-12-22 16:55:59

Mention Zenoboy
🥉 Grade : Scout

Auxiliaire
Inscription : 2020-01-10
Messages : 42
Likes : 6

Parse data dans pagesjaunes.fr impossible ?

Hello,
Pour un projet perso je dois scraper les urls de pagesjaunes.fr afin de récuperer ensuite les noms et en faire un fichier de prospection.

Hors je me rends compte que la liste des urls n'apparait pas dans le DOM
Est ce qu'il y a une sécurité pour récupérer les urls de ce site ?
Car impossible pour ma part...

Jai essayé le parse data, puis je suis allez dans le dom pour extraire toutes les urls commencant par https://www.pagesjaunes.fr/pros/ mais dans le DOM cela me dit que ca n'existe pas donc je n'arrive à faire une regex sad

Help ?
Merci et bonnes fetes !
smile
Zenoboy

parse-data.png

0
J'aime ❤️

🔴 Hors ligne

#2 2020-12-23 06:42:25

Mention OncleShu
🥈 Grade : Soldier

Membre du CercleOfficierIngénieur web250likesConsomateur de LiensMembre HospitalierPhilantrope
Inscription : 2018-03-09
Messages : 654
Likes : 355

Développement PHP
intégration Html Css
Adminstration Serveur
Data Base Admin

Re : Parse data dans pagesjaunes.fr impossible ?

Hello, pages jaunes utilise un systeme de protection appele datadome (et surement d’autre) pour proteger son site des scrappeurs. Avec toute les donnees qu’ils mettent a dispo, bcp de monde cherche a scrapper PJ. Je t’invite a aller consulter le site growthhacking.fr il y a enormement de posts a ce sujet et des gars qui sont devenus specialistes tu pourras surement trouver un debut de solution

0
J'aime ❤️

🔴 Hors ligne

#3 2020-12-23 20:15:48

Mention Seoxis
🥇 Grade : Guardian

Membre du Black LaboMembre du CercleOfficierStratège50likes
Lieu : Calais
Inscription : 2014-04-29
Messages : 795
Likes : 89

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Parse data dans pagesjaunes.fr impossible ?

Le parse data est délicat quand le dom change si tu ne maitrises pas

je pense qu'en extractant le dom avec une bonne regex ca devrait fonctionner facilement , dès fois je fais des templates en 30min et je passe 1h à trouver LA bonne regex qui fera toute la différence

après sache que dans le parse data tu peux choisir entre Xpath et CSSelector et dans le Xpath tu as aussi une forme de regex si tu regardes les tutos sur le net

//*[starts-with(@id,'sometext') and contains(@name,'_text')]`\

Tous les chemins mènent à Rome

L'idéal est de bien observer si tu trouves des choses qui ne changent pas (ici l'url en https://www.pagesjaunes.fr/pros/ est une bonne piste) il y en a certainement d'autres

Enjoy !


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

0
J'aime ❤️

🔴 Hors ligne

#4 2020-12-24 06:40:12

Mention chn16000
🥈 Grade : Soldier

Membre du CercleOfficierNarcissiqueStratège100likes1000 messagesMembre HospitalierPhilantrope
Inscription : 2017-04-07
Messages : 1 910
Likes : 162

Marketing
Audit et Analyse
Automatisation Web

Re : Parse data dans pagesjaunes.fr impossible ?

Salut @Seoxis ,

Tu as des exemples de tutos, des références à donner?


Soyez vous-même, les autres sont déjà pris

0
J'aime ❤️

🔴 Hors ligne

#5 2020-12-24 19:06:24

Mention Seoxis
🥇 Grade : Guardian

Membre du Black LaboMembre du CercleOfficierStratège50likes
Lieu : Calais
Inscription : 2014-04-29
Messages : 795
Likes : 89

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Parse data dans pagesjaunes.fr impossible ?

non désolé rien d'autres que ceux que tu trouves sur google


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

0
J'aime ❤️

🔴 Hors ligne

#6 2020-12-25 08:11:00

Mention potache
🥈 Grade : Soldier

Membre du CercleOfficierStratège250likesConsomateur de LiensPhilantrope
Lieu : Grenoble
Inscription : 2020-04-22
Messages : 387
Likes : 253

Content Spinning
Sémantique
Audit et Analyse
Développement Python
Site Web

Re : Parse data dans pagesjaunes.fr impossible ?

Hello !
Il y a un moment que je n'ai pas scrappé PJ mais j'avais de bons résultats avec ParsHub tu pourrais tenter... Par contre il fallait faire une région à la fois ou paramétrer pour que ça change automatiquement. Et je n'ai que la version gratuite donc je relance tous les 200 résultats...:rolleyes:


Mon nouvel outil d'optimisation sémantique : https://thot-seo.fr/ ★★★
Vous pouvez tester gratuitement depuis la home de Thot SEO

0
J'aime ❤️

🔴 Hors ligne

#7 2021-01-07 10:58:52

Mention Zenoboy
🥉 Grade : Scout

Auxiliaire
Inscription : 2020-01-10
Messages : 42
Likes : 6

Re : Parse data dans pagesjaunes.fr impossible ?

Hello
Merci à tous pour vos réponses et bonne année
Du coup j'ai laissé tombé, et j'ai pris un autre logiciel dont j'ai trouvé la cerise sur le web et qui fait parfaitement le job
Je retenterais à l'occaz
PS: j'ai essayé avec le Dom mais c'etait en masqué
@+

0
J'aime ❤️

🔴 Hors ligne

Pied de page des forums