Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 Scraping d'e-mails associés à des titres


#1 2017-06-09 15:51:41

Mention scraping_noob
♟️ Grade : Recruit

Disciple
Inscription : 2017-06-09
Messages : 2
Likes : 0

Scraping d'e-mails associés à des titres

Bonjour à tous,

Dans le cadre de mon stage, la première mission qui m'a été confiée est de mettre en place un process de scraping d'adresses mail associées à des titres d'annonces. Je m'explique :

Les clients de mon entreprise sont des recruteurs. Le service proposé est d'aider au recrutement de profils pertinents en facilitant la diffusion d'annonces d'embauche sur différents jobboards. Actuellement, afin d'alimenter nos listes de mailing, nous faisons appel à JobFeed, qui propose de la data en masse associée à d'autres données, notamment des titres de d'annonce. Simplement dit : nous voulons contacter les personnes qui mettent en ligne des offres d'emploi, en récupérant leur mail et le titre de l'annonce, qui sert à personnaliser le mail que nous leur envoyons.

Le but du jeu pour moi serait d'arriver à configurer ScrapeBox pour qu'il puisse sucer les e-mails et les titres associés directement sur les pages, et ainsi permettre l'émancipation de l'entreprise vis-à-vis du fournisseur data. L'un de mes boss m'a dit qu'un autre stagiaire était arrivé à mettre ça en place avec ce soft, j'essaie donc de reproduire la chose.

Je suis débutant avec le logiciel (j'ai commencé hier à vrai dire), donc je ne saisis pas encore les concepts compliqués. J'arrive à extraire des e-mails des pages qui m'intéressent, et à trouver lesdites pages grâce à la génération d'URLs et au crawling. Afin de pouvoir avoir uniquement les adresses mails et les titres de jobs, j'ai pensé à mettre en place un custom grabber, cependant je n'ai même pas réussi à le faire marcher pour récolter des mails sur une page toute simple. Je ne sais pas d'où vient le problème : soit l'outil n'est pas adapté et j'ai mal compris son utilité, soit j'ai mal compris son fonctionnement, ou alors peut être que ma RegEx n'est pas bonne... Je ne sais vraiment pas.

Si l'un d'entre vous a une idée de comment arriver à faire ça, je suis totalement preneur !

Merci énormément wink

0
J'aime ❤️

🔴 Hors ligne

Pied de page des forums