Vous n'êtes pas identifié(e).
Pages :: 1
Hello,
ça fait un bail que je n'ai pas posté, c'est l'occasion qui fait le larron, donc acte
J'ai une liste de +800 profils Linkedin au format Excel (Colonne A = urls vers les profils Linkedin).
Je souhaite pour chacun de ces profils scraper : le Prénom, le Nom, la fonction ("développeur fullstack" par exemple), le poste actuel, l'employeur (la boite chez qui la personne travaille), la localisation.
J'ai tenté avec Seotoolsforexcel avec Xpath, impossible, Linkedin bloque mes appels.
Idem avec Screaming Frog.
Je ne suis qu'un bidouilleur et ne sais pas coder mais en revanche je suis curieux, et je "bidouille" : auriez-vous une solution qui permette de scraper donc tout en levant les blocages de Linkedin ?
Merci !
🔴 Hors ligne
Hello,
J'ai tenté avec Seotoolsforexcel avec Xpath, impossible, Linkedin bloque mes appels.
Idem avec Screaming Frog.
Des fois, il suffit de temporiser les requêtes, de varier les IP/les UserAgent pour contourner le blocage.
As-tu une idée de la manière dont Linkedin détecte tes appels ?
🔴 Hors ligne
Hello,
nope, mais en allant sur https://www.growthhacking.fr/t/le-scraping-sur-linkedin-est-il-mort/13496 , tu te rends compte que Linkedin mène depuis 2 ans une politique dure contre le scrape de ses données...
Je ne suis pas un techos, mais apparemment il y a une notion de navigateur headless, plus d'autre prérequis qui me dépasse.
Je suis en train de tester d'autre solutions payantes, il y a entre autre :
- https://linkedhelper.com/
- https://phantombuster.com/api-store/3112/linkedin-profile-scraper
- etc
Il reste également la solution que je n'ai pas testée, car je ne m'en suis jamais servi, il faudrait que j'y songe à l'utiliser mais aussi à me former...
🔴 Hors ligne
un autre membre en parlait il y qques jours, il est quasiment impossible de bloquer le scrapping sur un site.
C'est comme un cambrioleur, tu peux pas l’empêcher d'entrer dans ton appart, par contre, tu peux lui rendre la vie difficile pour qu'il aille chez le voisin
Pour en revenir à Linkedin, des tests que j'ai pu faire, il y a surtout un filtre sur IP (3 requêtes possibles/IP). Avec un pool de proxy, y a moyen de récupérer une 50ème de profil par jour.
T'as pas un dev sous la main ?
🔴 Hors ligne
Oui je pense que le problème vient clairement du fait que je n'utilise pas de proxies, au bout de la 2ème tentative l'ensemble de mes appels est bloqué, alors qu'à la 1ère tentative j'obtenais qq résultats.
Sinon, j'ai pas trouvé le thread dont tu parles sur le forum.
🔴 Hors ligne
Oui je pense que le problème vient clairement du fait que je n'utilise pas de proxies, au bout de la 2ème tentative l'ensemble de mes appels est bloqué, alors qu'à la 1ère tentative j'obtenais qq résultats.
Le filtrage par IP est le premier rempart que l'on met en place pour filtrer les bots. En général, la localisation de l'IP doit être la même que la langue demandée par le navigateur. Du coup, il est préférable de prendre des proxies localisés dans une région francophone (France, Suisse, Canada).
J'ai vu qu'ils ont supprimé le cache de Google, il doit y avoir d'autres filtres. Si t'es pas trop pressé, une 50ème de profil / jour est jouable.
Sinon, j'ai pas trouvé le thread dont tu parles sur le forum.
http://scripts-seo.com/topic-10797-courrier-avocat-droit-image-page-3.html#p104004
🔴 Hors ligne
🔴 Hors ligne
iMacros peut faire le job mais ça sera un peu long (même si 100% automatisé)
Sinon Zenno +1
Si c'est juste une liste que tu as c'est jouable. Si tu veux scraper du random ça devient plus chiant oui. A une époque on pouvait aller scraper le cache de google pour les profils, mais ça c'était avant
Dernière modification par tim (2019-03-01 08:13:50)
🔴 Hors ligne
Pages :: 1