Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 Quelle méthode/outil pour scrapping massif ?


#1 2017-05-04 17:42:55

Mention arglow
♟️ Grade : Recruit

DiscipleForce PolyvalenteStratège
Inscription : 2014-01-06
Messages : 23
Likes : 0

Sémantique
Développement PHP
Marketing
Audit et Analyse

Quelle méthode/outil pour scrapping massif ?

Bonjour à tous,

Je suis en train de travailler sur un projet à la limite de la big data et une grosse partie des données va provenir du scrapping de site web (pas de google ou moteur de recherche). L'idée étant de faire des statistiques avec toutes ces données.

L'idée est de scrapper assez régulièrement (1 fois par semaine) quelques choses comme 100 000 urls différentes appartenant à plusieurs gros sites.

Je suis en train de réfléchir à la méthodologie la plus pérenne pour y arriver (ne pas se faire bloquer par les sites en question).

Je connais bien le scrapping à l'aide de php quand ce n'est pas fait massivement, toutefois massivement je ne sais pas comment m'y prendre.

La seule solution est-elle de  louer plusieurs dizaines/centaines de proxy et faire tourner mon scrapper avec des timer et alternances des proxy ?

Y a t'il une meilleure méthode ?

J'aimerai pouvoir échanger avec vous sur cette problématique/sujet.

Sachant que le langage de programmation que je maîtrise le mieux c'est php.

Merci pour votre avis.

Bonne soirée
Florian

0
J'aime ❤️

🔴 Hors ligne

#2 2017-05-04 19:00:17

Mention davidc1
🥉 Grade : Scout

Auxiliaire1000 messages
Lieu : La colle sur Loup
Inscription : 2013-09-17
Messages : 1 122
Likes : 2

Re : Quelle méthode/outil pour scrapping massif ?

100K c'est pas tant que ça, ça se trouve ça passe sans proxy suivant les sites...
php va bien pour ça...

0
J'aime ❤️

🔴 Hors ligne

#3 2017-05-04 23:05:05

Mention Jaffaar
🥇 Grade : Guardian

AdminMembre du Black LaboMembre du CercleOfficierForce PolyvalenteIngénieur webKilluavie1000likesConsomateur de Liens1000 messagesMembre HospitalierPhilantrope
Lieu : Consultant SEO / WEB
Inscription : 2012-06-01
Messages : 8 406
Likes : 1316

Développement PHP
Développement JS
Networking SEO
Social Engineering

Re : Quelle méthode/outil pour scrapping massif ?

davidc1 a écrit :

100K c'est pas tant que ça, ça se trouve ça passe sans proxy suivant les sites...
php va bien pour ça...

+1


Comment Ranker ?
Nouveauté : Ninja Web Pro Pack copies limitées !
Ebook : Ninjalinking 2022 (-25% : labo25e)           
Conseils stratégiques ou techniques ? ( Skype : jaffaarbh )

0
J'aime ❤️

🟢 En ligne

#4 2017-05-05 08:06:07

Mention Seoxis
🥇 Grade : Guardian

Membre du Black LaboMembre du CercleOfficierStratège50likes
Lieu : Calais
Inscription : 2014-04-29
Messages : 794
Likes : 88

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

Salut arglow

les proxys ce n'est vraiment pas utile s'il n'y a aucun risque de ban (au pire tu testes sans et si tu rencontres des erreurs tu avises)

après dans l'idéal c'est de répartir les urls par domaine (faire un random) plus tu auras de domaines plus ça sera efficace

ca évite d'avoir 50 threads sur un site puis 50 sur un autre

--------------

Concernant les logiciels , zennoposter le fait facilement (c'est l'occasion d'apprendre à l'utiliser)

sinon le top reste d'apprendre python (pas trop compliqué par rapport au php) et ca te permettra de spécifier les champs qui t'intéresse

Faut se motiver , au final quand on fait le point c'est dingue le nombre d'heures qu'on peut passer à chercher un logiciel qui répond à nos besoins alors qu'on aurait mis moins de temps à le faire nous même

Enjoy !


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

0
J'aime ❤️

🔴 Hors ligne

#5 2017-05-05 09:04:45

Mention arglow
♟️ Grade : Recruit

DiscipleForce PolyvalenteStratège
Inscription : 2014-01-06
Messages : 23
Likes : 0

Sémantique
Développement PHP
Marketing
Audit et Analyse

Re : Quelle méthode/outil pour scrapping massif ?

Salut à tous,

Merci pour vos réponses.

superframboise => je vais regarder ça. Merci

davidc1 => 100k par semaine ça fait plus de 400k requêtes par mois réparti sur 3 sites cela fait 133 000 requêtes par site. Si on rapporte cela par jour cela fait 4 433 requêtes par site par jour. Se qui commence à faire... Et je ne suis pas certain que je ne dois pas dépasser les 100k par semaine.

En fait, ce dont j'ai peur c'est que mon système doit faire cela de façon régulière et massive sur des gros sites immobilier, automobile, emploi sur des calculs de prix. Je pense que ces sites sont protégés. Et je voudrais pérenniser le système, pour pas avoir de problème tous les x matins.
J'ai du mal à imaginer qu'un LeBonCoin ou lacentrale.fr n'est pas de protection/ban ip.

Mais vous avez raison faut que je teste.

Seoxis => donc si je comprends, l'idée et d'alterner les requêtes sur les différents sites pour ne pas avoir trop de requêtes d'un coup sur le même site :

- 10 sur site 1
- 10 sur site 2
- 10 sur site 3

Et on revient au site 1. C'est bien cela l'idée ?

Merci à tous de votre aide et vos conseils.

Florian

0
J'aime ❤️

🔴 Hors ligne

#6 2017-05-05 09:12:36

Mention Seoxis
🥇 Grade : Guardian

Membre du Black LaboMembre du CercleOfficierStratège50likes
Lieu : Calais
Inscription : 2014-04-29
Messages : 794
Likes : 88

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

oui il vaut mieux 10 sur les 3 sites que 30 sur le même , le top aurait été d'avoir plus de site pour répartir la charge mais bon smile

après si tu utilises des proxys tes perf dépendront de tes proxys (nombre et vitesse)

à titre d'exemple pour scraper instagram j'arrivais à scraper 100 000 urls /h avec zenno j'utilisais 6 000 proxys dédiés


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

0
J'aime ❤️

🔴 Hors ligne

#7 2017-05-05 09:41:10

Mention arglow
♟️ Grade : Recruit

DiscipleForce PolyvalenteStratège
Inscription : 2014-01-06
Messages : 23
Likes : 0

Sémantique
Développement PHP
Marketing
Audit et Analyse

Re : Quelle méthode/outil pour scrapping massif ?

D'accord.

Ah oui énorme volume yikes.

Juste pour avoir un ordre d'idée (ou dit moi en MP si tu préfères) pour ce volume de proxy faut compter un budget de combien ? car j'ai vu chez buyproxies que les 100 dedicated proxies sont à 150$/mois.

Tu arrivais à trouver autant de proxy français ou on s'en moque ?

Merci de tes réponses Seoxis.

Flo

0
J'aime ❤️

🔴 Hors ligne

#8 2017-05-05 15:41:55

Mention Seoxis
🥇 Grade : Guardian

Membre du Black LaboMembre du CercleOfficierStratège50likes
Lieu : Calais
Inscription : 2014-04-29
Messages : 794
Likes : 88

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

tu peux avoir 256 proxys dédiés FR si tu as un serveur dédié (et tout ça gratuitement)

à toi de te monter une ferme de serveur wink

après il y a d'autres techniques mais bon c'est plus underground lol

t'es un fou de penser que je les achète chez buyproxies


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

0
J'aime ❤️

🔴 Hors ligne

#9 2017-06-20 13:20:38

Mention NicolasWeb
🥈 Grade : Soldier

Membre du CercleOfficierStratège100likes1000 messages
Lieu : Besançon (France)
Inscription : 2015-09-30
Messages : 1 063
Likes : 180

Rédaction
Sémantique
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

Vu le volume on peut tenter de passer par Tor et de changer d'IP quand on est bloqué. On doit arriver à passer dans les 4000 urls sur une petite machine chaque jour (pas testé un tel volume mais je le tenterais).

0
J'aime ❤️

🔴 Hors ligne

#10 2017-06-20 15:20:37

Mention elyard
🥉 Grade : Scout

Auxiliaire
Inscription : 2017-04-20
Messages : 266
Likes : 0

Re : Quelle méthode/outil pour scrapping massif ?

Sur le forum, vous avez une offre pour des vpn ou proxy qui tourne régulièrement ainsi pas de soucis de blocage

0
J'aime ❤️

🔴 Hors ligne

#11 2017-06-25 14:37:10

Mention elyard
🥉 Grade : Scout

Auxiliaire
Inscription : 2017-04-20
Messages : 266
Likes : 0

Re : Quelle méthode/outil pour scrapping massif ?

Ok. J'espère que tu feras un retour

0
J'aime ❤️

🔴 Hors ligne

#12 2017-06-25 15:23:52

Mention davidc1
🥉 Grade : Scout

Auxiliaire1000 messages
Lieu : La colle sur Loup
Inscription : 2013-09-17
Messages : 1 122
Likes : 2

Re : Quelle méthode/outil pour scrapping massif ?

la maj de hma pro casse vraiment les pieds pour du bulk rapide...

0
J'aime ❤️

🔴 Hors ligne

#13 2017-06-27 14:07:19

Mention elyard
🥉 Grade : Scout

Auxiliaire
Inscription : 2017-04-20
Messages : 266
Likes : 0

Re : Quelle méthode/outil pour scrapping massif ?

D'accord merci pour ton retour.

0
J'aime ❤️

🔴 Hors ligne

#14 2017-06-27 15:36:07

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 8

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

Pour la techno, effectivement pas si massif que ça, et même si c'était massif php en multhithread il cartone bien, tu peux monter à 100 scrap/secondes.

Après fait tourner les UA, pour les proxies vu que tu scrapp pas google, tu peux essayer de faire tourner des proxies gratuites.

0
J'aime ❤️

🔴 Hors ligne

#15 2017-06-27 16:14:17

Mention Seoxis
🥇 Grade : Guardian

Membre du Black LaboMembre du CercleOfficierStratège50likes
Lieu : Calais
Inscription : 2014-04-29
Messages : 794
Likes : 88

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

récemment j'ai testé Dataiku et la possibilité d'y mettre du code python pour scraper est terrible cool

sinon j'ai acheté aussi Web Data Extractor Pro pour le tester et il est assez sympa aussi dans son genre


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

0
J'aime ❤️

🔴 Hors ligne

Pied de page des forums