Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

Annonce

Progressez rapidement avec notre gamme de formations SEO Skills en ligne | Automatisez facilement votre production de contenu de qualité avec le SEO QUARTZ !

#1 2017-05-04 17:42:55

Mention arglow
Recruit
Inscription : 2014-01-06
Messages : 23

Sémantique
Développement PHP
Marketing
Audit et Analyse

Quelle méthode/outil pour scrapping massif ?

Bonjour à tous,

Je suis en train de travailler sur un projet à la limite de la big data et une grosse partie des données va provenir du scrapping de site web (pas de google ou moteur de recherche). L'idée étant de faire des statistiques avec toutes ces données.

L'idée est de scrapper assez régulièrement (1 fois par semaine) quelques choses comme 100 000 urls différentes appartenant à plusieurs gros sites.

Je suis en train de réfléchir à la méthodologie la plus pérenne pour y arriver (ne pas se faire bloquer par les sites en question).

Je connais bien le scrapping à l'aide de php quand ce n'est pas fait massivement, toutefois massivement je ne sais pas comment m'y prendre.

La seule solution est-elle de  louer plusieurs dizaines/centaines de proxy et faire tourner mon scrapper avec des timer et alternances des proxy ?

Y a t'il une meilleure méthode ?

J'aimerai pouvoir échanger avec vous sur cette problématique/sujet.

Sachant que le langage de programmation que je maîtrise le mieux c'est php.

Merci pour votre avis.

Bonne soirée
Florian

Hors ligne

#2 2017-05-04 19:00:17

Mention davidc1
Soldier
Lieu : La colle sur Loup
Inscription : 2013-09-17
Messages : 1 122

Re : Quelle méthode/outil pour scrapping massif ?

100K c'est pas tant que ça, ça se trouve ça passe sans proxy suivant les sites...
php va bien pour ça...

Hors ligne

#3 2017-05-04 23:05:05

Mention Jaffaar
Guardian
Lieu : Consultant Web
Inscription : 2012-06-01
Messages : 6 385

Développement PHP
Développement JS
Networking SEO
Social Engineering
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

davidc1 a écrit :

100K c'est pas tant que ça, ça se trouve ça passe sans proxy suivant les sites...
php va bien pour ça...

+1


Tu veux Ranker Haut ?

Mon dernier Ebook : SEO X MFA (-25% : labo25e)           
Consultant SEO Marseille (ou Skype => jaffaarbh )
Formations SEO : SEO Basics Skills - SEO Ranking Skills

En ligne

#4 2017-05-05 08:06:07

Mention Seoxis
Soldier
Lieu : Calais
Inscription : 2014-04-29
Messages : 602

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

Salut arglow

les proxys ce n'est vraiment pas utile s'il n'y a aucun risque de ban (au pire tu testes sans et si tu rencontres des erreurs tu avises)

après dans l'idéal c'est de répartir les urls par domaine (faire un random) plus tu auras de domaines plus ça sera efficace

ca évite d'avoir 50 threads sur un site puis 50 sur un autre

--------------

Concernant les logiciels , zennoposter le fait facilement (c'est l'occasion d'apprendre à l'utiliser)

sinon le top reste d'apprendre python (pas trop compliqué par rapport au php) et ca te permettra de spécifier les champs qui t'intéresse

Faut se motiver , au final quand on fait le point c'est dingue le nombre d'heures qu'on peut passer à chercher un logiciel qui répond à nos besoins alors qu'on aurait mis moins de temps à le faire nous même

Enjoy !


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

Hors ligne

#5 2017-05-05 09:04:45

Mention arglow
Recruit
Inscription : 2014-01-06
Messages : 23

Sémantique
Développement PHP
Marketing
Audit et Analyse

Re : Quelle méthode/outil pour scrapping massif ?

Salut à tous,

Merci pour vos réponses.

superframboise => je vais regarder ça. Merci

davidc1 => 100k par semaine ça fait plus de 400k requêtes par mois réparti sur 3 sites cela fait 133 000 requêtes par site. Si on rapporte cela par jour cela fait 4 433 requêtes par site par jour. Se qui commence à faire... Et je ne suis pas certain que je ne dois pas dépasser les 100k par semaine.

En fait, ce dont j'ai peur c'est que mon système doit faire cela de façon régulière et massive sur des gros sites immobilier, automobile, emploi sur des calculs de prix. Je pense que ces sites sont protégés. Et je voudrais pérenniser le système, pour pas avoir de problème tous les x matins.
J'ai du mal à imaginer qu'un LeBonCoin ou lacentrale.fr n'est pas de protection/ban ip.

Mais vous avez raison faut que je teste.

Seoxis => donc si je comprends, l'idée et d'alterner les requêtes sur les différents sites pour ne pas avoir trop de requêtes d'un coup sur le même site :

- 10 sur site 1
- 10 sur site 2
- 10 sur site 3

Et on revient au site 1. C'est bien cela l'idée ?

Merci à tous de votre aide et vos conseils.

Florian

Hors ligne

#6 2017-05-05 09:12:36

Mention Seoxis
Soldier
Lieu : Calais
Inscription : 2014-04-29
Messages : 602

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

oui il vaut mieux 10 sur les 3 sites que 30 sur le même , le top aurait été d'avoir plus de site pour répartir la charge mais bon smile

après si tu utilises des proxys tes perf dépendront de tes proxys (nombre et vitesse)

à titre d'exemple pour scraper instagram j'arrivais à scraper 100 000 urls /h avec zenno j'utilisais 6 000 proxys dédiés


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

Hors ligne

#7 2017-05-05 09:41:10

Mention arglow
Recruit
Inscription : 2014-01-06
Messages : 23

Sémantique
Développement PHP
Marketing
Audit et Analyse

Re : Quelle méthode/outil pour scrapping massif ?

D'accord.

Ah oui énorme volume yikes.

Juste pour avoir un ordre d'idée (ou dit moi en MP si tu préfères) pour ce volume de proxy faut compter un budget de combien ? car j'ai vu chez buyproxies que les 100 dedicated proxies sont à 150$/mois.

Tu arrivais à trouver autant de proxy français ou on s'en moque ?

Merci de tes réponses Seoxis.

Flo

Hors ligne

#8 2017-05-05 15:41:55

Mention Seoxis
Soldier
Lieu : Calais
Inscription : 2014-04-29
Messages : 602

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

tu peux avoir 256 proxys dédiés FR si tu as un serveur dédié (et tout ça gratuitement)

à toi de te monter une ferme de serveur wink

après il y a d'autres techniques mais bon c'est plus underground lol

t'es un fou de penser que je les achète chez buyproxies


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

Hors ligne

#9 2017-06-20 13:20:38

Mention NicolasWeb
Soldier
Lieu : Besançon (France)
Inscription : 2015-09-30
Messages : 711

Rédaction
Sémantique

Re : Quelle méthode/outil pour scrapping massif ?

Vu le volume on peut tenter de passer par Tor et de changer d'IP quand on est bloqué. On doit arriver à passer dans les 4000 urls sur une petite machine chaque jour (pas testé un tel volume mais je le tenterais).

Hors ligne

#10 2017-06-20 15:20:37

Mention elyard
Scout
Inscription : 2017-04-20
Messages : 266

Re : Quelle méthode/outil pour scrapping massif ?

Sur le forum, vous avez une offre pour des vpn ou proxy qui tourne régulièrement ainsi pas de soucis de blocage

Hors ligne

#11 2017-06-25 14:37:10

Mention elyard
Scout
Inscription : 2017-04-20
Messages : 266

Re : Quelle méthode/outil pour scrapping massif ?

Ok. J'espère que tu feras un retour

Hors ligne

#12 2017-06-25 15:23:52

Mention davidc1
Soldier
Lieu : La colle sur Loup
Inscription : 2013-09-17
Messages : 1 122

Re : Quelle méthode/outil pour scrapping massif ?

la maj de hma pro casse vraiment les pieds pour du bulk rapide...

Hors ligne

#13 2017-06-27 14:07:19

Mention elyard
Scout
Inscription : 2017-04-20
Messages : 266

Re : Quelle méthode/outil pour scrapping massif ?

D'accord merci pour ton retour.

Hors ligne

#14 2017-06-27 15:36:07

Mention Mitsu
Soldier
Inscription : 2014-11-17
Messages : 2 012

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

Pour la techno, effectivement pas si massif que ça, et même si c'était massif php en multhithread il cartone bien, tu peux monter à 100 scrap/secondes.

Après fait tourner les UA, pour les proxies vu que tu scrapp pas google, tu peux essayer de faire tourner des proxies gratuites.

Hors ligne

#15 2017-06-27 16:14:17

Mention Seoxis
Soldier
Lieu : Calais
Inscription : 2014-04-29
Messages : 602

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

récemment j'ai testé Dataiku et la possibilité d'y mettre du code python pour scraper est terrible cool

sinon j'ai acheté aussi Web Data Extractor Pro pour le tester et il est assez sympa aussi dans son genre


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

Hors ligne

Pied de page des forums