Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

#1 2017-05-04 17:42:55

Mention arglow
Recruit
Inscription : 2014-01-06
Messages : 23

Sémantique
Développement PHP
Marketing
Audit et Analyse

Quelle méthode/outil pour scrapping massif ?

Bonjour à tous,

Je suis en train de travailler sur un projet à la limite de la big data et une grosse partie des données va provenir du scrapping de site web (pas de google ou moteur de recherche). L'idée étant de faire des statistiques avec toutes ces données.

L'idée est de scrapper assez régulièrement (1 fois par semaine) quelques choses comme 100 000 urls différentes appartenant à plusieurs gros sites.

Je suis en train de réfléchir à la méthodologie la plus pérenne pour y arriver (ne pas se faire bloquer par les sites en question).

Je connais bien le scrapping à l'aide de php quand ce n'est pas fait massivement, toutefois massivement je ne sais pas comment m'y prendre.

La seule solution est-elle de  louer plusieurs dizaines/centaines de proxy et faire tourner mon scrapper avec des timer et alternances des proxy ?

Y a t'il une meilleure méthode ?

J'aimerai pouvoir échanger avec vous sur cette problématique/sujet.

Sachant que le langage de programmation que je maîtrise le mieux c'est php.

Merci pour votre avis.

Bonne soirée
Florian

Hors ligne

#2 2017-05-04 18:03:12

Mention superframboise
Soldier
Lieu : A l'autre bout du monde
Inscription : 2017-03-10
Messages : 940

Netlinking
Networking SEO
Audit et Analyse
Netlinking Auto
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

Peut être que cet outil pourrait t'aider à faire du scrapping de masse pour des sites https://github.com/alexksikes/mass-scraping

Hors ligne

#3 2017-05-04 19:00:17

Mention davidc1
Soldier
Lieu : La colle sur Loup
Inscription : 2013-09-17
Messages : 1 024

Re : Quelle méthode/outil pour scrapping massif ?

100K c'est pas tant que ça, ça se trouve ça passe sans proxy suivant les sites...
php va bien pour ça...

Hors ligne

#4 2017-05-04 23:05:05

Mention Jaffaar
Guardian
Lieu : Marseille
Inscription : 2012-06-01
Messages : 5 624

Développement PHP
Développement JS
Networking SEO
Social Engineering
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

davidc1 a écrit :

100K c'est pas tant que ça, ça se trouve ça passe sans proxy suivant les sites...
php va bien pour ça...

+1


⌕ Tu veux Ranker ?
⏩ Active le mode automatique : SEO Quartz             
⏩ Profite d'un consultant SEO (sur Marseille ou sur Skype => jaffaarbh )
⏩ Tu veux des techniques concrètes ? SEO Basics Skills - SEO Ranking Skills

Hors ligne

#5 2017-05-05 08:06:07

Mention Seoxis
Soldier
Lieu : Calais
Inscription : 2014-04-29
Messages : 571

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

Salut arglow

les proxys ce n'est vraiment pas utile s'il n'y a aucun risque de ban (au pire tu testes sans et si tu rencontres des erreurs tu avises)

après dans l'idéal c'est de répartir les urls par domaine (faire un random) plus tu auras de domaines plus ça sera efficace

ca évite d'avoir 50 threads sur un site puis 50 sur un autre

--------------

Concernant les logiciels , zennoposter le fait facilement (c'est l'occasion d'apprendre à l'utiliser)

sinon le top reste d'apprendre python (pas trop compliqué par rapport au php) et ca te permettra de spécifier les champs qui t'intéresse

Faut se motiver , au final quand on fait le point c'est dingue le nombre d'heures qu'on peut passer à chercher un logiciel qui répond à nos besoins alors qu'on aurait mis moins de temps à le faire nous même

Enjoy !


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

Hors ligne

#6 2017-05-05 09:04:45

Mention arglow
Recruit
Inscription : 2014-01-06
Messages : 23

Sémantique
Développement PHP
Marketing
Audit et Analyse

Re : Quelle méthode/outil pour scrapping massif ?

Salut à tous,

Merci pour vos réponses.

superframboise => je vais regarder ça. Merci

davidc1 => 100k par semaine ça fait plus de 400k requêtes par mois réparti sur 3 sites cela fait 133 000 requêtes par site. Si on rapporte cela par jour cela fait 4 433 requêtes par site par jour. Se qui commence à faire... Et je ne suis pas certain que je ne dois pas dépasser les 100k par semaine.

En fait, ce dont j'ai peur c'est que mon système doit faire cela de façon régulière et massive sur des gros sites immobilier, automobile, emploi sur des calculs de prix. Je pense que ces sites sont protégés. Et je voudrais pérenniser le système, pour pas avoir de problème tous les x matins.
J'ai du mal à imaginer qu'un LeBonCoin ou lacentrale.fr n'est pas de protection/ban ip.

Mais vous avez raison faut que je teste.

Seoxis => donc si je comprends, l'idée et d'alterner les requêtes sur les différents sites pour ne pas avoir trop de requêtes d'un coup sur le même site :

- 10 sur site 1
- 10 sur site 2
- 10 sur site 3

Et on revient au site 1. C'est bien cela l'idée ?

Merci à tous de votre aide et vos conseils.

Florian

Hors ligne

#7 2017-05-05 09:12:36

Mention Seoxis
Soldier
Lieu : Calais
Inscription : 2014-04-29
Messages : 571

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

oui il vaut mieux 10 sur les 3 sites que 30 sur le même , le top aurait été d'avoir plus de site pour répartir la charge mais bon smile

après si tu utilises des proxys tes perf dépendront de tes proxys (nombre et vitesse)

à titre d'exemple pour scraper instagram j'arrivais à scraper 100 000 urls /h avec zenno j'utilisais 6 000 proxys dédiés


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

Hors ligne

#8 2017-05-05 09:41:10

Mention arglow
Recruit
Inscription : 2014-01-06
Messages : 23

Sémantique
Développement PHP
Marketing
Audit et Analyse

Re : Quelle méthode/outil pour scrapping massif ?

D'accord.

Ah oui énorme volume yikes.

Juste pour avoir un ordre d'idée (ou dit moi en MP si tu préfères) pour ce volume de proxy faut compter un budget de combien ? car j'ai vu chez buyproxies que les 100 dedicated proxies sont à 150$/mois.

Tu arrivais à trouver autant de proxy français ou on s'en moque ?

Merci de tes réponses Seoxis.

Flo

Hors ligne

#9 2017-05-05 15:41:55

Mention Seoxis
Soldier
Lieu : Calais
Inscription : 2014-04-29
Messages : 571

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

tu peux avoir 256 proxys dédiés FR si tu as un serveur dédié (et tout ça gratuitement)

à toi de te monter une ferme de serveur wink

après il y a d'autres techniques mais bon c'est plus underground lol

t'es un fou de penser que je les achète chez buyproxies


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

Hors ligne

#10 2017-06-20 13:00:56

Mention Dukofo
Soldier
Inscription : 2015-07-21
Messages : 1 164

Netlinking
Networking SEO

Re : Quelle méthode/outil pour scrapping massif ?

Du coup tu as 24 serveurs @Seoxis ? tongue


Articles Sponso & PBN | Achats de sites -> Skype : seo.leadfr

Hors ligne

#11 2017-06-20 13:20:38

Mention NicolasWeb
Soldier
Lieu : Besançon (France)
Inscription : 2015-09-30
Messages : 586

Rédaction
Sémantique

Re : Quelle méthode/outil pour scrapping massif ?

Vu le volume on peut tenter de passer par Tor et de changer d'IP quand on est bloqué. On doit arriver à passer dans les 4000 urls sur une petite machine chaque jour (pas testé un tel volume mais je le tenterais).

Hors ligne

#12 2017-06-20 15:20:37

Mention elyard
Scout
Inscription : 2017-04-20
Messages : 202

Re : Quelle méthode/outil pour scrapping massif ?

Sur le forum, vous avez une offre pour des vpn ou proxy qui tourne régulièrement ainsi pas de soucis de blocage

Hors ligne

#13 2017-06-20 15:23:14

Mention superframboise
Soldier
Lieu : A l'autre bout du monde
Inscription : 2017-03-10
Messages : 940

Netlinking
Networking SEO
Audit et Analyse
Netlinking Auto
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

@elyard j'utilise VPNfacile actuellement c'est 39 € HT / an https://www.vpnfacile.net/ mais j'ai l'impression depuis quelque temps que ca merde à plein tube, je me tape chaque fois un "error network change" du coup obligé de redémarrer l'ordi ou faire un ipconfig /flush dns ou ipconfig /release ou ipconfig /renew du coup je suis passé actuellement sur les dns Google et je change de box, on verra bien...

Dernière modification par superframboise (2017-06-20 15:23:24)

Hors ligne

#14 2017-06-25 14:37:10

Mention elyard
Scout
Inscription : 2017-04-20
Messages : 202

Re : Quelle méthode/outil pour scrapping massif ?

Ok. J'espère que tu feras un retour

Hors ligne

#15 2017-06-25 15:19:52

Mention superframboise
Soldier
Lieu : A l'autre bout du monde
Inscription : 2017-03-10
Messages : 940

Netlinking
Networking SEO
Audit et Analyse
Netlinking Auto
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

@elyard alors perso je viens de changer la box, ca n'a rien changé (j'ai pourtant un bon débit, environ 80 MO), les dns Google n'ont rein fait non plus.

Ca vient pour moi de VPN FACILE, il merde à plein tube en ce moment. Il y a parfois où ca marche bien, et parfois où ca merde grave. Aujorud'hui par exemple, j'ai testé plusieurs fois, ca merde. L'autre jour, j'ai testé et nickel. Bizarre...

Hors ligne

#16 2017-06-25 15:23:52

Mention davidc1
Soldier
Lieu : La colle sur Loup
Inscription : 2013-09-17
Messages : 1 024

Re : Quelle méthode/outil pour scrapping massif ?

la maj de hma pro casse vraiment les pieds pour du bulk rapide...

Hors ligne

#17 2017-06-27 14:07:19

Mention elyard
Scout
Inscription : 2017-04-20
Messages : 202

Re : Quelle méthode/outil pour scrapping massif ?

D'accord merci pour ton retour.

Hors ligne

#18 2017-06-27 15:36:07

Mention Mitsu
Soldier
Inscription : 2014-11-17
Messages : 1 957

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

Pour la techno, effectivement pas si massif que ça, et même si c'était massif php en multhithread il cartone bien, tu peux monter à 100 scrap/secondes.

Après fait tourner les UA, pour les proxies vu que tu scrapp pas google, tu peux essayer de faire tourner des proxies gratuites.


Mitsu, un Expert SEO qui se fait une joie de partager ses délires sur internet...

Hors ligne

#19 2017-06-27 16:14:17

Mention Seoxis
Soldier
Lieu : Calais
Inscription : 2014-04-29
Messages : 571

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : Quelle méthode/outil pour scrapping massif ?

récemment j'ai testé Dataiku et la possibilité d'y mettre du code python pour scraper est terrible cool

sinon j'ai acheté aussi Web Data Extractor Pro pour le tester et il est assez sympa aussi dans son genre


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

Hors ligne

Pied de page des forums