Vous n'êtes pas identifié(e).
Bonjour à tous,
Je suis en train de travailler sur un projet à la limite de la big data et une grosse partie des données va provenir du scrapping de site web (pas de google ou moteur de recherche). L'idée étant de faire des statistiques avec toutes ces données.
L'idée est de scrapper assez régulièrement (1 fois par semaine) quelques choses comme 100 000 urls différentes appartenant à plusieurs gros sites.
Je suis en train de réfléchir à la méthodologie la plus pérenne pour y arriver (ne pas se faire bloquer par les sites en question).
Je connais bien le scrapping à l'aide de php quand ce n'est pas fait massivement, toutefois massivement je ne sais pas comment m'y prendre.
La seule solution est-elle de louer plusieurs dizaines/centaines de proxy et faire tourner mon scrapper avec des timer et alternances des proxy ?
Y a t'il une meilleure méthode ?
J'aimerai pouvoir échanger avec vous sur cette problématique/sujet.
Sachant que le langage de programmation que je maîtrise le mieux c'est php.
Merci pour votre avis.
Bonne soirée
Florian
🔴 Hors ligne
100K c'est pas tant que ça, ça se trouve ça passe sans proxy suivant les sites...
php va bien pour ça...
skype: davidcz1
Service de backorders de domaines
Le PBN par prnator
🔴 Hors ligne
100K c'est pas tant que ça, ça se trouve ça passe sans proxy suivant les sites...
php va bien pour ça...
+1
⌕ Comment Ranker ?
▶ Nouveauté : Ninja Web Pro Pack copies limitées !
▶ Ebook : Ninjalinking 2022 (-25% : labo25e)
▶ Conseils stratégiques ou techniques ? ( Skype : jaffaarbh )
🟢 En ligne
Salut arglow
les proxys ce n'est vraiment pas utile s'il n'y a aucun risque de ban (au pire tu testes sans et si tu rencontres des erreurs tu avises)
après dans l'idéal c'est de répartir les urls par domaine (faire un random) plus tu auras de domaines plus ça sera efficace
ca évite d'avoir 50 threads sur un site puis 50 sur un autre
--------------
Concernant les logiciels , zennoposter le fait facilement (c'est l'occasion d'apprendre à l'utiliser)
sinon le top reste d'apprendre python (pas trop compliqué par rapport au php) et ca te permettra de spécifier les champs qui t'intéresse
Faut se motiver , au final quand on fait le point c'est dingue le nombre d'heures qu'on peut passer à chercher un logiciel qui répond à nos besoins alors qu'on aurait mis moins de temps à le faire nous même
Enjoy !
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
Salut à tous,
Merci pour vos réponses.
superframboise => je vais regarder ça. Merci
davidc1 => 100k par semaine ça fait plus de 400k requêtes par mois réparti sur 3 sites cela fait 133 000 requêtes par site. Si on rapporte cela par jour cela fait 4 433 requêtes par site par jour. Se qui commence à faire... Et je ne suis pas certain que je ne dois pas dépasser les 100k par semaine.
En fait, ce dont j'ai peur c'est que mon système doit faire cela de façon régulière et massive sur des gros sites immobilier, automobile, emploi sur des calculs de prix. Je pense que ces sites sont protégés. Et je voudrais pérenniser le système, pour pas avoir de problème tous les x matins.
J'ai du mal à imaginer qu'un LeBonCoin ou lacentrale.fr n'est pas de protection/ban ip.
Mais vous avez raison faut que je teste.
Seoxis => donc si je comprends, l'idée et d'alterner les requêtes sur les différents sites pour ne pas avoir trop de requêtes d'un coup sur le même site :
- 10 sur site 1
- 10 sur site 2
- 10 sur site 3
Et on revient au site 1. C'est bien cela l'idée ?
Merci à tous de votre aide et vos conseils.
Florian
🔴 Hors ligne
oui il vaut mieux 10 sur les 3 sites que 30 sur le même , le top aurait été d'avoir plus de site pour répartir la charge mais bon
après si tu utilises des proxys tes perf dépendront de tes proxys (nombre et vitesse)
à titre d'exemple pour scraper instagram j'arrivais à scraper 100 000 urls /h avec zenno j'utilisais 6 000 proxys dédiés
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
D'accord.
Ah oui énorme volume .
Juste pour avoir un ordre d'idée (ou dit moi en MP si tu préfères) pour ce volume de proxy faut compter un budget de combien ? car j'ai vu chez buyproxies que les 100 dedicated proxies sont à 150$/mois.
Tu arrivais à trouver autant de proxy français ou on s'en moque ?
Merci de tes réponses Seoxis.
Flo
🔴 Hors ligne
tu peux avoir 256 proxys dédiés FR si tu as un serveur dédié (et tout ça gratuitement)
à toi de te monter une ferme de serveur
après il y a d'autres techniques mais bon c'est plus underground
t'es un fou de penser que je les achète chez buyproxies
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
Vu le volume on peut tenter de passer par Tor et de changer d'IP quand on est bloqué. On doit arriver à passer dans les 4000 urls sur une petite machine chaque jour (pas testé un tel volume mais je le tenterais).
🔴 Hors ligne
la maj de hma pro casse vraiment les pieds pour du bulk rapide...
skype: davidcz1
Service de backorders de domaines
Le PBN par prnator
🔴 Hors ligne
Pour la techno, effectivement pas si massif que ça, et même si c'était massif php en multhithread il cartone bien, tu peux monter à 100 scrap/secondes.
Après fait tourner les UA, pour les proxies vu que tu scrapp pas google, tu peux essayer de faire tourner des proxies gratuites.
🔴 Hors ligne
récemment j'ai testé Dataiku et la possibilité d'y mettre du code python pour scraper est terrible
sinon j'ai acheté aussi Web Data Extractor Pro pour le tester et il est assez sympa aussi dans son genre
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne