Pages :: 1
Bonjour,
Je vais avoir besoin de pas mal scrapper Google et j'ai du mal à trouver des donnée fiables à ce sujet j'ai besoin de savoir (sans avoir à utiliser de decaptcher) à quel rythme je peu scrapper. Toutes les limites à respecté (par heure, par jour etc..) pour chaque ip dédié.
De manière à pouvoir me lancer en étant sur de ne pas me faire dégager mes ips quoi >.<.
Aussi sur les proxies, je doit acheter des proxie dédié à moi seul ou non selon vous? Aussi quand une ip proxy se fait banir de google, le prestataire m'en fournit une nouvelle, comment ça se passe ? Et quels prestataire vous me conseillez ? Je trouve beaucoup de chose sur internet mais bon, pour ceux qui ont habitude de scrapper Google, j'aimerais bien vos ressenti là dessus quoi.
J'aimerais facilement pouvoir me dire qu'avec une ip je peu scrapper x SERP/ jours sans risque. Ça me permettra de connaitre mes coûts, etc..
🔴 Hors ligne
De mon expérience plus tes footprints sont complexes et plus vite ton ip sera bloquée et ton prestataire ne va pas forcement t'en fournir d'autres
Après il te faut un maximum de proxies pour maximiser leurs rotations.
Il est bon aussi d'augmenter le temps entre tes requêtes et de limiter les threads, mais cela dépend du nombre de proxies utilisés.
Exemple : 5 secondes de pause entre chaque page et 3 threads simultanées pour une configuration de base avec 50 proxies dédiés.
Pour ce qui est du prestataire buyproxies.org est un bon service pour ma part.
🔴 Hors ligne
Salut,
J'ai acheté 10 proxies chez BuyProxies et pour le moment pas de pb également.
Si je dis pas de bêtise, une IP blacklisté, ne le reste que pendant quelques heures (48 à 72h) donc suffit de patienter.
Je vais suivre le poste car moi aussi je suis intéressé par quelques conseils ou autre également :-)
Mitsu, tu utilises quel scrapper ?
🔴 Hors ligne
Salut,
J'ai acheté 10 proxies chez BuyProxies et pour le moment pas de pb également.
Si je dis pas de bêtise, une IP blacklisté, ne le reste que pendant quelques heures (48 à 72h) donc suffit de patienter.
Je vais suivre le poste car moi aussi je suis intéressé par quelques conseils ou autre également :-)Mitsu, tu utilises quel scrapper ?
Salut Makak06,
Concernant le blacklistage d'ip c'est vrai que en général au bout de quelque temps ça remarche, mais j'ai eu le cas il y a pas longtemps sur des proxies dédiés de voire mon ip toujours bloquée au bout de 15 jours.
🔴 Hors ligne
Makak : Je scrappe moi même avec mes propres scripts.
Sinon, selon vous si j'ai 10ip dédié, que je met un timer de 5 secondes entre chaque requêtes en changeant d'ip à chaque fois, j'ai donc une requête toute les minutes à peu près sur une ip, est ce que faut que je limite aussi à l'heure (exemple 20 SERP/ip ?), a la journée aussi ? avec 10ip dédié quel puissance je peut donner quoi histoire de commencer bas.
🔴 Hors ligne
Et au lieu de scraper peut être utiliser l API Google search? J ai pas testé perso pour les footprints, mais pour le reste y a pas foto on peut multithreader sans problème avec la même IP sans aucun blocage, alors que les mêmes requête en scrap classique me crament vite l IP...
🔴 Hors ligne
pour scraper correctement il faut faire une pause de 30à 45s (tout scrap confondu : scrapebox ou soft de positionnement)
afin de ne pas cramer tes proxys
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
Je ne sais pas ce que tu veux scraper, mais ça peut valoir le coup de se tourner vers une combinaison soft de scrap + proxies. Ca évite de se poser beaucoup de questions.
J'utilise de temps à autres RDDZ+quelques dizaines de proxies de chez ap (généralement 20-50) et je n'ai jamais eu de soucis particulier quand aux limitations. Mais je ne passe pas non plus mes journées à scraper.
🔴 Hors ligne
Si c'est pour faire du gros monitoring, peut être que les softs vont pas aller. En tout cas ce qui est sur c'est que c'est gourmand en proxies, plus tu en as mieux c'est, je sais pas ce que tu veux faire mais avec 10 proxies c'est super galère. Tu veux scraper dans quelle quantité aussi ? On peut avoir une idée ?
🔴 Hors ligne
Bigorno, en fait je voudrais scrapper h24 sur une machine, pas forcement en quantité énorme, je m'adapte, je voudrais savoir par exemple si on peut me dire : ok bah si tu utilise 10 proxies faudra pas dépasser x serp par heure, y serp par jour. Ca me permettrait d'adapter le nombre de proxies si je le souhaites ensuite quoi, je me dit qu'il y a bien des gens qui ont des retour d'experience sur ce sujet ici pour avoir une idée plus ou moins vague des limites, sinon je peux faire les test moi même mais je vais me galérer cramer plein de proxies baisser, remonter pour trouve la bonne formule... Si des gens connaissent la formule du coup ça m'arrangerait lol !
🔴 Hors ligne
Je teste buyproxies depuis 1 semaine (10 proxys dédiés) et franchement j'en suis déçu pour le moment.
Déjà j'ai 2 proxys que j'ai récupéré blacklistés sur GG (j'ai attendu 48h et je leur ai envoyé un msg : il m'en ont redonné 2 directement - ils sont réactifs à ce niveau là)
Globalement ceux que j'ai, je trouve qu'ils arrivent vite au captcha et pour pas mal de scripts persos où je les utilise pour d'autres besoins (analyseur d'entetes HTTP par exemple), j'ai plein de proxys qui saturent très rapidement.
Ca fait 1 an que j’étais chez http://www.anonymous-proxies.net/ et je pense que je ne vais pas tarder à y retourner...
Jérôme - Générer des revenus avec les NDD expirés (formation) | Blog perso jeromeweb.net
🔴 Hors ligne
si tu respectes bien la pause de 30s à 45s et une minute toutes les 15min tu peux bouriner sans pb
Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=- (15€ pour 10 proxys dédiés)
Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)
🔴 Hors ligne
Là le problème c'est que certains proxys ne répondent rien parfois quand je fais du curl pour vérifier des entêtes HTTP (= je ne scrappe pas google)
Jérôme - Générer des revenus avec les NDD expirés (formation) | Blog perso jeromeweb.net
🔴 Hors ligne
pour scraper correctement il faut faire une pause de 30à 45s (tout scrap confondu : scrapebox ou soft de positionnement)
afin de ne pas cramer tes proxys
Merci pour le tips
🔴 Hors ligne
Je viens de prendre 5 proxies sur https://buyproxies.org/ et je tente de faire une rotation de proxys avec screaming frog. L'un de vous à déjà reussi. J'ai crée un script python mais malheureusement je ne peux pas mettre des variables dans la config de screaming frog pour que ça change aleatoirement. Une petite astuce ?
🔴 Hors ligne
Je scrape google sans proxy avec scrapebox, 1 requête par 50 secondes minimum. Mais c'est pas des requêtes type site:
J'ai pris 5 proxies privés (10$) sur https://www.myprivateproxy.net/ (ya des codes promos qui trainent sur le web) recommandé par scrapebox et je mets 22 secondes entre chaque requêtes, ce qui fait que il y a 110 secondes entre une requete de chaque proxy. Je peux sans doute aller plus vite mais je veux pas cramer mes proxies. J'ai du faire tourner une 30ene d'heures (par intermittence, je lance le matin et coupe le soir) pour le moment pas de problèmes
Donc le consensus a l'air d'être au minimum 50/60 secondes entre chaque requête d'un proxy (peut être plus avec des opérateur type site:). Je pense pas qu'on te redonne des proxies si tu les crames. Fais le calcul : entre le nombre de recherche que tu veux faire et le temps que tu peux attendre et ca te donnera le nombre de proxies qu'il te faut.
Edit : j'avais pas vu que c'était du déterrage
Dernière modification par frcc78 (2024-09-03 20:38:40)
Articlum.com - Génération de texte (article et descriptif produit) - Optimisation sémantique
Obtenez des crédits gratuits avec le code ScriptSEO2024
🔴 Hors ligne
Pages :: 1