Vous n'êtes pas identifié(e).
Pages :: 1
Salut
alors voila j'ai crée un petit script qui crawl google, pour savoir quel sites est positionnée etc ... (je sais que certain outils existe déjà plus ou moins)
Donc voila j'ai fait un petit client que j'ai mis sur plusieurs serveur et qui me renvoie les 100 premier résultats de google en .json , tout marche très bien je l'ai mis sur 22 ip différentes et je scan une ip toute les 10 minutes ... ce qui me fait 144 analyses par jours.
Hors j'aimerai en faire plus ... et pour ça je me suis dit : tien et si tu change l'User Agent ... je sais pas si quelqu'un a des retour la dessus?
ou alors je doit chercher des proxies?
🔴 Hors ligne
Pour scrapper google :
Random User Agent + Proxys + Temps de pause = Victoire
Continu là dessus, test, t'auras pas de soucis yep.
🔴 Hors ligne
Merci
et a ton avis vu que tu as l'air d'avoir deja fait ce genre de chose, je peu envoyer une request toutes les combien de minutes? voir combien de request par minutes ... perso j'aimerai bien arrivé rapidement sur du 1 requête toutes les 4/5minutes
🔴 Hors ligne
c est assez aléatoire car GG limite aussi sur la classe C maintenant donc ca va dépendre de tes voisins. Quand tu te fais jeter, ce n est pas grave une bonne pause et ca repart
__
Powering Nikozen
🔴 Hors ligne
Pareil que mon voisin, j'ai fais pas mal de test et c'est difficile de comprendre la limite de google avant de se faire jeter.
Tu peux scraper 100 page d'affilés avec la même ip sans te faire jeter, et le lendemain tu test, tu fais 10 et tu te fais jeter. C'est galère....
Le mieux c'est de tester tu met un rythme bien balèze, tu vois si tu te fais jeter, tu réduit la cadence tu vois, etc...
Mais bon 1 requête toutes les 4/5 min ça passe sans problèmes. Ah et tes temps de pause met les en random (exemple un temps de pose aléatoire entre 3 et 6 minutes dans ton cas). Aussi si tu as 22 ip, tu peux en faire tourner la moitié des ip le matin et l'autre moitié l'après-midi soir, j'imagine que c'est suspect une ip qui fait des requête h24 (même si espacé).
En tout cas si tu veux juste faire 300 scrapp par jours et que tu as 22 ip, ça passera sans problèmes.
🔴 Hors ligne
J'ai environ 350 IPs, et c'est flagrant, certaines sont de très très bonne qualité pour le scrap ( sans doute que la classe n'est pas utilisée du tout pour ça )
d'autres sont moyennes, et quand j'ai un bloc de 32, au final, je vois que je ne prends pas plus de page qu'une IP isolée
Il parait ( pas encore testé ), que tu peux "reseter" le compteur de ton IP en attaquant un peu plus de page une, j'imagine que statistiquement, ceux qui prennent les pages 1 à 10 sur plein de req. sont quasi exclusivmenet des bots
__
Powering Nikozen
🔴 Hors ligne
Je prends qu'une page mais avec num=100, c'est un peu plus grillé qu'une navigation classique mais tu fais qu'une requête plutôt que 10.
Ah par contre un truc vraiment hardcore du nord, c'est si tu requête des footprints, là c'est flagrand, même sur navigateur à la main, dès que je recherche des footprint je me mange un captcha au bout de 2/3 requêtes. Si c'est sur du mot clé classique, il y a quand même moyen de bourriner pas mal je trouve par contre !
🔴 Hors ligne
En tout cas si tu veux juste faire 300 scrapp par jours et que tu as 22 ip, ça passera sans problèmes.
ba le but c'est de faire plus de 300 scrapp, mais plutot 1500/2000 dans un premier temps
Je prend aussi les 100 premiers resultats de googles.
J'ai environ 350 IPs
350 IP ? des proxy ? ou alors des IP directement connecté sur ton/tes serveur(s)?
je cherche des ips pas cher la justement
🔴 Hors ligne
c'est des ips sur mes serveurs, j'utilise que pour scraper (ou quasi), pour les trucs crades, j'utilise buyproxies
__
Powering Nikozen
🔴 Hors ligne
ça te fais 100 call par ip par jour à peu près pour 2k, soit un peu plus de 4 call par ip par heure, ça devrait le faire si tes proxy sont solide.
Dernière modification par Mitsu (2015-12-02 09:36:55)
🔴 Hors ligne
un truc "marrant", de plus en plus depuis que j'ai repris le ref un peu sérieusement, je me fais bloqué (captcha - voire carrément "Veuillez renvoyer votre requête ultérieurement" )
mais si je passe sur chrome ( j'utilise Maxthon comme navigateur principal ), hop par miracle, ça passe.
Bientot, il faudra utiliser leur navigateur pour faire des search...
__
Powering Nikozen
🔴 Hors ligne
Ah par contre un truc vraiment hardcore du nord, c'est si tu requête des footprints, là c'est flagrand, même sur navigateur à la main, dès que je recherche des footprint je me mange un captcha au bout de 2/3 requêtes.
oui c'est ce que j'ai constaté aussi et pas moyen de contourner le truc pour le moment même avec casperjs ou des navigateurs "headless".
De toute façon si ça passe pas en "direct" pas de raison que ça passe en automatique avec un script...
🔴 Hors ligne
c'est des ips sur mes serveurs, j'utilise que pour scraper (ou quasi), pour les trucs crades, j'utilise buyproxies
Petite question sur les ips
Perso j'ai des server 3 SoYouStart, il te file 16ips par serveur, donc 48 ips en failover
Donc j'ai crée des proxy bind en local ... hors quand je les utilise je me prend un 403 de google, genre il grille le proxys etc,
tu utilise quelle configuration sur tes ips?
🔴 Hors ligne
Pages :: 1