Crawling Google

ciboulette · #1 2015-12-01 13:56:35

Salut
alors voila j'ai crée un petit script qui crawl google, pour savoir quel sites est positionnée etc ... (je sais que certain outils existe déjà plus ou moins)

Donc voila j'ai fait un petit client que j'ai mis sur plusieurs serveur et qui me renvoie les 100 premier résultats de google en .json , tout marche très bien je l'ai mis sur 22 ip différentes et je scan une ip toute les 10 minutes ... ce qui me fait 144 analyses par jours.

Hors j'aimerai en faire plus ... et pour ça je me suis dit : tien et si tu change l'User Agent ... je sais pas si quelqu'un a des retour la dessus?

ou alors je doit chercher des proxies?

Mitsu · #2 2015-12-01 16:20:43

Pour scrapper google :
Random User Agent + Proxys + Temps de pause = Victoire

Continu là dessus, test, t'auras pas de soucis yep.

ciboulette · #3 2015-12-01 17:29:07

Merci
et a ton avis vu que tu as l'air d'avoir deja fait ce genre de chose, je peu envoyer une request toutes les combien de minutes? voir combien de request par minutes ... perso j'aimerai bien arrivé rapidement sur du 1 requête toutes les 4/5minutes

salemioche · #4 2015-12-01 19:58:11

c est assez aléatoire car GG limite aussi sur la classe C maintenant donc ca va dépendre de tes voisins. Quand tu te fais jeter, ce n est pas grave une bonne pause et ca repart

Mitsu · #5 2015-12-02 07:29:18

Pareil que mon voisin, j'ai fais pas mal de test et c'est difficile de comprendre la limite de google avant de se faire jeter.
Tu peux scraper 100 page d'affilés avec la même ip sans te faire jeter, et le lendemain tu test, tu fais 10 et tu te fais jeter. C'est galère....
Le mieux c'est de tester tu met un rythme bien balèze, tu vois si tu te fais jeter, tu réduit la cadence tu vois, etc...

Mais bon 1 requête toutes les 4/5 min ça passe sans problèmes. Ah et tes temps de pause met les en random (exemple un temps de pose aléatoire entre 3 et 6 minutes dans ton cas). Aussi si tu as 22 ip, tu peux en faire tourner la moitié des ip le matin et l'autre moitié l'après-midi soir, j'imagine que c'est suspect une ip qui fait des requête h24 (même si espacé).

En tout cas si tu veux juste faire 300 scrapp par jours et que tu as 22 ip, ça passera sans problèmes.

salemioche · #6 2015-12-02 07:49:01

J'ai environ 350 IPs, et c'est flagrant, certaines sont de très très bonne qualité pour le scrap ( sans doute que la classe n'est pas utilisée du tout pour ça )
d'autres sont moyennes, et quand j'ai un bloc de 32, au final, je vois que je ne prends pas plus de page qu'une IP isolée

Il parait ( pas encore testé ), que tu peux "reseter" le compteur de ton IP en attaquant un peu plus de page une, j'imagine que statistiquement, ceux qui prennent les pages 1 à 10 sur plein de req. sont quasi exclusivmenet des bots

Mitsu · #7 2015-12-02 08:01:32

Je prends qu'une page mais avec num=100, c'est un peu plus grillé qu'une navigation classique mais tu fais qu'une requête plutôt que 10.

Ah par contre un truc vraiment hardcore du nord, c'est si tu requête des footprints, là c'est flagrand, même sur navigateur à la main, dès que je recherche des footprint je me mange un captcha au bout de 2/3 requêtes. Si c'est sur du mot clé classique, il y a quand même moyen de bourriner pas mal je trouve par contre !

ciboulette · #8 2015-12-02 08:36:29

Mitsu a écrit :

En tout cas si tu veux juste faire 300 scrapp par jours et que tu as 22 ip, ça passera sans problèmes.

ba le but c'est de faire plus de 300 scrapp, mais plutot 1500/2000 dans un premier temps
Je prend aussi les 100 premiers resultats de googles.

salemioche a écrit :

J'ai environ 350 IPs

350 IP ? des proxy ? ou alors des IP directement connecté sur ton/tes serveur(s)?
je cherche des ips pas cher la justement

salemioche · #9 2015-12-02 09:07:03

c'est des ips sur mes serveurs, j'utilise que pour scraper (ou quasi), pour les trucs crades, j'utilise buyproxies

Mitsu · #10 2015-12-02 09:35:59

ça te fais 100 call par ip par jour à peu près pour 2k, soit un peu plus de 4 call par ip par heure, ça devrait le faire si tes proxy sont solide.

Dernière modification par Mitsu (2015-12-02 09:36:55)

salemioche · #11 2015-12-02 13:53:07

un truc "marrant", de plus en plus depuis que j'ai repris le ref un peu sérieusement, je me fais bloqué (captcha - voire carrément "Veuillez renvoyer votre requête ultérieurement" )
mais si je passe sur chrome ( j'utilise Maxthon comme navigateur principal ), hop par miracle, ça passe.
Bientot, il faudra utiliser leur navigateur pour faire des search...

NicolasWeb · #12 2015-12-02 14:06:02

Mitsu a écrit :

Ah par contre un truc vraiment hardcore du nord, c'est si tu requête des footprints, là c'est flagrand, même sur navigateur à la main, dès que je recherche des footprint je me mange un captcha au bout de 2/3 requêtes.

oui c'est ce que j'ai constaté aussi et pas moyen de contourner le truc pour le moment même avec casperjs ou des navigateurs "headless".
De toute façon si ça passe pas en "direct" pas de raison que ça passe en automatique avec un script...

ciboulette · #13 2015-12-16 20:37:48

salemioche a écrit :

c'est des ips sur mes serveurs, j'utilise que pour scraper (ou quasi), pour les trucs crades, j'utilise buyproxies

Petite question sur les ips
Perso j'ai des server 3 SoYouStart, il te file 16ips par serveur, donc 48 ips en failover

Donc j'ai crée des proxy bind en local ... hors quand je les utilise je me prend un 403 de google, genre il grille le proxys etc,

tu utilise quelle configuration sur tes ips?

🟣 Crawling Google

#1 2015-12-01 13:56:35

Crawling Google

#2 2015-12-01 16:20:43

Re : Crawling Google

#3 2015-12-01 17:29:07

Re : Crawling Google

#4 2015-12-01 19:58:11

Re : Crawling Google

#5 2015-12-02 07:29:18

Re : Crawling Google

#6 2015-12-02 07:49:01

Re : Crawling Google

#7 2015-12-02 08:01:32

Re : Crawling Google

#8 2015-12-02 08:36:29

Re : Crawling Google

#9 2015-12-02 09:07:03

Re : Crawling Google

#10 2015-12-02 09:35:59

Re : Crawling Google

#11 2015-12-02 13:53:07

Re : Crawling Google

#12 2015-12-02 14:06:02

Re : Crawling Google

#13 2015-12-16 20:37:48

Re : Crawling Google

Pied de page des forums