Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 Crawling Google


#1 2015-12-01 13:56:35

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Crawling Google

Salut smile
alors voila j'ai crée un petit script qui crawl google, pour savoir quel sites est positionnée etc ... (je sais que certain outils existe déjà plus ou moins)

Donc voila j'ai fait un petit client que j'ai mis sur plusieurs serveur et qui me renvoie les 100 premier résultats de google en .json , tout marche très bien je l'ai mis sur 22 ip différentes et je scan une ip toute les 10 minutes ... ce qui me fait 144 analyses par jours.

Hors j'aimerai en faire plus ... et pour ça je me suis dit : tien et si tu change l'User Agent ... je sais pas si quelqu'un a des retour la dessus?


ou alors je doit chercher des proxies?

0
J'aime ❤️

🔴 Hors ligne

#2 2015-12-01 16:20:43

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 8

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Crawling Google

Pour scrapper google :
Random User Agent + Proxys + Temps de pause = Victoire

Continu là dessus, test, t'auras pas de soucis yep.

0
J'aime ❤️

🔴 Hors ligne

#3 2015-12-01 17:29:07

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Re : Crawling Google

Merci smile
et a ton avis vu que tu as l'air d'avoir deja fait ce genre de chose, je peu envoyer une request toutes les combien de minutes? voir combien de request par minutes ... perso j'aimerai bien arrivé rapidement sur du 1 requête toutes les 4/5minutes

0
J'aime ❤️

🔴 Hors ligne

#4 2015-12-01 19:58:11

Mention salemioche
🥉 Grade : Scout

AuxiliaireIngénieur webStratège
Inscription : 2015-10-09
Messages : 250
Likes : 0

Adminstration Serveur
PHP
Scraping
Cloaking

Re : Crawling Google

c est assez aléatoire car GG limite aussi sur la classe C maintenant donc ca va dépendre de tes voisins. Quand tu te fais jeter, ce n est pas grave une bonne pause et ca repart


__
Powering Nikozen

0
J'aime ❤️

🔴 Hors ligne

#5 2015-12-02 07:29:18

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 8

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Crawling Google

Pareil que mon voisin, j'ai fais pas mal de test et c'est difficile de comprendre la limite de google avant de se faire jeter.
Tu peux scraper 100 page d'affilés avec la même ip sans te faire jeter, et le lendemain tu test, tu fais 10 et tu te fais jeter. C'est galère....
Le mieux c'est de tester tu met un rythme bien balèze, tu vois si tu te fais jeter, tu réduit la cadence tu vois, etc...

Mais bon 1 requête toutes les 4/5 min ça passe sans problèmes. Ah et tes temps de pause met les en random (exemple un temps de pose aléatoire entre 3 et 6 minutes dans ton cas). Aussi si tu as 22 ip, tu peux en faire tourner la moitié des ip le matin et l'autre moitié l'après-midi soir, j'imagine que c'est suspect une ip qui fait des requête h24 (même si espacé).

En tout cas si tu veux juste faire 300 scrapp par jours et que tu as 22 ip, ça passera sans problèmes.

0
J'aime ❤️

🔴 Hors ligne

#6 2015-12-02 07:49:01

Mention salemioche
🥉 Grade : Scout

AuxiliaireIngénieur webStratège
Inscription : 2015-10-09
Messages : 250
Likes : 0

Adminstration Serveur
PHP
Scraping
Cloaking

Re : Crawling Google

J'ai environ 350 IPs, et c'est flagrant, certaines sont de très très bonne qualité pour le scrap ( sans doute que la classe n'est pas utilisée du tout pour ça )
d'autres sont moyennes, et quand j'ai un bloc de 32, au final, je vois que je ne prends pas plus de page qu'une IP isolée

Il parait ( pas encore testé ), que tu peux "reseter" le compteur de ton IP en attaquant un peu plus de page une, j'imagine que statistiquement, ceux qui prennent les pages 1 à 10 sur plein de req. sont quasi exclusivmenet des bots


__
Powering Nikozen

0
J'aime ❤️

🔴 Hors ligne

#7 2015-12-02 08:01:32

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 8

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Crawling Google

Je prends qu'une page mais avec num=100, c'est un peu plus grillé qu'une navigation classique mais tu fais qu'une requête plutôt que 10.

Ah par contre un truc vraiment hardcore du nord, c'est si tu requête des footprints, là c'est flagrand, même sur navigateur à la main, dès que je recherche des footprint je me mange un captcha au bout de 2/3 requêtes. Si c'est sur du mot clé classique, il y a quand même moyen de bourriner pas mal je trouve par contre !

0
J'aime ❤️

🔴 Hors ligne

#8 2015-12-02 08:36:29

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Re : Crawling Google

Mitsu a écrit :

En tout cas si tu veux juste faire 300 scrapp par jours et que tu as 22 ip, ça passera sans problèmes.

ba le but c'est de faire plus de 300 scrapp, mais plutot 1500/2000 dans un premier temps
Je prend aussi les 100 premiers resultats de googles.


salemioche a écrit :

J'ai environ 350 IPs

350 IP ? des proxy ? ou alors des IP directement connecté sur ton/tes serveur(s)?
je cherche des ips pas cher la justement

0
J'aime ❤️

🔴 Hors ligne

#9 2015-12-02 09:07:03

Mention salemioche
🥉 Grade : Scout

AuxiliaireIngénieur webStratège
Inscription : 2015-10-09
Messages : 250
Likes : 0

Adminstration Serveur
PHP
Scraping
Cloaking

Re : Crawling Google

c'est des ips sur mes serveurs, j'utilise que pour scraper (ou quasi), pour les trucs crades, j'utilise buyproxies


__
Powering Nikozen

0
J'aime ❤️

🔴 Hors ligne

#10 2015-12-02 09:35:59

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 8

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Crawling Google

ça te fais 100 call par ip par jour à peu près pour 2k, soit un peu plus de 4 call par ip par heure, ça devrait le faire si tes proxy sont solide.

Dernière modification par Mitsu (2015-12-02 09:36:55)

0
J'aime ❤️

🔴 Hors ligne

#11 2015-12-02 13:53:07

Mention salemioche
🥉 Grade : Scout

AuxiliaireIngénieur webStratège
Inscription : 2015-10-09
Messages : 250
Likes : 0

Adminstration Serveur
PHP
Scraping
Cloaking

Re : Crawling Google

un truc "marrant", de plus en plus depuis que j'ai repris le ref un peu sérieusement, je me fais bloqué (captcha - voire carrément "Veuillez renvoyer votre requête ultérieurement" )
mais si je passe sur chrome ( j'utilise Maxthon comme navigateur principal ), hop par miracle, ça passe.
Bientot, il faudra utiliser leur navigateur pour faire des search...


__
Powering Nikozen

0
J'aime ❤️

🔴 Hors ligne

#12 2015-12-02 14:06:02

Mention NicolasWeb
🥈 Grade : Soldier

Membre du CercleOfficierStratège100likes1000 messages
Lieu : Besançon (France)
Inscription : 2015-09-30
Messages : 1 079
Likes : 194

Rédaction
Sémantique
Site Web

Re : Crawling Google

Mitsu a écrit :

Ah par contre un truc vraiment hardcore du nord, c'est si tu requête des footprints, là c'est flagrand, même sur navigateur à la main, dès que je recherche des footprint je me mange un captcha au bout de 2/3 requêtes.

oui c'est ce que j'ai constaté aussi et pas moyen de contourner le truc pour le moment même avec casperjs ou des navigateurs "headless".
De toute façon si ça passe pas en "direct" pas de raison que ça passe en automatique avec un script...

0
J'aime ❤️

🔴 Hors ligne

#13 2015-12-16 20:37:48

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Re : Crawling Google

salemioche a écrit :

c'est des ips sur mes serveurs, j'utilise que pour scraper (ou quasi), pour les trucs crades, j'utilise buyproxies

Petite question sur les ips
Perso j'ai des server 3 SoYouStart, il te file 16ips par serveur, donc 48 ips en failover

Donc j'ai crée des proxy bind en local ... hors quand je les utilise je me prend un 403 de google, genre il grille le proxys etc,

tu utilise quelle configuration sur tes ips?

0
J'aime ❤️

🔴 Hors ligne

Pied de page des forums