Scraper Google

fludbis · #1 2013-12-10 02:22:21

Bonjour,

Par simple plaisir, j'ai scrapé le moteur voila ( en lui balançant 200 000 combinaisons de mots clé et en récupérant les résultats de recherche de la première page de résultats ).

J'ai ensuite comptabilisé pour chaque site le nombre de fois qu'il apparaît dans les résultats de recherche et je lui ai attribué une note et un classement.

Vous pouvez tester ci-dessous pour découvrir le classement de votre propre site !

http://www.guide-rapide.com/article-res … erencement

En ce moment, j'essaie de faire la même chose avec Google.

Mais je coince : au bout d'une centaine de pages de résultats de recherche délivrées, Google m'envoie ensuite une page avec un anti-spam ( il faut lire un code dans une image et entrer le code ...., le genre de truc que je ne sais pas du tout programmer ! ).

Si je débranche ma box, et revient donc vers Google avec une autre ip, il me fournit à nouveau quelques pages de résultats de recherche.

Donc l'idée pour moi, ce serait de me cacher derrière des proxys et de passer à un autre proxy à chaque minute.

Donc il me faudrait peut-être une soixantaine de proxys.

Le problème c'est que Google a l'air de bien connaître les adresses ip des proxys.

j'ai récolté 5 000 proxys gratuits sur le web et Google les connaissait tous sauf deux.

Et je n'ai pu utiliser ces deux proxys qu'une seule fois.

On dirait que Google a immédiatement compris qu'il s'agissait de proxys et les a blacklistés quasi instantanément.

Enfin, du moins c'est ce qu'il m'a semblé et que j'aimerais donc validé avec vous.

Donc finalement, j'ai deux questions :

1/ est-ce que Google est effectivement capable d'identifier très très rapidement les proxys ?

2/ - si ce n'est pas le cas, que me conseillerez vous pour trouver 60 proxys qu'il ne connaît pas ?
- par contre si c'est le cas, alors comment faire pour scraper massivement Google ? existe-t-il une ou des méthodes pour cela ?

conquering_lion · #2 2013-12-10 11:58:33

hello

j'avais ajouté un timer dans mon code de scraping, un chiffre aléatoire de 15 à 75 sec

tu scrap avec quoi ?

Jaffaar · #3 2013-12-10 12:01:16

conquering_lion a écrit :

j'avais ajouté un timer

C'est deja une solution pour cramer moin vite les {ip|proxies}

abusalih · #4 2013-12-10 12:10:41

Il y a plusieurs solution mais il faudra payer

Acheter des proxy privés en ajoutant un timer comme conquering_lion le suggère et utiliser l'api deathbycaptcha quand google te balancera son captcha.

Ou loué un serveur dédié chez ovh et ajouter le nombre d'ip que tu voudra + deathbycaptcha, c'est assez cher par contre.

effi10 · #5 2013-12-10 15:05:11

Même avis : timer aléatoire et... de la patience !

olaf · #6 2013-12-10 22:33:34

reverseproxies.com change tes proxies toutes les 10 minutes. Impeccable pour scrapper GG.

fludbis · #7 2013-12-11 18:27:34

Pour répondre à conquering_lion, je scrape avec un programme php de ma composition.

Et j'ai pensé moi aussi à faire des pauses diverses et variées dans mon code histoire de repousser le moment où google va réagir.

Ca n'a franchement pas donné grand-chose !

/

Sinon, je déduis de toutes vos réponses que si je veux scraper GG, il va falloir que j'investisse... !

reverseproxies.com est intéressant au niveau prix ( 12,5 $ par mois, c'est pas la mort ), mais mon experience me montre qu'il faudrait que je puisse changer de proxy toutes les deux minutes et non pas toutes les dix minutes.

De plus, je ne peux pas me permettre de mettre des timers trop long: je voulais analyser 100 000 pages de résultats, et je n'avais pas envie de laisser tourner mon ordi trois semaines là-dessus !

Mais en tous cas merci pour vos réponses, j'ai déjà pas mal d'infos avec tout ça.

kurah · #8 2013-12-12 10:12:21

fludbis non pas besoin de payer pour scrapper, c'est pour poster qu'il faut payer des proxy

Jaffaar · #9 2013-12-12 11:06:26

kurah a écrit :

fludbis non pas besoin de payer pour scrapper, c'est pour poster qu'il faut payer des proxy

Kurah c'est un autre cas ici, il va peu être devoiir payer une pool de private et puisqu'il code les deverouiller a la volée en brisant les captcha de verification google, bref ce n'est pas un cas d'utilisation de scrapebox ou quoi ...

C'est un projet de developpement d'outil (massif) de scrap, cela change un peu les règles

Walid · #10 2013-12-12 17:34:55

fludbis a écrit :

Mais je coince : au bout d'une centaine de pages de résultats de recherche délivrées, Google m'envoie ensuite une page avec un anti-spam

Je prends le risque de dire une bêtise. Si tu es arrivé à la 100ème page de résultats, c'est que tu as terminé avec cette requête... Il me semble que tu ne peux de toute façon pas arriver plus loin. Donc où est le problème ?

Es-tu certain que ton pb soit lié au nbre de pages de résultats que tu scrapes, ou est-ce que cela a à avoir avec le nombre de requêtes ?

fludbis a écrit :

( il faut lire un code dans une image et entrer le code ...., le genre de truc que je ne sais pas du tout programmer ! ).

Soit tu trouves une manière efficace de jongler avec les proxys, soit il te faudra passer par l'api d'un decaptcher.

Plus vraisemblablement il te faudra les deux, une très bonne gestion de proxys pour diminuer au maximum la confrontation au captcha et le service anti captcha quand il te sera demandé.

fludbis a écrit :

j'ai récolté 5 000 proxys gratuits sur le web et Google les connaissait tous sauf deux.

2/ 5000 ça veut dire que les sources ne sont pas fiables du tout. Après pas mal de galères de mon côté, j'arrive à me procurer des proxys gratuits pour scraper Google, et si moi j'y arrive n'importe qui peut y arriver. Le pari c'est d'arriver à en trouver une 100aine en 5 minutes.

Petit conseil pour garder seulement les bonnes sources de proxy

Eviter les listes de proxy publiées sur des blogs. En général elles sont pas dispo sur la home et il faut se rendre à l'url du post pour les voir. Le lendemain l'url est déjà obsolète les proxys sont tous morts. A moins de vouloir faire du one shot (et encore), rien à tirer de ces sources.

Préférer les proxys afficher sous forme de tableaux, toujours à la même url, l'url doit être toujours la même c'est la liste qui est mise à jour en temps réel ou presque. Quand tu scrapes ça tu te régales.

Concernant les proxy privés pour scraper, mois je suis déçu car ils se crament très très très vite. Avant c'était pas comme ça, mais là depuis que j'ai repris un peu le scraping je constate que Google est de plus en plus chaud, donc il faut une masse de proxy de toute façon (qu'il soit publics ou privés).

fludbis a écrit :

1/ est-ce que Google est effectivement capable d'identifier très très rapidement les proxys ?

Au moment où tu utilisent un proxy que tu as trouvé gratos, il est probable que tu ne sois pas le seul à l'utiliser. Il est possible de le détecter soit par un requête/min trop important mais aussi par type de requêtes. Je peux t'assurer qu'il est plus soupe au lait avec des requêtes du type site:.edu intitle:"solar system" + "your web site" qu'avec le type de requêtes que tu entends effectuer

D'ailleurs on parles de combien de requêtes ? J'ai regardé un peu ce que tu as fait, mais tu penses pas que tu pourrais optimiser le nombre et l'intérêt des requêtes que tu checkes ?

kurah · #11 2013-12-13 11:16:50

Je vais peut-être dire une bêtise, mais pourquoi ne pas utiliser en temps réel un ensemble de sources de proxy gratuits (disons par exemple une vingtaine), pour récupérer des milliers de proxy. Une fois ceux-ci testé et validé, on lance le scrape ?

Je me demande comment l'outil smallseotools fonctionne, car il marche nikel et pourtant il a des milliers de requêtes par jour...

Walid · #12 2013-12-13 12:34:16

kurah a écrit :

Je me demande comment l'outil smallseotools fonctionne, car il marche nikel et pourtant il a des milliers de requêtes par jour...

Mmm... intéressante remarque. J'ai voulu vérifier un truc là maintenant mais smallseotools n'est pas accessible pr l'instant. Et si les requêtes n'étaient pas effectuées directement via Google mais via un pool de moteurs de recherche "powered by Google"

Généralement ces moteurs de recherche sont bridés par Google, par exemple tu ne peux pas aller au delà de la page 10, donc on te donne les positions seulement si tu es dans les 100 premiers.

Aussi, ces moteurs sont bridés au niveau des opérateurs de recherche avancés, normalement tu ne peux pas faire ce genre de requêtes farfelues inurl:wordpress site:.edu intext:"leave a comment" +inurl:09/2012

Faudrait aller sur Google taper ce footprint, prendre l'url du premier résultat et aller sur smallseotools et lancer un rank tracking de l'url sur le footprint en question

S'il te donne aucun résultat ba ptet qu'il passe pas par Google. Si tu as le rank alors moi aussi j'aimerai bien savoir comment ils font

kurah · #13 2013-12-13 14:48:45

Effectivement, le site est down pour l'instant. J'espère que c'est juste temporaire sinon je suis vraiment ultra dégouté. C'était top pour le suivi de position.

A la base il permet de scanner bien au delà des 10 premières pages de résultats, tu peux choisir jusqu'à 50 pages de résultats je crois.

Walid · #14 2013-12-13 15:18:14

Désolé mais tu as toujours scrapebox je sais j'insiste avec scrapebox

kurah · #15 2013-12-13 19:36:51

SST remarche

🟣 Scraper Google

#1 2013-12-10 02:22:21

Scraper Google

#2 2013-12-10 11:58:33

Re : Scraper Google

#3 2013-12-10 12:01:16

Re : Scraper Google

#4 2013-12-10 12:10:41

Re : Scraper Google

#5 2013-12-10 15:05:11

Re : Scraper Google

#6 2013-12-10 22:33:34

Re : Scraper Google

#7 2013-12-11 18:27:34

Re : Scraper Google

#8 2013-12-12 10:12:21

Re : Scraper Google

#9 2013-12-12 11:06:26

Re : Scraper Google

#10 2013-12-12 17:34:55

Re : Scraper Google

#11 2013-12-13 11:16:50

Re : Scraper Google

#12 2013-12-13 12:34:16

Re : Scraper Google

#13 2013-12-13 14:48:45

Re : Scraper Google

#14 2013-12-13 15:18:14

Re : Scraper Google

#15 2013-12-13 19:36:51

Re : Scraper Google

Pied de page des forums