Vous n'êtes pas identifié(e).
Hello,
il semblerait qu'il ne soit plus possible de scraper les SERPs avec Google Spreadsheet. Tous les docs que j'utilisais dans cette optique sont HS.
C'est pareil chez vous j'imagine ?
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne
Erf, j'ai pas de fichier actif là dessus en ce moment, t'as vérifié si tu es vraiment bloqué ou si c'est pas le xpath qui à changé ?
Si besoin, je pourrais t'aider à te faire un petit php qui ferait office de fusible entre spreadsheet et Google, mais ça nécessite que tu ai des proxies.
Petit code rapide pour avoir le miroir de la page google si n'arrive pas à régler plus facilement ton problème.
Tu le met en ligne sur un serveur et tu tape dessus avec q=tonmotcle plutôt que taper directement google, par contre faudrait faire attention à pas le lancer sur 5 000 ligne excel à la même seconde quoi si tu veux garder tes proxies . (j'ai pas testé le code mais normalement ça devrait marcher.
Dernière modification par Mitsu (2016-01-12 07:34:36)
🔴 Hors ligne
Hello @Mistu, et merci pour le retour.
A vrai dire, j'utilise rarement Spreadsheet, je préfère scraper sur Excel. Question d'habitude. Du coup ça m'étonnerait que ce soit le Xpath qui ait changé puisque cela fonctionne partout ailleurs (Excel, RDDZ, etc etc.). Je pense plutôt à une limitation volontaire de la part de Google.
Un doc pour tester au passage : http://www.labnol.org/internet/google-w … ing/28450/.
Merci aussi pour le petit bout de code. A priori ça ne devrait pas me servir dans ce cas précis, mais pour mon apprentissage en cours du PHP oui par contre
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne
Parfait, d'ailleurs avec excel tu utilises ton ip local, du coup quand t'ouvre ton fichier et que ta machine scrapp plein de serp à la volé t'es pas vite dégagé ?
🔴 Hors ligne
Si c'est clair qu'Excel n'est pas taillé pour faire du volume. Cela dit, j'ai des docs qui tournent et effectuent plus de 150 requêtes à partir de la même IP sans se faire bannir. Ne me demande pas pourquoi ça passe par contre
Après, tu peux coller des proxies dans SEO Tools for Excel. Ça fait environ un an que j'ai prévu un petit article de blog là-dessus ^^
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne
@Mitsu, nickel, le script fonctionne. J'ai juste un petit souci d'encodage : http://www.awesomescreenshot.com/image/ … 5c0e302570
Ah et ça ne fonctionne qu'avec des requêtes d'un seul mot (testé avec + ou %20 mais ça ne passe pas j'obtiens une erreur 400 bad request).
Dernière modification par Cyd (2016-01-12 08:22:08)
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne
Mmmh, essayes avec un urlencode pour le problème de plusieurs mots :
echo curl("http://www.google.fr/search?q=".urlencode($_GET['q'])."&num=100");
Les accents c'est une plaie sinon je regard ce soir ^^'. Surement regarder l'encodage du fichier, mêttre un header http + utiliser du utf8_encode/decode ce genre de conneries.
🔴 Hors ligne
🔴 Hors ligne
Testé à l'instant. Le urlencode permet d'ajouter un + dans la requête et donc d'avoir des requêtes composées de plusieurs mots. Parfait. En revanche, j'ai toujours des problèmes d'encodage sur la page en elle-même.
On est d'accord, pour les proxies le format c'est bien ip:port@login:password ?
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne
Si c'est clair qu'Excel n'est pas taillé pour faire du volume. Cela dit, j'ai des docs qui tournent et effectuent plus de 150 requêtes à partir de la même IP sans se faire bannir. Ne me demande pas pourquoi ça passe par contre
Après, tu peux coller des proxies dans SEO Tools for Excel. Ça fait environ un an que j'ai prévu un petit article de blog là-dessus ^^
Ce mois-ci, l'article tomberait à pique...
Webmarketer depuis 2008, passionné de SEO, de Rennes. Mon site : Ledzep SEO à Rennes
🔴 Hors ligne
Cyd a écrit :Si c'est clair qu'Excel n'est pas taillé pour faire du volume. Cela dit, j'ai des docs qui tournent et effectuent plus de 150 requêtes à partir de la même IP sans se faire bannir. Ne me demande pas pourquoi ça passe par contre
Après, tu peux coller des proxies dans SEO Tools for Excel. Ça fait environ un an que j'ai prévu un petit article de blog là-dessus ^^
Ce mois-ci, l'article tomberait à pique...
Je note
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne
Tiens tu peux essayer ça, j'avais pas compris que tu avais proxy avec identifiants.
Aussi fait en sorte que ton fichier soit enregistré au format utf8, tu auras peut être un peu moins de problème d'accents (A part dans les cas ou les gens font n'importe quoi dans leur title avec des symboles bizarre lol)
🔴 Hors ligne
j'avais pas compris que tu avais proxy avec identifiants.
En effet j'aurais dû préciser.
Aussi fait en sorte que ton fichier soit enregistré au format utf8
Oui je le fais systématiquement.
En tout cas nickel, cette version fonctionne parfaitement.
Thanx !!
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne
Fonctionne très bien chez moi avec ce script
Arnaud BOYER, eMarketing Manager @ Label Group
🔴 Hors ligne
Donc quand tu dupliques ce doc et que tu changes le KW, tu obtiens bien des résultats en colonne C ?
Chez moi tout est vide !
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne
🔴 Hors ligne
@Mitsu Je ne comprends pas j'utilise le même code que toi :
echo utf8_encode($data);
Mais moi j'ai le droit à :
302 Moved
The document has moved here
avec sur "here" un lien vers une page d’authentification avec captcha ...
Tu as une idée de pourquoi ?
🔴 Hors ligne
De mémoire toutes les requêtes doivent être faites en httpS
As tu essayé en remplacant http par https ?
https://www.google.fr/search?q=php&num=100&gws_rd=ssl
🔴 Hors ligne
🔴 Hors ligne