Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 Scrap SERP Google Spreadsheet


#1 2016-01-12 05:45:50

Mention Cyd
🥉 Grade : Scout

AuxiliaireStratège1000 messagesMembre Hospitalier
Lieu : Rennes
Inscription : 2013-01-18
Messages : 1 566
Likes : 3

Audit et Analyse
Netlinking
Cloaking
Marketing

Scrap SERP Google Spreadsheet

Hello,

il semblerait qu'il ne soit plus possible de scraper les SERPs avec Google Spreadsheet. Tous les docs que j'utilisais dans cette optique sont HS.

C'est pareil chez vous j'imagine ?


Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr

0
J'aime ❤️

🔴 Hors ligne

#2 2016-01-12 07:13:00

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 9

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Scrap SERP Google Spreadsheet

Erf, j'ai pas de fichier actif là dessus en ce moment, t'as vérifié si tu es vraiment bloqué ou si c'est pas le xpath qui à changé ?

Si besoin, je pourrais t'aider à te faire un petit php qui ferait office de fusible entre spreadsheet et Google, mais ça nécessite que tu ai des proxies.

Petit code rapide pour avoir le miroir de la page google si n'arrive pas à régler plus facilement ton problème.
Tu le met en ligne sur un serveur et tu tape dessus avec q=tonmotcle plutôt que taper directement google, par contre faudrait faire attention à pas le lancer sur 5 000 ligne excel à la même seconde quoi si tu veux garder tes proxies hmm. (j'ai pas testé le code mais normalement ça devrait marcher.

<?php
  //scrappe cette page avec ?q=tonmotcle
    function curl($url) {
    //Define Proxies and useragent
    $proxies = array(
      "117.135.250.134:80",
      "117.135.250.134:80",
      "117.135.250.134:80",
      "117.135.250.134:80",
      "117.135.250.134:80",
      "117.135.250.134:80",
      "117.135.250.134:80"
      //...
    );
    $ua = array(
      "Mozilla/5.0 (Linux; U; Android 2.1-update1; fr-fr; GTI9000 Build/ECLAIR) AppleWebKit/530.17 (KHTML, like Gecko) Version/4.0 Mobile Safari/530.17",
      "Mozilla/5.0 (Linux; U; Android 2.1-update1; fr-fr; GTI9000 Build/ECLAIR) AppleWebKit/530.17 (KHTML, like Gecko) Version/4.0 Mobile Safari/530.17",
      "Mozilla/5.0 (Linux; U; Android 2.1-update1; fr-fr; GTI9000 Build/ECLAIR) AppleWebKit/530.17 (KHTML, like Gecko) Version/4.0 Mobile Safari/530.17"
      //...
    );
 
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_USERAGENT, array_rand($ua));
    curl_setopt($ch, CURLOPT_PROXY, array_rand($proxies));
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
        $data = curl_exec($ch);
        curl_close($ch);
        return $data;
    }
 
  echo curl("http://www.google.fr/search?q=".$_GET['q']."&num=100");
?>

Dernière modification par Mitsu (2016-01-12 07:34:36)

0
J'aime ❤️

🔴 Hors ligne

#3 2016-01-12 07:56:58

Mention Cyd
🥉 Grade : Scout

AuxiliaireStratège1000 messagesMembre Hospitalier
Lieu : Rennes
Inscription : 2013-01-18
Messages : 1 566
Likes : 3

Audit et Analyse
Netlinking
Cloaking
Marketing

Re : Scrap SERP Google Spreadsheet

Hello @Mistu, et merci pour le retour.

A vrai dire, j'utilise rarement Spreadsheet, je préfère scraper sur Excel. Question d'habitude. Du coup ça m'étonnerait que ce soit le Xpath qui ait changé puisque cela fonctionne partout ailleurs (Excel, RDDZ, etc etc.). Je pense plutôt à une limitation volontaire de la part de Google.

Un doc pour tester au passage : http://www.labnol.org/internet/google-w … ing/28450/.

Merci aussi pour le petit bout de code. A priori ça ne devrait pas me servir dans ce cas précis, mais pour mon apprentissage en cours du PHP oui par contre smile


Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr

0
J'aime ❤️

🔴 Hors ligne

#4 2016-01-12 08:01:11

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 9

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Scrap SERP Google Spreadsheet

Parfait, d'ailleurs avec excel tu utilises ton ip local, du coup quand t'ouvre ton fichier et que ta machine scrapp plein de serp à la volé t'es pas vite dégagé ?

0
J'aime ❤️

🔴 Hors ligne

#5 2016-01-12 08:11:12

Mention Cyd
🥉 Grade : Scout

AuxiliaireStratège1000 messagesMembre Hospitalier
Lieu : Rennes
Inscription : 2013-01-18
Messages : 1 566
Likes : 3

Audit et Analyse
Netlinking
Cloaking
Marketing

Re : Scrap SERP Google Spreadsheet

Si c'est clair qu'Excel n'est pas taillé pour faire du volume. Cela dit, j'ai des docs qui tournent et effectuent plus de 150 requêtes à partir de la même IP sans se faire bannir. Ne me demande pas pourquoi ça passe par contre hmm

Après, tu peux coller des proxies dans SEO Tools for Excel. Ça fait environ un an que j'ai prévu un petit article de blog là-dessus ^^


Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr

0
J'aime ❤️

🔴 Hors ligne

#6 2016-01-12 08:19:16

Mention Cyd
🥉 Grade : Scout

AuxiliaireStratège1000 messagesMembre Hospitalier
Lieu : Rennes
Inscription : 2013-01-18
Messages : 1 566
Likes : 3

Audit et Analyse
Netlinking
Cloaking
Marketing

Re : Scrap SERP Google Spreadsheet

@Mitsu, nickel, le script fonctionne. J'ai juste un petit souci d'encodage : http://www.awesomescreenshot.com/image/ … 5c0e302570

Ah et ça ne fonctionne qu'avec des requêtes d'un seul mot (testé avec + ou %20 mais ça ne passe pas j'obtiens une erreur 400 bad request).

Dernière modification par Cyd (2016-01-12 08:22:08)


Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr

0
J'aime ❤️

🔴 Hors ligne

#7 2016-01-12 08:45:23

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 9

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Scrap SERP Google Spreadsheet

Mmmh, essayes avec un urlencode pour le problème de plusieurs mots :
echo curl("http://www.google.fr/search?q=".urlencode($_GET['q'])."&num=100");

Les accents c'est une plaie sinon je regard ce soir ^^'. Surement regarder l'encodage du fichier, mêttre un header http + utiliser du utf8_encode/decode ce genre de conneries.

0
J'aime ❤️

🔴 Hors ligne

#8 2016-01-12 08:53:20

Mention razbithume
🥉 Grade : Scout

AuxiliaireStratègeMembre Hospitalier
Inscription : 2013-09-17
Messages : 827
Likes : 1

Audit et Analyse
Scraping
Marketing
Site Web

Re : Scrap SERP Google Spreadsheet

j'ai également des problemes avec spreadsheet


Vive les regex et le xpath !

0
J'aime ❤️

🔴 Hors ligne

#9 2016-01-12 08:53:39

Mention Cyd
🥉 Grade : Scout

AuxiliaireStratège1000 messagesMembre Hospitalier
Lieu : Rennes
Inscription : 2013-01-18
Messages : 1 566
Likes : 3

Audit et Analyse
Netlinking
Cloaking
Marketing

Re : Scrap SERP Google Spreadsheet

Testé à l'instant. Le urlencode permet d'ajouter un + dans la requête et donc d'avoir des requêtes composées de plusieurs mots. Parfait. En revanche, j'ai toujours des problèmes d'encodage sur la page en elle-même.

On est d'accord, pour les proxies le format c'est bien ip:port@login:password ?


Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr

0
J'aime ❤️

🔴 Hors ligne

#10 2016-01-12 09:07:53

Mention Ledzepeace
🥉 Grade : Scout

AuxiliaireStratège
Lieu : Rennes
Inscription : 2014-05-22
Messages : 269
Likes : 2

Sémantique
Audit et Analyse
Netlinking
Marketing
Site Web

Re : Scrap SERP Google Spreadsheet

Cyd a écrit :

Si c'est clair qu'Excel n'est pas taillé pour faire du volume. Cela dit, j'ai des docs qui tournent et effectuent plus de 150 requêtes à partir de la même IP sans se faire bannir. Ne me demande pas pourquoi ça passe par contre hmm

Après, tu peux coller des proxies dans SEO Tools for Excel. Ça fait environ un an que j'ai prévu un petit article de blog là-dessus ^^

Ce mois-ci, l'article tomberait à pique... roll


Webmarketer depuis 2008, passionné de SEO, de Rennes. Mon site : Ledzep SEO à Rennes

0
J'aime ❤️

🔴 Hors ligne

#11 2016-01-12 09:10:02

Mention Cyd
🥉 Grade : Scout

AuxiliaireStratège1000 messagesMembre Hospitalier
Lieu : Rennes
Inscription : 2013-01-18
Messages : 1 566
Likes : 3

Audit et Analyse
Netlinking
Cloaking
Marketing

Re : Scrap SERP Google Spreadsheet

Ledzepeace a écrit :
Cyd a écrit :

Si c'est clair qu'Excel n'est pas taillé pour faire du volume. Cela dit, j'ai des docs qui tournent et effectuent plus de 150 requêtes à partir de la même IP sans se faire bannir. Ne me demande pas pourquoi ça passe par contre hmm

Après, tu peux coller des proxies dans SEO Tools for Excel. Ça fait environ un an que j'ai prévu un petit article de blog là-dessus ^^

Ce mois-ci, l'article tomberait à pique... roll

Je note wink


Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr

0
J'aime ❤️

🔴 Hors ligne

#12 2016-01-12 09:18:04

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 9

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Scrap SERP Google Spreadsheet

<?php
header('Content-Type: text/html; charset=utf-8');
  //scrappe cette page avec ?q=tonmotcle
    function curl($url) {
    //Define Proxies and useragent
    $proxies = array(
      array("117.135.250.134:80","username:password"),
      array("117.135.250.134:80","username:password")
      //...
    );
    $ua = array(
      "Mozilla/5.0 (Linux; U; Android 2.1-update1; fr-fr; GTI9000 Build/ECLAIR) AppleWebKit/530.17 (KHTML, like Gecko) Version/4.0 Mobile Safari/530.17",
      "Mozilla/5.0 (Linux; U; Android 2.1-update1; fr-fr; GTI9000 Build/ECLAIR) AppleWebKit/530.17 (KHTML, like Gecko) Version/4.0 Mobile Safari/530.17",
      "Mozilla/5.0 (Linux; U; Android 2.1-update1; fr-fr; GTI9000 Build/ECLAIR) AppleWebKit/530.17 (KHTML, like Gecko) Version/4.0 Mobile Safari/530.17"
      //...
    );
 
        $ch = curl_init();
$proxy = array_rand($proxies);
        curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_USERAGENT, array_rand($ua));
    curl_setopt($ch, CURLOPT_PROXY,$proxy[0]);
    curl_setopt($ch, CURLOPT_PROXYUSERPWD, $proxy[1]);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
        $data = curl_exec($ch);
        curl_close($ch);
        return $data;
    }
 
  echo utf8_encode(curl("http://www.google.fr/search?q=".urlencode($_GET['q'])."&num=100"));
?>
 

Tiens tu peux essayer ça, j'avais pas compris que tu avais proxy avec identifiants.
Aussi fait en sorte que ton fichier soit enregistré au format utf8, tu auras peut être un peu moins de problème d'accents (A part dans les cas ou les gens font n'importe quoi dans leur title avec des symboles bizarre lol)

0
J'aime ❤️

🔴 Hors ligne

#13 2016-01-12 09:48:13

Mention Cyd
🥉 Grade : Scout

AuxiliaireStratège1000 messagesMembre Hospitalier
Lieu : Rennes
Inscription : 2013-01-18
Messages : 1 566
Likes : 3

Audit et Analyse
Netlinking
Cloaking
Marketing

Re : Scrap SERP Google Spreadsheet

Mitsu a écrit :

j'avais pas compris que tu avais proxy avec identifiants.

En effet j'aurais dû préciser.

Mitsu a écrit :

Aussi fait en sorte que ton fichier soit enregistré au format utf8

Oui je le fais systématiquement.

En tout cas nickel, cette version fonctionne parfaitement.

Thanx !! smile


Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr

0
J'aime ❤️

🔴 Hors ligne

#14 2016-01-12 11:25:02

Mention duan78
🥉 Grade : Scout

AuxiliaireStratègeBusiness ManConsomateur de Liens
Lieu : Paris
Inscription : 2012-08-31
Messages : 589
Likes : 1

Audit et Analyse
Sémantique
Marketing
Social Engineering
Site Web

Re : Scrap SERP Google Spreadsheet

Fonctionne très bien chez moi avec ce script


Arnaud BOYER, eMarketing Manager @ Label Group

0
J'aime ❤️

🔴 Hors ligne

#15 2016-01-12 12:36:42

Mention Cyd
🥉 Grade : Scout

AuxiliaireStratège1000 messagesMembre Hospitalier
Lieu : Rennes
Inscription : 2013-01-18
Messages : 1 566
Likes : 3

Audit et Analyse
Netlinking
Cloaking
Marketing

Re : Scrap SERP Google Spreadsheet

Donc quand tu dupliques ce doc et que tu changes le KW, tu obtiens bien des résultats en colonne C ?

Chez moi tout est vide !


Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr

0
J'aime ❤️

🔴 Hors ligne

#16 2016-01-12 14:02:39

Mention X3SED
🥉 Grade : Scout

AuxiliaireStratège10likesMembre Hospitalier
Inscription : 2015-05-13
Messages : 896
Likes : 13

Netlinking
Scraping
Automatisation Web
Comunity Management
Site Web

Re : Scrap SERP Google Spreadsheet

duan78 a écrit :

Fonctionne très bien chez moi avec ce script

Fonctionne pas chez moi ... Les scripts de Rank Tank ne fonctionnent plus aussi depuis pas mal de temps hmm J'avais pourtant bidouiller le script pour créer une sorte de Index checker.


_________
.

0
J'aime ❤️

🔴 Hors ligne

#17 2016-01-13 10:59:06

Mention durando
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-04-25
Messages : 379
Likes : 6

Audit et Analyse
Html Css

Re : Scrap SERP Google Spreadsheet

Marche pas non plus chez moi.

0
J'aime ❤️

🔴 Hors ligne

#18 2016-04-08 10:03:32

Mention taggada
🥉 Grade : Scout

Auxiliaire
Inscription : 2016-02-22
Messages : 88
Likes : 0

Re : Scrap SERP Google Spreadsheet

@Mitsu Je ne comprends pas j'utilise le même code que toi :

  $url = "http://www.google.fr/search?q=php&num=100";
  $proxy = $proxies[$i].":80";
 
  $ch = curl_init();
  curl_setopt($ch, CURLOPT_URL,$url);
  curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Linux; U; Android 2.1-update1; fr-fr; GTI9000 Build/ECLAIR) AppleWebKit/530.17 (KHTML, like Gecko) Version/4.0 Mobile Safari/530.17');
  curl_setopt($ch, CURLOPT_PROXY, $proxy);
  curl_setopt($ch, CURLOPT_PROXYUSERPWD, $proxyauth);
  //curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
  //curl_setopt($ch, CURLOPT_HEADER, 1);
  $data = curl_exec($ch);
  curl_close($ch);

  echo utf8_encode($data);

Mais moi j'ai le droit à :

302 Moved

The document has moved here

avec sur "here" un lien vers une page d’authentification avec captcha ...

Tu as une idée de pourquoi ?

0
J'aime ❤️

🔴 Hors ligne

#19 2016-04-08 10:59:10

Mention DevForEver
🥉 Grade : Scout

AuxiliaireIngénieur web10likes
Lieu : Alsace
Inscription : 2016-02-16
Messages : 178
Likes : 13

PHP
JAVA
DB Admin
Sécurité

Re : Scrap SERP Google Spreadsheet

De mémoire toutes les requêtes doivent être faites en httpS
As tu essayé en remplacant http par https ?
https://www.google.fr/search?q=php&num=100&gws_rd=ssl

0
J'aime ❤️

🔴 Hors ligne

#20 2016-04-08 11:22:07

Mention taggada
🥉 Grade : Scout

Auxiliaire
Inscription : 2016-02-22
Messages : 88
Likes : 0

Re : Scrap SERP Google Spreadsheet

Parfait  @DevForEver ! Merci beaucoup big_smile

0
J'aime ❤️

🔴 Hors ligne

Pied de page des forums