Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

#26 2016-03-25 10:04:26

Mention Monitorank
Soldier
Lieu : Ardèche
Inscription : 2015-03-13
Messages : 431

Développement PHP
Développement JS
intégration Html Css
Data Base Admin
Site Web

Re : Utilisation d'AWS pour crawl google

Je doute que AWS fournisse 1000 IP différentes pour 1000 instances non ? Surtout pour le même compte. A vérifier smile


Monitorank : suivi de positions (Google Search, Images, Actu, YouTube, Amazon, TripAdvisor, Play Store...)
Testez gratuitement : https://www.monitorank.com

Démo : https://demo.monitorank.com

Hors ligne

#27 2016-03-25 10:57:58

Mention ciboulette
Soldier
Inscription : 2015-11-01
Messages : 347

Re : Utilisation d'AWS pour crawl google

Monitorank a écrit :

Je doute que AWS fournisse 1000 IP différentes pour 1000 instances non ? Surtout pour le même compte. A vérifier smile

Si Si .... bon la je lance pas 1000 instances d'un coup mets tests son a 15/20 instance simultané a 1KW/min, donc 1200keywords/heures.

Colonne la plus a droite :
mini_468240awsinstance.jpg

Hors ligne

#28 2016-03-25 10:59:18

Mention ciboulette
Soldier
Inscription : 2015-11-01
Messages : 347

Re : Utilisation d'AWS pour crawl google

Normalement d'apres leurs document c'est 1000 instance max par compte (donc par CB/Email je présume)

Hors ligne

#29 2016-03-25 16:16:04

Mention Monitorank
Soldier
Lieu : Ardèche
Inscription : 2015-03-13
Messages : 431

Développement PHP
Développement JS
intégration Html Css
Data Base Admin
Site Web

Re : Utilisation d'AWS pour crawl google

OK smile
A voir si ces IP ne sont pas blacklisté par google aussi. Mais c'est très intéressant comme idée smile


Monitorank : suivi de positions (Google Search, Images, Actu, YouTube, Amazon, TripAdvisor, Play Store...)
Testez gratuitement : https://www.monitorank.com

Démo : https://demo.monitorank.com

Hors ligne

#30 2016-03-25 17:54:11

Mention ciboulette
Soldier
Inscription : 2015-11-01
Messages : 347

Re : Utilisation d'AWS pour crawl google

Monitorank a écrit :

OK smile
A voir si ces IP ne sont pas blacklisté par google aussi. Mais c'est très intéressant comme idée smile

a premiere vue non, maintenant tu peu changer d'ip au pire si elle est blacklist smile
En 2012 AWS c'était deja 450.000 serveurs, maintenant ils on 40 Datacenter pour leur AWS ...

Sachant que tu as aussi Azure de microsoft et Google Compute Engine aussi voir alibaba cloud.
Tarifs sur 1H (plus petite des machines)
Google : $0.005
Amazon : $0.0065
Alibaba : $0.04000
Microsoft : $0.08

Bon google et amazon explose tout coté tarification, avec un jolie petit plus a Google car il facture a la minutes...

Donc 100 instance pour 30min
$0.25 chez google
$0.65 chez amazon

Si on scrapp 100min par jours ça fait sur le mois :
$7.5 chez google
$19.5 chez amazon
Donc une belle diff, la je vais voir pour passé mon tools sur google voir si ça marche bien (on sais pas peut-etre que google va blacklist ses propres ip lol)

Hors ligne

#31 2016-03-29 15:10:09

Mention ciboulette
Soldier
Inscription : 2015-11-01
Messages : 347

Re : Utilisation d'AWS pour crawl google

Bon voila j'ai testé GCE (Google Compute Engine) .... franchement moins agréable a utilisé que AWS, ils on un shell et je suis passé par la pour crée les instances, mais sinon ça marche aussi bien que AWS une fois que le script est lancé.... mais je reste sur mon AWS, car utilisé google pour scrappé google , je pense qu'il vont venir me faire chier a force smile

Hors ligne

#32 2016-04-24 13:35:23

Mention otassel
Recruit
Inscription : 2016-04-24
Messages : 13

Netlinking
Networking SEO
Développement PHP
Adminstration Serveur

Re : Utilisation d'AWS pour crawl google

Je vous invite à jeter un oeil à AWS Lambda : les avantages d'EC2 avec une tarification à la demande et un potentiel d'automatisation très élevé en couplant avec AWS SNS ou des déclencheurs S3 / DynamoDB / Custom...

Concernant les instances t2.nano, j'avais été euphorique lors du lancement mais c'est à oublier : le moindre script qui consomme un minimum de CPU et les ressources sont par la suite bridées... J'utilise que des instances m3.medium au minimum

Hors ligne

#33 2016-04-24 13:48:10

Mention Walid
Soldier
Inscription : 2013-02-07
Messages : 1 983

Sémantique
Audit et Analyse
Netlinking
PHP

Re : Utilisation d'AWS pour crawl google

Pas testé mais AWS est l'un des trucs les plus cramés. Il faut pas juger avant d'avoir gouté, mais là pour le coup je suis très sceptique sur le succès de l'opération.


Fatigué du SEO sans résultats ? Je te propose :

1 => Un vrai Road Map SEO - 2 => Une Optimisation aux petits oignons - 3 => Des Prestations de Trust Linking
Mon Id Skype : walid.gabteni - Mon site : Light On SEO

Hors ligne

#34 2016-05-11 07:39:43

Mention ciboulette
Soldier
Inscription : 2015-11-01
Messages : 347

Re : Utilisation d'AWS pour crawl google

otassel a écrit :

Je vous invite à jeter un oeil à AWS Lambda : les avantages d'EC2 avec une tarification à la demande et un potentiel d'automatisation très élevé en couplant avec AWS SNS ou des déclencheurs S3 / DynamoDB / Custom...

Concernant les instances t2.nano, j'avais été euphorique lors du lancement mais c'est à oublier : le moindre script qui consomme un minimum de CPU et les ressources sont par la suite bridées... J'utilise que des instances m3.medium au minimum

faut surtout voir de quoi a besoin ton script, juste pour du crawl franchement le nano passe niquel vu que tu lui demande pas grand chose a ton script


Bigorno a écrit :

Pas testé mais AWS est l'un des trucs les plus cramés. Il faut pas juger avant d'avoir gouté, mais là pour le coup je suis très sceptique sur le succès de l'opération.

j l'utilise j'ai fait tout un systeme basé dessus et ça marche tres bien

Hors ligne

#35 2016-05-11 07:57:22

Mention KrustyHack
Soldier
Inscription : 2015-12-02
Messages : 638

Adminstration Serveur
Sécurité
Scraping
Développement Python
Site Web

Re : Utilisation d'AWS pour crawl google

Ay,

Couplé avec un container Docker Squid Proxy c'est encore mieux: https://www.nicolashug.com/developpement/docker/monter-proxy-30-secondes-docker-squid

Comme ça tu lance ton instance, tu lance ton container proxy, tu utilise ton instance comme un proxy pour n'importe quelle appli (GSA, Scrapebox, ...) et une fois l'ip cramée tu destroy l'instance et tu en lances une autre.


Infrastructure, VPS, serveurs, ... J'ai forcément ce qu'il te faut, alors contacte-moi !

Hors ligne

#36 2016-05-12 07:58:20

Mention ciboulette
Soldier
Inscription : 2015-11-01
Messages : 347

Re : Utilisation d'AWS pour crawl google

KrustyHack a écrit :

Ay,

Couplé avec un container Docker Squid Proxy c'est encore mieux: https://www.nicolashug.com/developpement/docker/monter-proxy-30-secondes-docker-squid

Comme ça tu lance ton instance, tu lance ton container proxy, tu utilise ton instance comme un proxy pour n'importe quelle appli (GSA, Scrapebox, ...) et une fois l'ip cramée tu destroy l'instance et tu en lances une autre.


moi perso j'ai fait simple:
J'ai un serveur Mysql externe a Amazon, j'ai crée une image d'instance sur AWS avec mon script dessus qui fait en gros :
1/ requête au serveur mysql (externe) pour savoir quel KW crawler (json)
2/ mon script sur l'instance crawl google
3/ il insert une ligne en base de donnée sur le serveur mysql

Hors ligne

#37 2016-05-12 08:16:24

Mention KrustyHack
Soldier
Inscription : 2015-12-02
Messages : 638

Adminstration Serveur
Sécurité
Scraping
Développement Python
Site Web

Re : Utilisation d'AWS pour crawl google

Ay @Ciboulette,

Là c'est encore plus simple ! Quand tu lance ton instance avec mon container, ton instance devient un proxy. Donc pas besoin de monter à chaque fois une instance avec ton script. Ton script tu le poses sur un serveur fixe et tu lui fais utiliser tes proxies perso. Enfin sauf si ton script ne gère pas les proxies, dans ce cas oui ta solution est plus simple.


Infrastructure, VPS, serveurs, ... J'ai forcément ce qu'il te faut, alors contacte-moi !

Hors ligne

#38 2016-05-12 08:26:49

Mention ciboulette
Soldier
Inscription : 2015-11-01
Messages : 347

Re : Utilisation d'AWS pour crawl google

KrustyHack a écrit :

Ay @Ciboulette,

Là c'est encore plus simple ! Quand tu lance ton instance avec mon container, ton instance devient un proxy. Donc pas besoin de monter à chaque fois une instance avec ton script. Ton script tu le poses sur un serveur fixe et tu lui fais utiliser tes proxies perso. Enfin sauf si ton script ne gère pas les proxies, dans ce cas oui ta solution est plus simple.

ba mon script gere les proxies a la base (c'est du curl), mais ton systeme reste plus complexe, car quand tu lance ton instance en mode proxys etc, tu dois renvoyé l'IP a ton soft.

Moi j'ai crée une instance une fois propre (installation de php, de mon script etc, CRON) , j'en est fait une image (genre que je nomme : google-crawl-1min).

Et quand je lance une instance je lui dit d'utilisé cette image (google-crawl-1min), donc tout s’installe et crawl automatiquement (CRON déjà installé).

Hors ligne

Pied de page des forums