Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 Utilisation d'AWS pour crawl google


#1 2016-03-18 07:58:24

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Utilisation d'AWS pour crawl google

Quelqu'un a deja utilisé les services AWS pour crawl google?
ça marche ou pas?

0
J'aime ❤️

🔴 Hors ligne

#2 2016-03-18 08:02:44

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 8

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Utilisation d'AWS pour crawl google

J'ai jamais utilisé AWS, il parrait que ça revient vite cher mais le sujet m'intéresse, tu sais comment ça se passe au niveau des ips ?

0
J'aime ❤️

🔴 Hors ligne

#3 2016-03-18 08:10:54

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Re : Utilisation d'AWS pour crawl google

Mitsu a écrit :

J'ai jamais utilisé AWS, il parrait que ça revient vite cher mais le sujet m'intéresse, tu sais comment ça se passe au niveau des ips ?

j'utilise aws pour certaine choses, mais j'ai justement jamais testé sur le web.
Maintenant quand tu crée un compte devloppeur il t'offre 750heures la première année sur toute leurs gammes MICRO.

Bon coté prix tu paie a l'heures ...un t2.nano (en gros une machine avec un tout petit processeur au final) tu paie ça 0.007€/heures

mon idée est simple :

Si j'ai 10.000 keywords, je lance 1000 instance T2.nano sur AWS et sur chaque instance je demande un crawl de 10 keywords heures ... (ce qui est faible quand même). ça me coute donc au final : 1000x0.007€ = 7€ si je fait ça toute les semaine pour avoir un suivie ça me fait 28€/mois , donc pas cher et comme avantage de pas avoir a cramé d'IP etc etc ...

sachant que il existe la même chose chez google (google compute) et microsoft (azure)

0
J'aime ❤️

🔴 Hors ligne

#4 2016-03-18 08:40:28

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 8

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Utilisation d'AWS pour crawl google

TU dit que tu ne crames pas d'ip, c'est à dire, si tu bourrine sur 1k mots sur une machine tu auras la même ip non ?

0
J'aime ❤️

🔴 Hors ligne

#5 2016-03-18 08:57:17

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Re : Utilisation d'AWS pour crawl google

Mitsu a écrit :

TU dit que tu ne crames pas d'ip, c'est à dire, si tu bourrine sur 1k mots sur une machine tu auras la même ip non ?

oui la tu te crame sans doute, mais pourquoi bourriner 1000 keywords sur une machine, vu que tu ne paie la machine que a l'heurs (a la minutes chez microsoft & google compute) ?

tu a besoin de crawler combien de keywords toi a titre perso? moi je suis a environ 10.000 ... avec un crawl total par semaine ça me coûterai 28€/mois avec un crawl toutes les 8minutes par machines , donc on pourrai rapidement tombé sur du 12/14€ si on accélére la cadence

je pose la question sur aws car je me dit que dans votre blacklab vous avez peut-être déjà fait des test la dessus.

0
J'aime ❤️

🔴 Hors ligne

#6 2016-03-22 09:21:43

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Re : Utilisation d'AWS pour crawl google

Bon premier test assez doux et a premiere vue ça marche, en fin de semaine je vais essayé de lancé bcp d'instance d'un coup voir si j'ai une limite ou pas

0
J'aime ❤️

🔴 Hors ligne

#7 2016-03-22 12:06:26

Mention salemioche
🥉 Grade : Scout

AuxiliaireIngénieur webStratège
Inscription : 2015-10-09
Messages : 250
Likes : 0

Adminstration Serveur
PHP
Scraping
Cloaking

Re : Utilisation d'AWS pour crawl google

Ca coute vite un bras
Je crois pas que tu puisses reservés 1000 instances comme ça
Avec 10 bon proxies, tu peux facilement faire tes 1400 kw/j, pour le même résultat, 10$ / mois, et moulte enquiquinements en moins smile


__
Powering Nikozen

0
J'aime ❤️

🔴 Hors ligne

#8 2016-03-22 13:42:37

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Re : Utilisation d'AWS pour crawl google

salemioche a écrit :

Ca coute vite un bras
Je crois pas que tu puisses reservés 1000 instances comme ça
Avec 10 bon proxies, tu peux facilement faire tes 1400 kw/j, pour le même résultat, 10$ / mois, et moulte enquiquinements en moins smile

ha? si tu as une adresse pour des proxies a 1$/mois de bonne qualité je suis preneur smile


Maintenant on peut comparé rapidement, 1400kw/j x 30 = 42000 requetes pour 10€ donc 0.00023€/requetes


la limite Amazon est de 1000 instance par account.
un t2.nano coûte $0.007 par heures.
donc 1000 serveur t2.nano coûte 7€/h
chaque serveur en 1h je peu faire allez 30 requêtes environ je pense, donc je pourrais faire 30.000 keyword par heures pour 7€/h ce qui fait la requete a environ : 0.00024€/requêtes


il y aurai donc une difference de 0.00001€/requetes donc le prix est identique

0
J'aime ❤️

🔴 Hors ligne

#9 2016-03-22 13:55:29

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 8

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Utilisation d'AWS pour crawl google

Ce que je n'ai pas compris c'est en quoi le fait de passer par amazon plutôt que par une machine à toi te règle les problèmes des proxy ?
Sur Amazon tu aura une machine donc la même ip donc il faudra que tu plug des proxies de toutes manières non?

0
J'aime ❤️

🔴 Hors ligne

#10 2016-03-22 13:59:29

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Re : Utilisation d'AWS pour crawl google

Mitsu a écrit :

Ce que je n'ai pas compris c'est en quoi le fait de passer par amazon plutôt que par une machine à toi te règle les problèmes des proxy ?
Sur Amazon tu aura une machine donc la même ip donc il faudra que tu plug des proxies de toutes manières non?

non ... si tu lance 1000 instance tu aura 1000 ips differentes smile c'est justement la que c'est interessant justement

mini_700592dfsgzertvzsdtvg.jpg

0
J'aime ❤️

🔴 Hors ligne

#11 2016-03-22 14:07:32

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 8

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Utilisation d'AWS pour crawl google

Ahh ok c'est ce detail que je n'avais pas compris, thx.

0
J'aime ❤️

🔴 Hors ligne

#12 2016-03-22 14:11:47

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Re : Utilisation d'AWS pour crawl google

Mitsu a écrit :

Ahh ok c'est ce detail que je n'avais pas compris, thx.

Oui d'ou l'interet du truc, en plus je viens de finir mon test de 1requete/minutes et ça passe vraiment bien.

0
J'aime ❤️

🔴 Hors ligne

#13 2016-03-22 14:12:52

Mention salemioche
🥉 Grade : Scout

AuxiliaireIngénieur webStratège
Inscription : 2015-10-09
Messages : 250
Likes : 0

Adminstration Serveur
PHP
Scraping
Cloaking

Re : Utilisation d'AWS pour crawl google

chez moi 1000kw, ca veut dire de 1 à 10 pages scrapées en fonction de la position du site que je tracke smile
donc en moyenne, plutot 3 pages. donc à un pouilleme près, c'est plutot 3 fois moins chez, comme le suggère ton 28€ de départ smile

ceux que j'utilise : http://www.seomioche.com/news_v5.php
( liens d'affil à faire sauter éventuellement )

Mais cleairement, si tu arrives à scaler avec 1000 instances, ca peut faire un super truc quand meme smile

Avec mes 20$ de rotating proxies ( blazing llc ), je recup environ 4000 pages GG 2 fois par semaine ( je pourrais surement le fiare aussi tous les jours ! )
sans monter une usine à gaz, mais je salue bien bas la prouesse wink wink wink


__
Powering Nikozen

0
J'aime ❤️

🔴 Hors ligne

#14 2016-03-22 14:50:55

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Re : Utilisation d'AWS pour crawl google

La j'explore des solution mais ce que tu dit m’intéresse aussi.

salemioche a écrit :

chez moi 1000kw, ca veut dire de 1 à 10 pages scrapées en fonction de la position du site que je tracke smile
donc en moyenne, plutot 3 pages. donc à un pouilleme près, c'est plutot 3 fois moins chez, comme le suggère ton 28€ de départ smile

Oui moi aussi je recupere les 10 premieres pages.

salemioche a écrit :

ceux que j'utilise : http://www.seomioche.com/news_v5.php
( liens d'affil à faire sauter éventuellement )

Mais cleairement, si tu arrives à scaler avec 1000 instances, ca peut faire un super truc quand meme smile

Avec mes 20$ de rotating proxies ( blazing llc ), je recup environ 4000 pages GG 2 fois par semaine ( je pourrais surement le fiare aussi tous les jours ! )

Merci bcp pour le liens ( blazing llc ), mes proxies je les paie un peu plus cher et il crame vite en plus, tu utilise des proxies allemand ou US?

salemioche a écrit :

sans monter une usine à gaz, mais je salue bien bas la prouesse wink wink wink

Par contre coté usine a gaz non, tu utilise le SDK amazon et ça donne ça


$result = $ec2Client->runInstances(array(
    'ImageId'        => 'GoogleScrapper',
    'MinCount'       => 1000,
    'MaxCount'       => 1000,
    'InstanceType'   => 't2.micro',
    'KeyName'        => $keyPairName,
    'SecurityGroups' => array($securityGroupName),
));
 

avec ça je crée 1000 instance avec mon script configuré et qui tourne, donc ce n'est pas non plus une usine a gaz, le SDK amazon est super bien fait, avec une ligne de code je désactive toutes les instances ou la moitié.


Maintenant coté coût je refait le calcul.
Proxies
4000x2x4 requêtes pour 23€ donc 0.00071875€/requêtes

Amazon (si la cadence des 1kw/minutes marche tjr, sachant que tu peu demandé un changement d'ip gratuitement 100fois par mois au cas ou ton IP marche plus)
55kw/h (j’enlève 5min le temps de lancé et fermer l'instance , je sais pas si c'est facturé ou pas encore)
donc pour 4000 requêtes il me faut 4000/55 = 75 instance (72 mais j'arrondie) pendent 1h et ça 8 fois par mois
0.007*75*8 = 4.2€/mois (0.00013125€/requêtes)


Amazon reste relativement intéressant, par dans ton cas je pense car pour gagné 14€/mois et te faire chier a redev un truc etc etc, le jeux n'en vaut pas la chandelle, dans ma situation ou déjà je paie bcp plus cher le proxies que toi (j'aurai du chercher un peu mieux lol)

la j'attend de voir en plus il parait que les services googles son 4fois moins cher en moyenne et facturable a la minutes (azure de microsoft idem)

0
J'aime ❤️

🔴 Hors ligne

#15 2016-03-22 16:39:08

Mention Mitsu
🥉 Grade : Scout

AuxiliaireIngénieur webStratège1000 messagesMembre Hospitalier
Inscription : 2014-11-17
Messages : 2 012
Likes : 8

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Utilisation d'AWS pour crawl google

Pourquoi ne pas simplement faire un num=100 plutôt que de scrapper 10 page ? Plus que 1000 check par jour.

Sinon tu as vraiment besoin de connaitre la position de 1k chaque jour ? Vu le volume une fois par semaine max voir une fois par mois serait surement suffisant non ?

0
J'aime ❤️

🔴 Hors ligne

#16 2016-03-23 07:52:09

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Re : Utilisation d'AWS pour crawl google

Mitsu a écrit :

Pourquoi ne pas simplement faire un num=100 plutôt que de scrapper 10 page ? Plus que 1000 check par jour.

Sinon tu as vraiment besoin de connaitre la position de 1k chaque jour ? Vu le volume une fois par semaine max voir une fois par mois serait surement suffisant non ?

les résultats sur un num=100 ne sont pas totalement identique et aucun utilisateur n'utilise le num=100.
après la différence entre un num=100 et scrapper 10 pages n'est pas très importante non plus.

en tout cas je continue mes petits tests dans mon coin

0
J'aime ❤️

🔴 Hors ligne

#17 2016-03-23 08:23:20

Mention salemioche
🥉 Grade : Scout

AuxiliaireIngénieur webStratège
Inscription : 2015-10-09
Messages : 250
Likes : 0

Adminstration Serveur
PHP
Scraping
Cloaking

Re : Utilisation d'AWS pour crawl google

j'utilise les rotating proxies US, dès que ca bloque, je pause 10min le temps que ca tourne, et zou smile

pour l'opti du scrap, j'ai jamais testé, mais on peut sans doute faire un num=10 sur les 3 premieres puis un num=100 et reconcilier le tout assez facilement pour avoir une bonne idée de l'ensemble, parce que entre 54 ou63, on s'en tape un peu de la nuance


__
Powering Nikozen

0
J'aime ❤️

🔴 Hors ligne

#18 2016-03-23 08:33:42

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Re : Utilisation d'AWS pour crawl google

salemioche a écrit :

j'utilise les rotating proxies US, dès que ca bloque, je pause 10min le temps que ca tourne, et zou smile

pour l'opti du scrap, j'ai jamais testé, mais on peut sans doute faire un num=10 sur les 3 premieres puis un num=100 et reconcilier le tout assez facilement pour avoir une bonne idée de l'ensemble, parce que entre 54 ou63, on s'en tape un peu de la nuance

ha merci pas con ton truc de num=10 sur les 3premieres puis 100. ça fait economisé 6 crawl ce qui est franchement pas mal smile

Sinon oui pas mal du tout les rotating proxies je vais regardé ça de plus pres aussi

0
J'aime ❤️

🔴 Hors ligne

#19 2016-03-23 08:36:03

Mention salemioche
🥉 Grade : Scout

AuxiliaireIngénieur webStratège
Inscription : 2015-10-09
Messages : 250
Likes : 0

Adminstration Serveur
PHP
Scraping
Cloaking

Re : Utilisation d'AWS pour crawl google

ciboulette a écrit :

ha merci pas con ton truc de num=10 sur les 3premieres puis 100. ça fait economisé 6 crawl ce qui est franchement pas mal smile

J'ai failli sortir un produit qui avait besoin de très gros scraps, c'est une alternative envisagée, en particulier en discutant avec le gars de internetvikings qui propose des gros pools d'ip mais avec des règles de scrap assez rude ( trop )


__
Powering Nikozen

0
J'aime ❤️

🔴 Hors ligne

#20 2016-03-23 08:39:56

Mention ciboulette
🥉 Grade : Scout

Auxiliaire
Inscription : 2015-11-01
Messages : 391
Likes : 5

Re : Utilisation d'AWS pour crawl google

salemioche a écrit :
ciboulette a écrit :

ha merci pas con ton truc de num=10 sur les 3premieres puis 100. ça fait economisé 6 crawl ce qui est franchement pas mal smile

J'ai failli sortir un produit qui avait besoin de très gros scraps, c'est une alternative envisagée, en particulier en discutant avec le gars de internetvikings qui propose des gros pools d'ip mais avec des règles de scrap assez rude ( trop )

gros scrapp cad?

0
J'aime ❤️

🔴 Hors ligne

Pied de page des forums