Vous n'êtes pas identifié(e).
un produit qui se trouvait entre seobserver (qui n'existait pas encore, on consevait le truc en même temps avec Kevin) et monitorank ( une évolution de seomiochetool en mode saas ), j'ai le ndd dans une 15aine d'extensions
__
Powering Nikozen
🔴 Hors ligne
un produit qui se trouvait entre seobserver (qui n'existait pas encore, on consevait le truc en même temps avec Kevin) et monitorank ( une évolution de seomiochetool en mode saas ), j'ai le ndd dans une 15aine d'extensions
pourquoi tu ne sors pas ton produits? tu n'as pas solve le probleme de gros scrapp?
🔴 Hors ligne
pourquoi tu ne sors pas ton produits? tu n'as pas solve le probleme de gros scrapp?
J'ai eu 2/3 autres opportunités plus motivantes pour le moment, ça fait plus de 9 ans que j'ai ça dans la pile sinon, donc, j'irais peut etre un jour quand même
__
Powering Nikozen
🔴 Hors ligne
ciboulette a écrit :pourquoi tu ne sors pas ton produits? tu n'as pas solve le probleme de gros scrapp?
J'ai eu 2/3 autres opportunités plus motivantes pour le moment, ça fait plus de 9 ans que j'ai ça dans la pile sinon, donc, j'irais peut etre un jour quand même
lol ha oui 9ans quand meme
🔴 Hors ligne
Depuis que j'ai fais la version publique de seomiochetool
Age + enfants => apprentissage et acquisition de la patience
__
Powering Nikozen
🔴 Hors ligne
Je doute que AWS fournisse 1000 IP différentes pour 1000 instances non ? Surtout pour le même compte. A vérifier
Monitorank : suivi de positions (Google Search, Images, Actu, YouTube, Amazon, TripAdvisor, Play Store...)
Testez gratuitement : https://www.monitorank.com
Démo : https://demo.monitorank.com
🔴 Hors ligne
Je doute que AWS fournisse 1000 IP différentes pour 1000 instances non ? Surtout pour le même compte. A vérifier
Si Si .... bon la je lance pas 1000 instances d'un coup mets tests son a 15/20 instance simultané a 1KW/min, donc 1200keywords/heures.
🔴 Hors ligne
Normalement d'apres leurs document c'est 1000 instance max par compte (donc par CB/Email je présume)
🔴 Hors ligne
OK
A voir si ces IP ne sont pas blacklisté par google aussi. Mais c'est très intéressant comme idée
Monitorank : suivi de positions (Google Search, Images, Actu, YouTube, Amazon, TripAdvisor, Play Store...)
Testez gratuitement : https://www.monitorank.com
Démo : https://demo.monitorank.com
🔴 Hors ligne
OK
A voir si ces IP ne sont pas blacklisté par google aussi. Mais c'est très intéressant comme idée
a premiere vue non, maintenant tu peu changer d'ip au pire si elle est blacklist
En 2012 AWS c'était deja 450.000 serveurs, maintenant ils on 40 Datacenter pour leur AWS ...
Sachant que tu as aussi Azure de microsoft et Google Compute Engine aussi voir alibaba cloud.
Tarifs sur 1H (plus petite des machines)
Google : $0.005
Amazon : $0.0065
Alibaba : $0.04000
Microsoft : $0.08
Bon google et amazon explose tout coté tarification, avec un jolie petit plus a Google car il facture a la minutes...
Donc 100 instance pour 30min
$0.25 chez google
$0.65 chez amazon
Si on scrapp 100min par jours ça fait sur le mois :
$7.5 chez google
$19.5 chez amazon
Donc une belle diff, la je vais voir pour passé mon tools sur google voir si ça marche bien (on sais pas peut-etre que google va blacklist ses propres ip lol)
🔴 Hors ligne
Bon voila j'ai testé GCE (Google Compute Engine) .... franchement moins agréable a utilisé que AWS, ils on un shell et je suis passé par la pour crée les instances, mais sinon ça marche aussi bien que AWS une fois que le script est lancé.... mais je reste sur mon AWS, car utilisé google pour scrappé google , je pense qu'il vont venir me faire chier a force
🔴 Hors ligne
Je vous invite à jeter un oeil à AWS Lambda : les avantages d'EC2 avec une tarification à la demande et un potentiel d'automatisation très élevé en couplant avec AWS SNS ou des déclencheurs S3 / DynamoDB / Custom...
Concernant les instances t2.nano, j'avais été euphorique lors du lancement mais c'est à oublier : le moindre script qui consomme un minimum de CPU et les ressources sont par la suite bridées... J'utilise que des instances m3.medium au minimum
🔴 Hors ligne
Pas testé mais AWS est l'un des trucs les plus cramés. Il faut pas juger avant d'avoir gouté, mais là pour le coup je suis très sceptique sur le succès de l'opération.
🔴 Hors ligne
Je vous invite à jeter un oeil à AWS Lambda : les avantages d'EC2 avec une tarification à la demande et un potentiel d'automatisation très élevé en couplant avec AWS SNS ou des déclencheurs S3 / DynamoDB / Custom...
Concernant les instances t2.nano, j'avais été euphorique lors du lancement mais c'est à oublier : le moindre script qui consomme un minimum de CPU et les ressources sont par la suite bridées... J'utilise que des instances m3.medium au minimum
faut surtout voir de quoi a besoin ton script, juste pour du crawl franchement le nano passe niquel vu que tu lui demande pas grand chose a ton script
Pas testé mais AWS est l'un des trucs les plus cramés. Il faut pas juger avant d'avoir gouté, mais là pour le coup je suis très sceptique sur le succès de l'opération.
j l'utilise j'ai fait tout un systeme basé dessus et ça marche tres bien
🔴 Hors ligne
Ay,
Couplé avec un container Docker Squid Proxy c'est encore mieux: https://www.nicolashug.com/developpement/docker/monter-proxy-30-secondes-docker-squid
Comme ça tu lance ton instance, tu lance ton container proxy, tu utilise ton instance comme un proxy pour n'importe quelle appli (GSA, Scrapebox, ...) et une fois l'ip cramée tu destroy l'instance et tu en lances une autre.
Infrastructure, VPS, serveurs, développement web et scripts, ... https://www.alsahack.com !
🔴 Hors ligne
Ay,
Couplé avec un container Docker Squid Proxy c'est encore mieux: https://www.nicolashug.com/developpement/docker/monter-proxy-30-secondes-docker-squid
Comme ça tu lance ton instance, tu lance ton container proxy, tu utilise ton instance comme un proxy pour n'importe quelle appli (GSA, Scrapebox, ...) et une fois l'ip cramée tu destroy l'instance et tu en lances une autre.
moi perso j'ai fait simple:
J'ai un serveur Mysql externe a Amazon, j'ai crée une image d'instance sur AWS avec mon script dessus qui fait en gros :
1/ requête au serveur mysql (externe) pour savoir quel KW crawler (json)
2/ mon script sur l'instance crawl google
3/ il insert une ligne en base de donnée sur le serveur mysql
🔴 Hors ligne
Ay @Ciboulette,
Là c'est encore plus simple ! Quand tu lance ton instance avec mon container, ton instance devient un proxy. Donc pas besoin de monter à chaque fois une instance avec ton script. Ton script tu le poses sur un serveur fixe et tu lui fais utiliser tes proxies perso. Enfin sauf si ton script ne gère pas les proxies, dans ce cas oui ta solution est plus simple.
Infrastructure, VPS, serveurs, développement web et scripts, ... https://www.alsahack.com !
🔴 Hors ligne
Ay @Ciboulette,
Là c'est encore plus simple ! Quand tu lance ton instance avec mon container, ton instance devient un proxy. Donc pas besoin de monter à chaque fois une instance avec ton script. Ton script tu le poses sur un serveur fixe et tu lui fais utiliser tes proxies perso. Enfin sauf si ton script ne gère pas les proxies, dans ce cas oui ta solution est plus simple.
ba mon script gere les proxies a la base (c'est du curl), mais ton systeme reste plus complexe, car quand tu lance ton instance en mode proxys etc, tu dois renvoyé l'IP a ton soft.
Moi j'ai crée une instance une fois propre (installation de php, de mon script etc, CRON) , j'en est fait une image (genre que je nomme : google-crawl-1min).
Et quand je lance une instance je lui dit d'utilisé cette image (google-crawl-1min), donc tout s’installe et crawl automatiquement (CRON déjà installé).
🔴 Hors ligne