voilà un bout de code pour faire une requête sur google, récupérer les serp, et parser les pages résultats avec un regex de type IP:PORT ou IP:DOMAIN
Les libs à inclure :
require 'net/http'
require 'uri'
require 'fileutils'
require 'logger'
require 'mechanize'
require 'nokogiri'
création d'une instance de mechanize qu'on envoi direct sur google pour la requete, et récupération de la première page de serp :
page = @agent.get 'http://www.google.com/'
form = page.form_with(:action => '/search')
form['q'] = 'ce que je veux trouver, keywords du genre free proxy, proxy list, proxies list, ...'
page_serps = form.submit
on parse le résultat de la requete pour obtenir la liste des urls de la premlière page de serps :
pour chacune des urls, on visite la page et on extrait les blocs de texte pur :
pour chacun des blocs de texte récupéré, on test l'occurence du regex de type IP:PORT ou IP:DOMAIN :
voilà
hope this help
edit : il y avait qlqs coquilles que j'ai corrigé
Dernière modification par conquering_lion (2014-03-15 12:12:09)
🔴 Hors ligne
Merci pour ton partage
hope this help
j'aimerai pouvoir me monter un serveur et tester ce code
Vais essayer de bloquer tu temps ! toujours du temps ! Plus de bot ! plus de Brain !
⌕ Comment Ranker ?
▶ Nouveauté : Ninja Web Pro Pack copies limitées !
▶ Ebook : Ninjalinking (-25% : labo25e)
▶ Conseils stratégiques ou techniques ? ( Skype : jaffaarbh )
🔴 Hors ligne
nop
d'ailleurs j'ai remarqué que le thread rankait bien sur les mots clés "tuto ruby watir" ou même "tuto ruby mechanize" que j'ai posté hier , déjà dans le top ten .. jv peut être (surement) me faire un mini site de contenu sur le sujet avec des tuto dans le genre (si j'ai le temps ....)
ahhh le temps .. c'est pareil, des tonnes de notes à droite à gauche , des todo list jamais terminé ... des appli à terminer, à commencer ..
edit : d'ailleurs le format est-il mieux / plus lisible que le premier post sur ruby ? car pas évident de faire un truc ludiqe et complet à la fois ..
Dernière modification par conquering_lion (2013-07-12 13:16:11)
🔴 Hors ligne