Vous n'êtes pas identifié(e).
Ay,
Petit bout de shell pour scraper un site et récupérer les emails, le tout sous Linux. J'avais posté le code sur mon site et je le partage ici.
On scrape:
On grep les emails dans le dossier généré:
Si les emails sont du type lolilol [at] undomaine.tld on remplace le catch par un @, histoire de nettoyer:
Un gist est disponible avec un bash script prêt à l'emploi: https://gist.github.com/KrustyHack/2f5898db0d2571959b48
A plus !
Infrastructure, VPS, serveurs, développement web et scripts, ... https://www.alsahack.com !
🔴 Hors ligne
sympa et original comme méthode, ca manquais des gens qui touche en linux ici
thx
⌕ Comment Ranker ?
▶ Nouveauté : Ninja Web Pro Pack copies limitées !
▶ Ebook : Ninjalinking 2022 (-25% : labo25e)
▶ Conseils stratégiques ou techniques ? ( Skype : jaffaarbh )
🟢 En ligne
Merci @KrustyHack. Dans la même veine, est-ce que quelqu'un saurait comment extraire avec grep les urls de liens présents dans un pdf ?
🔴 Hors ligne
Ay @durando,
Y a également la solution pdftotext:
En bonus, quelques patterns pour grep:
Dernière modification par KrustyHack (2016-02-19 10:09:37)
Infrastructure, VPS, serveurs, développement web et scripts, ... https://www.alsahack.com !
🔴 Hors ligne
Ouahou, ça c'est du service rapide. Merci. J'ai un gros fichier avec pas mal de liens dedans.
En lisant les commandes j'ai comme un doute... Tu me confirmes qu'il va bien aller à la recherche de l'url des liens, et non de bouts de texte qui contiennent http ou https ?
Je teste ce weekend et fais un retour.
🔴 Hors ligne
@durando Bonne question. Tu as un PDF sous la main pour que je paufine le bordel ?
Parce que effectivement je viens de checker le pdfgrep ne semble pas récup les liens en fait. Et le pdftotext + grep il récupère le texte, donc pas le <a> et compagnie.
Je creuse.
Ok j'ai trouvé un truc intéressant. J'ai enregistré ma page d'accueil en PDF, donc avec les liens et tout et j'arrive à les extraire depuis le binaire .pdf:
Par contre j'ai pas encore réussi à mod la regex pour qu'il catch http ou https.
Dernière modification par KrustyHack (2016-02-19 11:31:54)
Infrastructure, VPS, serveurs, développement web et scripts, ... https://www.alsahack.com !
🔴 Hors ligne
Merci, ça fonctionne. Pour combiner http et https, on peut utiliser la méthode longue :
Ou la courte :
Pour ceux qui ne sont que sous Windows, il semble que pdftotext existe aussi sur cette plateforme, cf hxxp://www.foolabs.com/xpdf/download.html.
Dernière modification par durando (2016-02-20 09:16:30)
🔴 Hors ligne
Ay,
Super merci !
Infrastructure, VPS, serveurs, développement web et scripts, ... https://www.alsahack.com !
🔴 Hors ligne
Ay,
Petite mise à jour du script avec la prise en charge d'une liste de domaines : https://gist.github.com/KrustyHack/2f5898db0d2571959b48
Infrastructure, VPS, serveurs, développement web et scripts, ... https://www.alsahack.com !
🔴 Hors ligne
merci@KrustyHack ton scripts va bien m'aider
je préfère travailler sur linux sous windows j'utilise email collector et email hunter
🔴 Hors ligne