Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

Annonce

Progressez rapidement avec notre gamme de formations SEO Skills en ligne | Automatisez facilement votre production de contenu de qualité avec le SEO QUARTZ !

#1 2019-02-28 23:43:30

Mention Stone
Scout
Lieu : Montpellier
Inscription : 2016-01-18
Messages : 59

Script Web archive : Wayback machine downloader

Hello,

j'aime crawlé les bas fonds du web pour trouver des sites abandonnés et les remonter.

Il existe une palette de méthodes pour le faire, outils payants, gratuits, celle que je préfère - gratuite et rapide, c'est le script Ruby Wayback Machine Downloader à lancer en ligne de commande : https://github.com/hartator/wayback-machine-downloader.

Seul hic plutôt emmerdant, c'est que dans +80% des cas les liens sont en absolu et qu'en local la navigation est impossible (il faut ouvrir fichier par fichier pour pouvoir afficher les pages scrapées, une galère...)

Question : qqun utilise-t-il ce script ? Si oui, excepté la méthode "search & replace" du ndd par le dossier racine, n'y a t il pas une méthode plus rapide pour parer à ce problème ? smile

Merci

Hors ligne

#2 2019-03-01 14:39:38

Mention oyonyx
Scout
Lieu : Nord, France
Inscription : 2018-04-06
Messages : 711

Audit et Analyse
Netlinking
Marketing
Advertising

Re : Script Web archive : Wayback machine downloader

Salut

J'utilise aussi ce script et comme toi je galère un peu.

J'imagine qu'il doit être possible de faire tourner un script ou autre pour corriger en automatique.

Hors ligne

#3 2019-03-02 17:25:03

Mention Stone
Scout
Lieu : Montpellier
Inscription : 2016-01-18
Messages : 59

Re : Script Web archive : Wayback machine downloader

@oyonyx Hello, je t'avoue que je ne suis pas un pro du dev, mais à mon avis doit être possible de modif le script pour qu'à la volée, il fasse un search&replace pour transfo les liens absolus en relatif.

Hors ligne

Pied de page des forums