
Bonjour,
SVP quelqu’un peut me dire comment télécharger/aspirer un site archivé sur web.archive.org ???
En effet j'ai besoin de contenu d'un site expiré mais c'est un peut dure de le récupérer manuellement (y a des centaines des pages à copier
), et je n'arrive pas à configurer ni IDM ni httrack pour le télécharger.
Dernière modification par arafetovich (2015-06-01 09:57:44)
Externaliser toutes les tâches de SEO ▶ Référenceur en freelance en Tunisie
🔴 Hors ligne




Hello,
tu peux voir ça directement avec @Yeurl, il propose un tarif super intéressant !
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne

Merci Cyd, mais
J'ai un soucis avec le paiement en ligne actuellement (problème lié à la verification de mon paypal), c'est pour cette raison que je cherche un soft ou une solution que puisse m'aider en attendant la résolution de mon prob.
Externaliser toutes les tâches de SEO ▶ Référenceur en freelance en Tunisie
🔴 Hors ligne




Avant j'utilisais ça : hxxps://www.httrack.com/. Tu peux toujours essayer.
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne

peut tu me faire une petite copie d’écran de httrack, partie configuration.
Car j'arrive pas à télécharger le site, Httrack me donne juste deux pages !!
Externaliser toutes les tâches de SEO ▶ Référenceur en freelance en Tunisie
🔴 Hors ligne

Si le Template de toutes les pages que tu veux récupérer est le même (ou si une partie est similaire ce qui est sans doute le cas) tu peux par exemple récupérer la liste de toutes les urls de wayback Machine avec Kimono (en utilisant cette structure de page : http://web.archive.org/web/*/http://www.example.com)/* ), puis faire une deuxième api Kimono qui cette fois récupère le contenu même de chacune des pages en te basant sur les urls de 1ere api (c'est une option a choisir dans un menu déroulant de l'api).
Ca te permettra peut-être pas de récupérer la totalité du site mais au moins toutes les pages dont le template est similaire. Peut être que le restant pourra se faire plus facilement à la main ?
🔴 Hors ligne




Sorry ça fait trop longtemps que je ne l'ai pas utilisé.
Honnêtement, pour 12€ la récupération d'un site avec @Yeurl, je ne me prends plus la tête !!
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne

Oui t'as raison, le service de @Yeurl est super.
Le prob qu'en Tunisie, impossible pour le moment d'avoir un compte paypal vérifié. c'est illégal. ![]()
Externaliser toutes les tâches de SEO ▶ Référenceur en freelance en Tunisie
🔴 Hors ligne

J'avoue que 12€ si tout est récupéré proprement c'est donné.
Pour Httrack, j'ai essayé la semaine dernière et je n'avais que la 1ère page qui se téléchargeait. Je crois que c'est dû au fait qu'il y a une redirection sur tous les liens de wayback machine vers un répertoire parent différent.
ex :
tu est sur la page A https://web.archive.org/web/20150326080730/http://exemple.com/a.html
tu clique sur un lien pour aller sur la page B https://web.archive.org/web/20150326080730/http://exemple.com/b.html
et tu es redirigé vers la page https://web.archive.org/web/20140514215913/http://exemple.com/b.html
et vu que Httrack est un crawler qui ne suit pas les redirections...
🔴 Hors ligne