Vous n'êtes pas identifié(e).
Bonjour,
SVP quelqu’un peut me dire comment télécharger/aspirer un site archivé sur web.archive.org ???
En effet j'ai besoin de contenu d'un site expiré mais c'est un peut dure de le récupérer manuellement (y a des centaines des pages à copier ), et je n'arrive pas à configurer ni IDM ni httrack pour le télécharger.
Dernière modification par arafetovich (2015-06-01 09:57:44)
Externaliser toutes les tâches de SEO ▶ Référenceur en freelance en Tunisie
🔴 Hors ligne
Hello,
tu peux voir ça directement avec @Yeurl, il propose un tarif super intéressant !
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne
Merci Cyd, mais
J'ai un soucis avec le paiement en ligne actuellement (problème lié à la verification de mon paypal), c'est pour cette raison que je cherche un soft ou une solution que puisse m'aider en attendant la résolution de mon prob.
Externaliser toutes les tâches de SEO ▶ Référenceur en freelance en Tunisie
🔴 Hors ligne
Avant j'utilisais ça : hxxps://www.httrack.com/. Tu peux toujours essayer.
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne
peut tu me faire une petite copie d’écran de httrack, partie configuration.
Car j'arrive pas à télécharger le site, Httrack me donne juste deux pages !!
Externaliser toutes les tâches de SEO ▶ Référenceur en freelance en Tunisie
🔴 Hors ligne
Si le Template de toutes les pages que tu veux récupérer est le même (ou si une partie est similaire ce qui est sans doute le cas) tu peux par exemple récupérer la liste de toutes les urls de wayback Machine avec Kimono (en utilisant cette structure de page : http://web.archive.org/web/*/http://www.example.com)/* ), puis faire une deuxième api Kimono qui cette fois récupère le contenu même de chacune des pages en te basant sur les urls de 1ere api (c'est une option a choisir dans un menu déroulant de l'api).
Ca te permettra peut-être pas de récupérer la totalité du site mais au moins toutes les pages dont le template est similaire. Peut être que le restant pourra se faire plus facilement à la main ?
🔴 Hors ligne
Sorry ça fait trop longtemps que je ne l'ai pas utilisé.
Honnêtement, pour 12€ la récupération d'un site avec @Yeurl, je ne me prends plus la tête !!
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne
Oui t'as raison, le service de @Yeurl est super.
Le prob qu'en Tunisie, impossible pour le moment d'avoir un compte paypal vérifié. c'est illégal.
Externaliser toutes les tâches de SEO ▶ Référenceur en freelance en Tunisie
🔴 Hors ligne
J'avoue que 12€ si tout est récupéré proprement c'est donné.
Pour Httrack, j'ai essayé la semaine dernière et je n'avais que la 1ère page qui se téléchargeait. Je crois que c'est dû au fait qu'il y a une redirection sur tous les liens de wayback machine vers un répertoire parent différent.
ex :
tu est sur la page A https://web.archive.org/web/20150326080730/http://exemple.com/a.html
tu clique sur un lien pour aller sur la page B https://web.archive.org/web/20150326080730/http://exemple.com/b.html
et tu es redirigé vers la page https://web.archive.org/web/20140514215913/http://exemple.com/b.html
et vu que Httrack est un crawler qui ne suit pas les redirections...
🔴 Hors ligne