Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

#1 2017-05-17 17:49:50

Mention AlexB
Recruit
Inscription : 2015-04-27
Messages : 23

Scrapper les H2 d'un site

Bonjour à tous,

Je cherche à scrapper le contenu des H2 sur une liste d'urls.

Je n'ai pas trouvé de solution via scrapebox. Il n'y en a pas ?

Autrement j'ai réussi à laborieusement implanter ça dans un google sheet avec cette formule : =IMPORTXML(A3; "//h2/text()")

Là j'obtiens quelques résultats, mais dès qu'il y a plusieurs H2 j'obtiens un #REF! et sur certaines urls je ne peux pas avoir mieux que #N/A alors qu'il y a bien un H2 dans le code source.

Auriez-vous une technique ou un tool (RDZ ou GScraper font ça ?) qui permette de scrapper des contenus de balises à me conseiller ?

Hors ligne

#2 2017-05-17 18:01:55

Mention superframboise
Soldier
Lieu : A l'autre bout du monde
Inscription : 2017-03-10
Messages : 993

Netlinking
Networking SEO
Audit et Analyse
Netlinking Auto
Site Web

Re : Scrapper les H2 d'un site

Peut être que ce lien pourra t'aider http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx2/notebooks/TD2A_Eco_Web_Scraping_enonce.html

Ca explique comment scrapper avec Python et BeautifulSoup


-------------------------------------------------------------

Création de sites | Audits SEO | Consulting et plus si affinités

Hors ligne

#3 2017-05-17 18:14:21

Mention jeromeweb
Soldier
Lieu : pas loin de paris
Inscription : 2014-10-12
Messages : 1 219

PHP
Automatisation Web

Re : Scrapper les H2 d'un site

tu n'as pas RDDZ?
C'est un scrapper comme scrapebox mais tu peux gerer comme tu veux tes moteurs de scrap avec xpath et récupérer ce que tu veux en info


Blog perso jeromeweb.net - site pro : jerome-pasquelin.fr

Hors ligne

#4 2017-05-17 18:57:32

Mention AlexB
Recruit
Inscription : 2015-04-27
Messages : 23

Re : Scrapper les H2 d'un site

Merci pour le tuto et pour le conseil RDDZ. GScraper ferait le job également ?

Hors ligne

#5 2017-05-17 19:58:39

Mention Mitsu
Soldier
Inscription : 2014-11-17
Messages : 1 993

Développement PHP
Développement JS
Audit et Analyse
Netlinking
Site Web

Re : Scrapper les H2 d'un site

Sinon avec screaming frog en mode liste tu balance ta liste, configuration->custom->extraction, tu prend xpath et //h2.


Mitsu, un Expert SEO qui se fait une joie de partager ses délires sur internet...

Hors ligne

#6 2017-05-17 20:34:06

Mention AhmedSEO
Recruit
Lieu : Paris
Inscription : 2017-04-25
Messages : 21

Scraping
Netlinking
Content Spinning
Développement PHP

Re : Scrapper les H2 d'un site

Mitsu a écrit :

Sinon avec screaming frog en mode liste tu balance ta liste, configuration->custom->extraction, tu prend xpath et //h2.

+1

Hors ligne

#7 2017-05-18 17:18:48

Mention AlexB
Recruit
Inscription : 2015-04-27
Messages : 23

Re : Scrapper les H2 d'un site

Finalement j'utilise Screaming Frog qui fait le job dans l'interface par défaut. J'utilisais Xenu qui répond à mes besoins de crawl, et avais zappé SC pour sa limite en version gratuite. Au premier abord je m'aperçois qu'il va m'être bien utile. Merci pour le conseil smile

Hors ligne

Pied de page des forums