Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 Extraction du contenu principal d'une page


#1 2023-01-10 17:46:30

Mention J0seF
🥉 Grade : Scout

Auxiliaire
Inscription : 2023-01-09
Messages : 18
Likes : 5

Extraction du contenu principal d'une page

Hello,

Tout d'abord, si cette question a déjà fait l'objet d'un thread, je m'excuse, je n’ai rien trouvé de pertinent. En tout cas pas au niveau de ce que je recherche.

Ma recherche se porte sur une librairie (et non pas un outil), qui serait en mesure d'extraire le contenu principal d'une page au format texte.

Cela afin de me permettre de ne garder que le contenu "pertinent".

J'ai trouvé différentes librairies en python, que je n'ai pas encore pris le temps d'essayer mais je voulais savoir si certains d'entre vous ont une ou plusieurs librairies à recommander pour cela ?

J'ai également pensé à faire quelque chose de "maison", mais c'est un vrai bordel car tout le monde n'utilise pas forcément la balise main dans son HTML par exemple.

Merci de votre aide !

0
J'aime ❤️

🔴 Hors ligne

#2 2023-01-10 17:52:39

Mention potache
🥈 Grade : Soldier

Membre du CercleOfficierStratège250likesConsomateur de LiensPhilantrope
Lieu : Grenoble
Inscription : 2020-04-22
Messages : 387
Likes : 253

Content Spinning
Sémantique
Audit et Analyse
Développement Python
Site Web

Re : Extraction du contenu principal d'une page

Trafilatura est plutôt pas mal, je l'utilise pour Thot SEO et il me semble que c'est aussi ce que prend YTG (en partie du moins). Tu pourras avoir un peu de fine tuning à faire mais ce n'est trop de travail, le seul problème c'est pour les pages en JS

Dernière modification par potache (2023-01-10 17:53:59)


Mon nouvel outil d'optimisation sémantique : https://thot-seo.fr/ ★★★
Vous pouvez tester gratuitement depuis la home de Thot SEO

1
J'aime ❤️

🔴 Hors ligne

#3 2023-01-10 19:36:52

Mention J0seF
🥉 Grade : Scout

Auxiliaire
Inscription : 2023-01-09
Messages : 18
Likes : 5

Re : Extraction du contenu principal d'une page

Je vais faire quelques essais pour voir. Je me dis que pour ce problème venant des sites ayant un contenu généré dans le client, doit y avoir moyen de récupérer une première version de la page en attendant que celle-ci soit montée dans le DOM. La comme ça, c'est Puppeteer qui me vient à l'esprit en premier par exemple.

0
J'aime ❤️

🔴 Hors ligne

Pied de page des forums