Vous n'êtes pas identifié(e).
Bonjour
Pour une fois, j'ouvre un sujet sans poser de questions
J’aimerais vous partager mon expérience avec la génération automatique de texte grâce à GPT3.
Objectif de l’expérience :
Voir si un site de type MFA peut se positionner avec du contenu entièrement générer avec GPT3. Pas simplement avec le modèle Davinci mais avec un entrainement custom (Fine Tunning).
Les étapes :
Étape 1 : Scrap de textes sur des MFA
Pour commencer, j’ai repris un script que j’avais déjà fait pour récupérer les données textuelles de plusieurs MFA.
C’est un scraper custom pour récupérer les bloques qui m’intéresse :
- Introduction
- Comment choisir (avec les critères)
- Les FAQ
- La conclusion
Étape 2 : Nettoyage des données
Je me retrouve donc avec environ 4000+ Intro, critères, FAQ et seulement 100 conclusions (pas bcp de MFA avec des conclusions)
Je nettoie toutes les données avec des regex pour enlever le nom du site ou la marque dans les textes ainsi que des phrases du type les 5 meilleurs (je ne vais pas forcément mettre 5 produits).
Étape 3 : Préparation des Datasets pour OpenAI
Pour entrainer son propre modèle avec OpenAI c’est relativement simple, il faut utiliser Fine Tuning (doc ici : https://beta.openai.com/docs/guides/fine-tuning)
Le dataset doit ressemble à ça :
Étape 4 : L’entrainement avec OpenAI
À ce stade, j’ai 4 datasets, intro, critère, FAQ et conclusion. J’utilise donc l’api de OpenAI pour entrainer 4 modèles différents.
J’ai entrainé sur le modèle “curie” avec 4000 introductions, critères, FAQ et 100 conclusions.
J'ai également fait un entrainement sur “davinci” avec 1000 introductions, critères, FAQ et 100 conclusions.
Pourquoi seulement 1000 sur davinci ? Car l’entrainement est 10 fois plus cher .
Pour vous donner une idée cela représente environ 50-80 $ pour les 4 modèles avec Davinci.
Étape 5 : Tests des modèles
Globalement, curie sur 4000 data semble plus régulier que davinci sur 1000. Néanmoins, Davinci a tendance à produire des textes de “bonne qualité” assez régulièrement.
Évidement Davinci aurait était meilleur que curie sur le même nombre de données, mais c’est une question de rapport qualité-prix.
Voici un exemple d’intro avec Curie (entrainement sur 4000 intro de MFA) :
Demande
>introduction sur les aspirateurs:
Texte généré :
L’aspirateur est un appareil qui aspire l’air, les liquides, et spécialement les poussières. Il est très utile pour nettoyer les sols et les murs. Il existe différents types d’aspirateurs, selon le type de surface à nettoyer. L’aspirateur à main est le plus souvent utilisé. Il est très pratique et peut être utilisé par tous les utilisateurs. Il existe de nombreux modèles d’aspirateurs sur le marché. Il est important de choisir un modèle de qualité, qui convient à vos besoins et qui convient à votre budget. Ce guide d’achat est justement là pour vous aider à choisir le meilleur aspirateur.
Voici un exemple d’intro avec Davinci (entrainement sur 1000 intro de MFA) :
Demande
>introduction sur les aspirateurs:
Texte généré :
Si vous voulez vous débarrasser des particules et des saletés qui s'accumulent sur votre sol et vos meubles, vous avez besoin d'un aspirateur. Mais difficile de choisir entre tous les modèles vendus sur le marché. Pour mieux vous orienter, lisez notre guide des meilleurs aspirateurs du moment.
Étape 6 : Sélection des sujets / KW
Pour l’expérience, j'ai pris uniquement des kw peu concurrentiel, c'est-à-dire des kw avec une SERP qui ne demande pas de BL pour être sur la première page.
Étape 7 : Générations des textes
Maintenant que j’ai 8 modèles en tout (2 x 4 pour curie et davinci), je prépare les inputs pour générer les articles.
Pour faire simple, je prépare un JSON avec des données de base du type :
- nom du produit (ex: aspirateur)
- critère 1 (ex: La puissance)
- critère 2
- FAQ 1 (ex: Quelles différences entre aspirateur truc et aspirateur machin ?)
- FAQ 2
Ensuite, j’utilise le modèle approprié pour chaque section, par exemple pour générer le texte d’un critère :
>critère - La taille - aspirateur:
Étape Bonus : Correction de la compréhension du produit
En repassant sur quelques articles générés, je me suis rendu compte que parfois GPT3 comprend mal le produit.
Par exemple si je demande une intro sur les chandelles de voiture, il génère une intro qui parle de phare et de lumière… (voir chandelle sur Wikipédia).
Pour éviter ce problème, j’ajoute une petite description du produit avant d’envoyer ma demande à OpenAI. Par exemple :
La chandelle de voiture est un équipement qui permet de maintenir un véhicule en hauteur.
>introduction chandelle de voiture:
La chandelle de voiture est un équipement qui permet de maintenir un véhicule en hauteur.
>critère - Le prix - chandelle de voiture:
…
Conclusion
Pour tester tout ça j’ai pris 2 NDD vierge (sans historique web archive ni aucun BL) et j’ai généré environ 30 articles pour chacun des 2 sites.
Le premier site possède que les articles générés avec les modèles basés sur Curie et l’autre ceux basé sur Davinci. Les sujets/kws sont exactement les mêmes pour les 2 sites avec également les mêmes H1, H2… Seuls les textes sont différents.
J’ai également forcé l’indexation d’une dizaine de pages sur les 2 sites. Pour le moment d’après Ahref, j’ai 56 kw sur le site “Curie” et 23 sur le site “Davinci”. (les sites existent depuis 48h).
J’ai également commandé environ 10 petits BL afin que les sites existent un minimum aux yeux de Google.
Bref, je vais maintenant laisser du temps aux sites et je reviendrais vers vous d'ici à quelques semaines/mois pour vous dire comment cela évolue.
🔴 Hors ligne
Merci pour le partage d'expérience
2008, Ghiata Pierre premier site et premier pas dans le SEO. Depuis le SEO ne m'a jamais quitté...
🔴 Hors ligne
Très beau récap c'est cool comme partage @Hadulin !
Tu gagnes des points pour un futur parrainage en niveau 3 bravo.
⌕ Comment Ranker ?
▶ Nouveauté : Ninja Web Pro Pack copies limitées !
▶ Ebook : Ninjalinking 2022 (-25% : labo25e)
▶ Conseils stratégiques ou techniques ? ( Skype : jaffaarbh )
🟢 En ligne
Cool comme partage !
Hâte de lire la suite
🔴 Hors ligne
🔴 Hors ligne
Hello,
Pour le moment J+20 d'après Ahref
Site 1 Curie: 106 KW, 0 Trafic
Site 2 Davinci: 56 KW, 0 Trafic
Devrais-je apporter quelques améliorations ? Par exemple ajout d'une image, faire des liens internes etc. Ou je laisse comme ça et j'attends 3 Mois ? (le temps qui semble nécessaire pour un new site)
🔴 Hors ligne
beau test et merci pour le partage détaillé et intéressant je serai d'avis de laisser comme ca encore quelques temps pour en voir les limites et ensuite lancer des optis (mais bon c'est ton test à toi de voir )
🔴 Hors ligne
Hello,
je viens de lire ton expérimentation Hadulin. Comme cela fait maintenant plusieurs mois, je serai curieux de connaitre la suite.
As-tu fait des optimisations ou pas?
Combien de KW maintenant ? et surtout combien en Top 10 et Top 20 ?
Et sur trafic et les éventuelles conversions?
Dernière modification par AugLet (2022-03-23 14:28:07)
🔴 Hors ligne
Quelques petites optis à apporter à ton process :
1) Champ sémantique à intégrer impérativement (ça se retrouvera globalement dans tes inputs mais tu pourrais avoir des loupés ;
2) Un texte à trou avec le champ sémantique que tu auras récupéré
3) GPT a tendance à déconner sur de gros textes, fais des traitements "indépendants". Un paragraphe = un texte (de 150/200/250 mots).
Ca limitera de facto les déchets.
Après "parfois GPT3 comprend mal le produit" : une IA ne comprend pas. Elle a un environnement d'apprentissage, elle bachote. En l'état actuel, il n'est pas question de compréhension. Elle trouve un mot, elle se dit que logiquement le suivant ça devrait être ça... (grossièrement)
Le SEO est un travail de chien... Tu passes beaucoup de temps à renifler le cul de tes concurrents et quand tu ne le fais pas tu grattes, tu grattes, tu graaaaattes en espérant tomber sur un truc sympa et parfois tu tombes sur un os ! Mais c'est pas grave, c'est ce que tu recherchais, non ? :-D
- - - - - - - -
Tu recherches du BL pour du tiers 2 ? C'est par ici : www.myback.link
🔴 Hors ligne
Hello,
je viens de lire ton expérimentation Hadulin. Comme cela fait maintenant plusieurs mois, je serai curieux de connaitre la suite.
As-tu fait des optimisations ou pas?
Combien de KW maintenant ? et surtout combien en Top 10 et Top 20 ?
Et sur trafic et les éventuelles conversions?
Je reviens sur le forum après une pause SEO de 2-3 mois, pour te répondre :
D'après Ahref :
Site 1 Curie: 63 KW, 7 Trafic
Site 2 Davinci: 7 KW, 0 Trafic
C'est ridicule, mais je reste persuadé qu'avec une grosse masse d'article (plusieurs milliers) il y a moyen de faire un truc. Pour l'instant, je laisse vivre les sites, car je suis sur d'autres choses.
🔴 Hors ligne
Hyper intéressant ce partage, merci Je m'intéresse aussi de près à GPT3
Dernière modification par Yoshy44000 (2022-08-17 11:25:41)
Je propose aux e-commerçants une présentation et un backlink dofollow offert sur notre nouveau projet Cubelist.fr
Passionné par l'univers du référencement naturel et du web en général
🔴 Hors ligne
AugLet a écrit :Hello,
je viens de lire ton expérimentation Hadulin. Comme cela fait maintenant plusieurs mois, je serai curieux de connaitre la suite.
As-tu fait des optimisations ou pas?
Combien de KW maintenant ? et surtout combien en Top 10 et Top 20 ?
Et sur trafic et les éventuelles conversions?Je reviens sur le forum après une pause SEO de 2-3 mois, pour te répondre :
D'après Ahref :
Site 1 Curie: 63 KW, 7 Trafic
Site 2 Davinci: 7 KW, 0 TraficC'est ridicule, mais je reste persuadé qu'avec une grosse masse d'article (plusieurs milliers) il y a moyen de faire un truc. Pour l'instant, je laisse vivre les sites, car je suis sur d'autres choses.
Est ce que cela a évolué dans le bon sens depuis ?
Je propose aux e-commerçants une présentation et un backlink dofollow offert sur notre nouveau projet Cubelist.fr
Passionné par l'univers du référencement naturel et du web en général
🔴 Hors ligne
Petite info importante, la fondation OpenAI divise par 3 le prix des 1000 tokens quelque soit le modèle utilisé : https://help.openai.com/en/articles/648 … update-faq
Par contre le coût des fine-tuned models ne changent pas eux, cela dit, cela me donne encore plus envie de me faire mon dev perso
🔴 Hors ligne
bonjour
je viens de trouver ça sur la position de Google sur les articles génère
hxxps://www.webrankinfo.com/dossiers/redaction/detection-contenus-ia
si d'autres peuvent compléter cette information
🔴 Hors ligne
Hello Hello,
Super retour d'expérience.
Est-ce que tes sites sont toujours positionnés ? As-tu déjà fait des opti ?
Nouveau dans le SEO et impatient d'apprendre le maximum de chose dans ce domaine !
🔴 Hors ligne