Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 ♦️ OpenAI & Génération de texte


#21 2020-10-28 14:47:05

Mention frcc78
🥈 Grade : Soldier

Membre du CercleOfficier250likes1000 messagesPhilantrope
Inscription : 2012-07-05
Messages : 1 161
Likes : 264

Re : ♦️ OpenAI & Génération de texte

Oui, c'est ce que je disais. Va voir avec le reconfinement si j'ai du temps pour m'y pencher un peu plus big_smile


Mon réseau pour publier chez moi : liste ici. Échange possible.

0
J'aime ❤️

🔴 Hors ligne

#22 2020-10-30 09:30:23

Mention poulpe_centriste
🥈 Grade : Soldier

Membre du CercleOfficier100likes
Inscription : 2018-07-03
Messages : 572
Likes : 168

Re : ♦️ OpenAI & Génération de texte

Encore un truc à rajouter sur la file d'attente, bon courage smile

0
J'aime ❤️

🔴 Hors ligne

#23 2020-10-31 17:06:44

Mention Sylvain
🥈 Grade : Soldier

Membre du CercleOfficierNarcissiqueForce PolyvalenteStratège100likes
Inscription : 2014-04-07
Messages : 816
Likes : 110

Développement Python
Audit et Analyse
Sémantique
Advertising

Re : ♦️ OpenAI & Génération de texte

Alors nous on a fait, on a déployé et on a tout fait jusque la demande d'insertion dans google ads (refusé après 1 mois pour "contenu généré à l'aide d'outils automatiques").

Globalement avec des modèles génériques type GPT2 et un tout petit peu de fine tuning on obtient environ 50 à 100 sessions par jour ET PAR BLOC DE 1000 TEXTES GENERES. indépendamment chaque page va de position 1 à rien du tout, mais uniquement sur de la longue traine. Pour nos tests on avait quelques GPUs qui tournait pour sortir les textes.

On peux faire un peu mieux avec des modèles maisons, mais là ça devient du travail pour les experts du ML (=pas à la portée des SEOs je pense). Là en terme d'infra c'est directement très lourd.


Tant va la loutre à l'eau qu'à la fin elle se mouille...

1
J'aime ❤️

🔴 Hors ligne

#24 2020-10-31 20:23:36

Mention Seoxis
🥇 Grade : Guardian

Membre du Black LaboMembre du CercleOfficierStratège50likes
Lieu : Calais
Inscription : 2014-04-29
Messages : 794
Likes : 88

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : ♦️ OpenAI & Génération de texte

Pour ceux qui veuillent s'initier à ça vous pouvez utiliser l'outil Google Collab qui permet d'utiliser la puissance des serveurs google (CPU ou GPU) de manière gratuite avec possibilité de partager votre travail etc

une alternative à GPT est camemBERT qui se base sur la technologie BERT utilisé par google pour son moteur de recherche , l'avantage de camemBERT est qu'il est déjà entraîner sur un dataset FR (qui n'empêche pas les entrainements sur des textes spécifiques en + pour un meilleur résultat)

le soucis avec ce genre de techno est la génération de bouillie donc pour éviter ça il faut passer la génération de texte en 2 passes

1èrement vous devez prédire/renseigner tous les mots clés que vous voulez dans vos phrases (ex : ps5 / console / fin d'année)
2èmement vous complétez vos mots avec camemBERT afin qu'il génère des phrases complètes (ex : la ps5 est la console la plus attendu pour cette fin d'année)

Tout comme le language humain on cherche d'abord quoi dire puis on cherche comment le dire smile

Enjoy !


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

2
J'aime ❤️

🔴 Hors ligne

#25 2020-11-03 00:15:47

Mention Atomium
🥈 Grade : Soldier

Membre du CercleOfficierNarcissiqueIngénieur webStratège10likes
Lieu : Metz
Inscription : 2019-06-27
Messages : 150
Likes : 36

Sémantique
Développement PHP
Développement JAVA
Scraping

Re : ♦️ OpenAI & Génération de texte

Salut à tous, je n'avais pas vu ce topic avancer. Je suis pas mal occupé en cette fin d'année.
Pas encore testé camemBERT, je l'ai vu passer plusieurs fois au cours de mes recherches.
J'ai meme loupé l'annonce de GPT3 lol.

Non l'IA n'est pas là pour construire des textes parfaits. C'est juste un gain de temps considérable pour produire le ciment pour lier les informations factuelles scrappées.

Par conte faîtes gaffe, Google est sur les starting blocks pour buter les contenus générés par les IA.
Donc attention à ne pas utiliser les dataset tout prêts à l'emploi sans quoi vous allez tomber sur les mêmes corpus que google, et donc la même probabilité d'apparition des termes dans vos phrases. Faîtes du bruit, interrompez la production, et sortez des termes parasites de temps en temps.

PS: le content spinning est très sous-évalué par la scène SEO.

1
J'aime ❤️

🔴 Hors ligne

#26 2020-11-03 00:30:02

Mention Atomium
🥈 Grade : Soldier

Membre du CercleOfficierNarcissiqueIngénieur webStratège10likes
Lieu : Metz
Inscription : 2019-06-27
Messages : 150
Likes : 36

Sémantique
Développement PHP
Développement JAVA
Scraping

Re : ♦️ OpenAI & Génération de texte

Ah juste pour revenir sur une réaction plus haut :
J'ai lâché un exemple de production romancée. Clairement ce type de production est trop stylisée pour tenir sur la durée. L'IA se vautre assez régulièrement et n'est pas prévue pour de la production freestyle.

Par contre j'ai dit que j'avais testé sur des articles "sur le seo" dont le résultat était extrêmement puissant. Et je n'ai pas développé l'info.
Pour mon test, j'ai construis un corpus de milliers d'articles de conseils SEO, et je me suis dis que j'allais l'interroger comme s'il comprenait ce qu'il avait lu. Je précise que les IA de GPT ne sont pas faites pour comprendre, mais pour articuler les mots en suivant des schémas appris. smile

Je me suis aperçu que les domaines liés à la Connaissance sont très appropriés pour ce genre de production.

La cause : un modèle d'écriture assez universel (les SEO ont tous comme point commun d'être certains de ce qu'ils racontent, en prime ils sont tous rompu à l'art de la terreur "votre site ne va jamais", "aucune chance de"). Ces emplois répétés permettent de préparer une IA bénéficiant d'un maximum d'armes pour rebondir sur les sujets qu'on lui donne.
...Et tous les conseils qu'il m'a donné étaient soient justes, soient simplement appropriés.

Je pense que ce sera le meme cas dans tous les secteurs systémiques pour lesquels il existe des grandes vérités indépendantes d'un contexte particulier. La capacité à contextualiser le dialogue de GPT est bonne (et tributaire de la taille du modele choisi), mais comme il ne panne rien de ce qu'il raconte, on peut partir dans le mur avec des arguments certes logiques indépendamment, mais qui enchainés forment une démonstration absurde.

Dernière modification par Atomium (2020-11-03 00:35:09)

0
J'aime ❤️

🔴 Hors ligne

#27 2020-11-03 09:08:56

Mention NicolasWeb
🥈 Grade : Soldier

Membre du CercleOfficierStratège100likes1000 messages
Lieu : Besançon (France)
Inscription : 2015-09-30
Messages : 1 063
Likes : 180

Rédaction
Sémantique
Site Web

Re : ♦️ OpenAI & Génération de texte

@Seoxis Merci c'est du lourd camemBERT cool

Je sens que je vais y passer des heures smile
source.gif

0
J'aime ❤️

🔴 Hors ligne

#28 2020-11-03 23:45:20

Mention Seoxis
🥇 Grade : Guardian

Membre du Black LaboMembre du CercleOfficierStratège50likes
Lieu : Calais
Inscription : 2014-04-29
Messages : 794
Likes : 88

Scraping
Netlinking Auto
Audit et Analyse
Automatisation Web
Site Web

Re : ♦️ OpenAI & Génération de texte

j'ai repensé à un tweet que j'avais vu passé il y a longtemps et 30min après je l'ai retrouvé juste pour vous

un site permettant de tester la prédiction avec différents IA

https://github.com/renatoviolin/next_word_prediction

Enjoy !


Envie de me faire plaisir , achetez les mêmes proxys que j'utilise via ce lien : -=[ buyproxies.org ]=-  (15€ pour 10 proxys dédiés)

Envie de tester ZennoPoster c'est par ici : -=[ ZennoPoster ]=- (à partir de 87$)

0
J'aime ❤️

🔴 Hors ligne

#29 2020-11-12 00:06:37

Mention Atomium
🥈 Grade : Soldier

Membre du CercleOfficierNarcissiqueIngénieur webStratège10likes
Lieu : Metz
Inscription : 2019-06-27
Messages : 150
Likes : 36

Sémantique
Développement PHP
Développement JAVA
Scraping

Re : ♦️ OpenAI & Génération de texte

Qu'est-ce que ça donne camembert ?

Au niveau IA j'ai aussi bossé avec spacy pour de l'analyse de texte, j'ai été très déçu.
Il se casse très facilement sur le FR et affecte souvent à peu près n'importe quel rôle UX lexies.
J'en ai parlé avec un chercheur, il pensait que l'outil était à préférer dans un usage supervisé par l'homme.
Pas très intéressant pour nous vu les volumes que l'on doit absorber.

0
J'aime ❤️

🔴 Hors ligne

#30 2020-11-12 13:12:56

Mention poulpe_centriste
🥈 Grade : Soldier

Membre du CercleOfficier100likes
Inscription : 2018-07-03
Messages : 572
Likes : 168

Re : ♦️ OpenAI & Génération de texte

Ouh j'avais loupé la suite, super infos smile

Oui effectivement Spacy n'est pas foufou pour le NER en français, mais plus rapide que NLTK si ma mémoire est bonne pour des tâches de tokenisation, ce qui est intéressant si en amont tu as récupéré un corpus un peu balèze.

Toujours est-il qu'il y a maintenant la lib de Stanford où si je me souviens bien, les scores sont à peu près identique pour le NER en français ou anglais. Tiens, quelques chiffres: https://stanfordnlp.github.io/stanza/performance.html

Présentation de la lib: https://youtu.be/b9vpwGkBnnU

0
J'aime ❤️

🔴 Hors ligne

#31 2020-11-12 15:20:29

Mention Sylvain
🥈 Grade : Soldier

Membre du CercleOfficierNarcissiqueForce PolyvalenteStratège100likes
Inscription : 2014-04-07
Messages : 816
Likes : 110

Développement Python
Audit et Analyse
Sémantique
Advertising

Re : ♦️ OpenAI & Génération de texte

Si vous voulez voir la sortie d'un modèle MAISON type GPT2 mais pas GPT2 -> https://www.ianswertoyou.com/
Il positionne quelques pages sur de la longue traine (1 seul BL pour l'indexation).

https://www.google.fr/search?source=hp&ei=E1GtX-fdM7KOlwTgi4BI&q=what+type+of+hair+is+the+rarest+%3F&oq=what+type+of+hair+is+the+rarest+%3F


Tant va la loutre à l'eau qu'à la fin elle se mouille...

0
J'aime ❤️

🔴 Hors ligne

#32 2020-11-13 07:43:14

Mention NicolasWeb
🥈 Grade : Soldier

Membre du CercleOfficierStratège100likes1000 messages
Lieu : Besançon (France)
Inscription : 2015-09-30
Messages : 1 063
Likes : 180

Rédaction
Sémantique
Site Web

Re : ♦️ OpenAI & Génération de texte

Pas encore eu le temps de m'y mettre... Mais ça fait bien envie tout ça.

0
J'aime ❤️

🔴 Hors ligne

#33 2021-01-21 19:58:56

Mention Atomium
🥈 Grade : Soldier

Membre du CercleOfficierNarcissiqueIngénieur webStratège10likes
Lieu : Metz
Inscription : 2019-06-27
Messages : 150
Likes : 36

Sémantique
Développement PHP
Développement JAVA
Scraping

Re : ♦️ OpenAI & Génération de texte

poulpe_centriste a écrit :

Ouh j'avais loupé la suite, super infos smile

Oui effectivement Spacy n'est pas foufou pour le NER en français, mais plus rapide que NLTK si ma mémoire est bonne pour des tâches de tokenisation, ce qui est intéressant si en amont tu as récupéré un corpus un peu balèze.

Toujours est-il qu'il y a maintenant la lib de Stanford où si je me souviens bien, les scores sont à peu près identique pour le NER en français ou anglais. Tiens, quelques chiffres: https://stanfordnlp.github.io/stanza/performance.html

Présentation de la lib: https://youtu.be/b9vpwGkBnnU


Merci pour la lib de Stanford, j'étudie énormément l'analyse sémantique en ce moment et j'ai délaisser la production du langage.
Ta piste me titille du coup et je jeterai un oeil. wink

0
J'aime ❤️

🔴 Hors ligne

#34 2021-03-15 10:24:09

Mention potache
🥈 Grade : Soldier

Membre du CercleOfficierStratège250likesConsomateur de LiensPhilantrope
Lieu : Grenoble
Inscription : 2020-04-22
Messages : 386
Likes : 250

Content Spinning
Sémantique
Audit et Analyse
Développement Python
Site Web

Re : ♦️ OpenAI & Génération de texte

Atomium a écrit :

Salut à tous, je n'avais pas vu ce topic avancer. Je suis pas mal occupé en cette fin d'année.
Par conte faîtes gaffe, Google est sur les starting blocks pour buter les contenus générés par les IA.
Donc attention à ne pas utiliser les dataset tout prêts à l'emploi sans quoi vous allez tomber sur les mêmes corpus que google, et donc la même probabilité d'apparition des termes dans vos phrases. Faîtes du bruit, interrompez la production, et sortez des termes parasites de temps en temps.

Attention, aucune certitude quant à ces informations. Je n'ai aucun rapport avec eux, mais ce sont des bruits de couloir.

Concernant la génération artificielle de textes, je sais que SpinWawe et leur team de 40 ingénieurs est très au point à ce niveau-là. Et ils étaient déjà bien doués avant les avancements d'OpenAi. Pour entrainer leur IA et s'assurer de la construction d'une librairie de training unique ils avaient plusieurs rédacteurs (assez qualis) qui reformulaient des phrases et des paragraphes à la chaine selon un processus spécifique.

Depuis 2-3 ans, ils n'auraient plus besoin de l'entrainer et peuvent créer des articles de très bonne qualité où la touche d'IA est quasiment indiscernable.


Mon nouvel outil d'optimisation sémantique : https://thot-seo.fr/ ★★★
Vous pouvez tester gratuitement depuis la home de Thot SEO

0
J'aime ❤️

🔴 Hors ligne

#35 2021-03-15 12:56:50

Mention NicolasWeb
🥈 Grade : Soldier

Membre du CercleOfficierStratège100likes1000 messages
Lieu : Besançon (France)
Inscription : 2015-09-30
Messages : 1 063
Likes : 180

Rédaction
Sémantique
Site Web

Re : ♦️ OpenAI & Génération de texte

Vu comment Google a du mal à détecter certaines bouillie de texte, vous pouvez vous déchaîner avec l'AI.
Le problème, ce n'est pas la qualité du texte fourni par les logiciels, mais plutôt la pertinence par rapport à la requête et l'unicité (attention au duplicate content donc).

0
J'aime ❤️

🔴 Hors ligne

#36 2021-03-15 13:08:55

Mention Sylvain
🥈 Grade : Soldier

Membre du CercleOfficierNarcissiqueForce PolyvalenteStratège100likes
Inscription : 2014-04-07
Messages : 816
Likes : 110

Développement Python
Audit et Analyse
Sémantique
Advertising

Re : ♦️ OpenAI & Génération de texte

J'ai un retour d'XP sur du GPT2++ (du GPT2 qu'on a amélioré) : en search ça passe et ça rank, par contre à la demande d’intégration adsense on reçoit un mail expliquant que c'est non parce qu'on utilise une méthode de génération automatique. Je ne sais pas si c'est un algo ou un humain qui prend la décision, mais en tout cas coté ads ça passe pas.

Vu que j'ai bossé sur l'autre coté (la détection), ce que je peux vous dire c'est que la principale piste c'est la détection de footprint du modèle, donc un GPT-X sur étagère sera par exemple détectable, mais pas forcément un truc un peu dégueu mais maison. Un peu comme pour TBS à l'époque.


Tant va la loutre à l'eau qu'à la fin elle se mouille...

0
J'aime ❤️

🔴 Hors ligne

#37 2021-03-15 13:15:40

Mention NicolasWeb
🥈 Grade : Soldier

Membre du CercleOfficierStratège100likes1000 messages
Lieu : Besançon (France)
Inscription : 2015-09-30
Messages : 1 063
Likes : 180

Rédaction
Sémantique
Site Web

Re : ♦️ OpenAI & Génération de texte

@Sylvain Merci pour ces précisions.
Par contre, entrainer un modèle GPT sur son propre jeu de données, c'est pas une mince affaire...

0
J'aime ❤️

🔴 Hors ligne

#38 2021-03-15 13:21:22

Mention potache
🥈 Grade : Soldier

Membre du CercleOfficierStratège250likesConsomateur de LiensPhilantrope
Lieu : Grenoble
Inscription : 2020-04-22
Messages : 386
Likes : 250

Content Spinning
Sémantique
Audit et Analyse
Développement Python
Site Web

Re : ♦️ OpenAI & Génération de texte

@Sylvain si je te suis bien, cette détection basée sur les footprint peut signifier que le spinning handmade a encore de beaux jours devant lui non ?


Mon nouvel outil d'optimisation sémantique : https://thot-seo.fr/ ★★★
Vous pouvez tester gratuitement depuis la home de Thot SEO

0
J'aime ❤️

🔴 Hors ligne

#39 2021-03-15 13:48:23

Mention Sylvain
🥈 Grade : Soldier

Membre du CercleOfficierNarcissiqueForce PolyvalenteStratège100likes
Inscription : 2014-04-07
Messages : 816
Likes : 110

Développement Python
Audit et Analyse
Sémantique
Advertising

Re : ♦️ OpenAI & Génération de texte

NicolasWeb a écrit :

@Sylvain Merci pour ces précisions.
Par contre, entrainer un modèle GPT sur son propre jeu de données, c'est pas une mince affaire...

je te le confirme, pas contre faire un surentrainement ça passe (ça prend un peu de temps mais c'est pas fou) et nous c'est comme ça qu'on a eu des bonnes perfs.


Tant va la loutre à l'eau qu'à la fin elle se mouille...

0
J'aime ❤️

🔴 Hors ligne

#40 2021-03-15 13:50:37

Mention Sylvain
🥈 Grade : Soldier

Membre du CercleOfficierNarcissiqueForce PolyvalenteStratège100likes
Inscription : 2014-04-07
Messages : 816
Likes : 110

Développement Python
Audit et Analyse
Sémantique
Advertising

Re : ♦️ OpenAI & Génération de texte

potache a écrit :

@Sylvain si je te suis bien, cette détection basée sur les footprint peut signifier que le spinning handmade a encore de beaux jours devant lui non ?

A priori oui, du moment que la qualité est suffisante.


Tant va la loutre à l'eau qu'à la fin elle se mouille...

0
J'aime ❤️

🔴 Hors ligne

Pied de page des forums