♦️ OpenAI & Génération de texte

frcc78 · #21 2020-10-28 14:47:05

Oui, c'est ce que je disais. Va voir avec le reconfinement si j'ai du temps pour m'y pencher un peu plus

poulpe_centriste · #22 2020-10-30 09:30:23

Encore un truc à rajouter sur la file d'attente, bon courage

Sylvain · #23 2020-10-31 17:06:44

Alors nous on a fait, on a déployé et on a tout fait jusque la demande d'insertion dans google ads (refusé après 1 mois pour "contenu généré à l'aide d'outils automatiques").

Globalement avec des modèles génériques type GPT2 et un tout petit peu de fine tuning on obtient environ 50 à 100 sessions par jour ET PAR BLOC DE 1000 TEXTES GENERES. indépendamment chaque page va de position 1 à rien du tout, mais uniquement sur de la longue traine. Pour nos tests on avait quelques GPUs qui tournait pour sortir les textes.

On peux faire un peu mieux avec des modèles maisons, mais là ça devient du travail pour les experts du ML (=pas à la portée des SEOs je pense). Là en terme d'infra c'est directement très lourd.

Seoxis · #24 2020-10-31 20:23:36

Pour ceux qui veuillent s'initier à ça vous pouvez utiliser l'outil Google Collab qui permet d'utiliser la puissance des serveurs google (CPU ou GPU) de manière gratuite avec possibilité de partager votre travail etc

une alternative à GPT est camemBERT qui se base sur la technologie BERT utilisé par google pour son moteur de recherche , l'avantage de camemBERT est qu'il est déjà entraîner sur un dataset FR (qui n'empêche pas les entrainements sur des textes spécifiques en + pour un meilleur résultat)

le soucis avec ce genre de techno est la génération de bouillie donc pour éviter ça il faut passer la génération de texte en 2 passes

1èrement vous devez prédire/renseigner tous les mots clés que vous voulez dans vos phrases (ex : ps5 / console / fin d'année)
2èmement vous complétez vos mots avec camemBERT afin qu'il génère des phrases complètes (ex : la ps5 est la console la plus attendu pour cette fin d'année)

Tout comme le language humain on cherche d'abord quoi dire puis on cherche comment le dire

Enjoy !

Atomium · #25 2020-11-03 00:15:47

Salut à tous, je n'avais pas vu ce topic avancer. Je suis pas mal occupé en cette fin d'année.
Pas encore testé camemBERT, je l'ai vu passer plusieurs fois au cours de mes recherches.
J'ai meme loupé l'annonce de GPT3 lol.

Non l'IA n'est pas là pour construire des textes parfaits. C'est juste un gain de temps considérable pour produire le ciment pour lier les informations factuelles scrappées.

Par conte faîtes gaffe, Google est sur les starting blocks pour buter les contenus générés par les IA.
Donc attention à ne pas utiliser les dataset tout prêts à l'emploi sans quoi vous allez tomber sur les mêmes corpus que google, et donc la même probabilité d'apparition des termes dans vos phrases. Faîtes du bruit, interrompez la production, et sortez des termes parasites de temps en temps.

PS: le content spinning est très sous-évalué par la scène SEO.

Atomium · #26 2020-11-03 00:30:02

Ah juste pour revenir sur une réaction plus haut :
J'ai lâché un exemple de production romancée. Clairement ce type de production est trop stylisée pour tenir sur la durée. L'IA se vautre assez régulièrement et n'est pas prévue pour de la production freestyle.

Par contre j'ai dit que j'avais testé sur des articles "sur le seo" dont le résultat était extrêmement puissant. Et je n'ai pas développé l'info.
Pour mon test, j'ai construis un corpus de milliers d'articles de conseils SEO, et je me suis dis que j'allais l'interroger comme s'il comprenait ce qu'il avait lu. Je précise que les IA de GPT ne sont pas faites pour comprendre, mais pour articuler les mots en suivant des schémas appris.

Je me suis aperçu que les domaines liés à la Connaissance sont très appropriés pour ce genre de production.

La cause : un modèle d'écriture assez universel (les SEO ont tous comme point commun d'être certains de ce qu'ils racontent, en prime ils sont tous rompu à l'art de la terreur "votre site ne va jamais", "aucune chance de"). Ces emplois répétés permettent de préparer une IA bénéficiant d'un maximum d'armes pour rebondir sur les sujets qu'on lui donne.
...Et tous les conseils qu'il m'a donné étaient soient justes, soient simplement appropriés.

Je pense que ce sera le meme cas dans tous les secteurs systémiques pour lesquels il existe des grandes vérités indépendantes d'un contexte particulier. La capacité à contextualiser le dialogue de GPT est bonne (et tributaire de la taille du modele choisi), mais comme il ne panne rien de ce qu'il raconte, on peut partir dans le mur avec des arguments certes logiques indépendamment, mais qui enchainés forment une démonstration absurde.

Dernière modification par Atomium (2020-11-03 00:35:09)

NicolasWeb · #27 2020-11-03 09:08:56

@Seoxis Merci c'est du lourd camemBERT

Je sens que je vais y passer des heures

Seoxis · #28 2020-11-03 23:45:20

j'ai repensé à un tweet que j'avais vu passé il y a longtemps et 30min après je l'ai retrouvé juste pour vous

un site permettant de tester la prédiction avec différents IA

https://github.com/renatoviolin/next_word_prediction

Enjoy !

Atomium · #29 2020-11-12 00:06:37

Qu'est-ce que ça donne camembert ?

Au niveau IA j'ai aussi bossé avec spacy pour de l'analyse de texte, j'ai été très déçu.
Il se casse très facilement sur le FR et affecte souvent à peu près n'importe quel rôle UX lexies.
J'en ai parlé avec un chercheur, il pensait que l'outil était à préférer dans un usage supervisé par l'homme.
Pas très intéressant pour nous vu les volumes que l'on doit absorber.

poulpe_centriste · #30 2020-11-12 13:12:56

Ouh j'avais loupé la suite, super infos

Oui effectivement Spacy n'est pas foufou pour le NER en français, mais plus rapide que NLTK si ma mémoire est bonne pour des tâches de tokenisation, ce qui est intéressant si en amont tu as récupéré un corpus un peu balèze.

Toujours est-il qu'il y a maintenant la lib de Stanford où si je me souviens bien, les scores sont à peu près identique pour le NER en français ou anglais. Tiens, quelques chiffres: https://stanfordnlp.github.io/stanza/performance.html

Présentation de la lib: https://youtu.be/b9vpwGkBnnU

Sylvain · #31 2020-11-12 15:20:29

Si vous voulez voir la sortie d'un modèle MAISON type GPT2 mais pas GPT2 -> https://www.ianswertoyou.com/
Il positionne quelques pages sur de la longue traine (1 seul BL pour l'indexation).

https://www.google.fr/search?source=hp&ei=E1GtX-fdM7KOlwTgi4BI&q=what+type+of+hair+is+the+rarest+%3F&oq=what+type+of+hair+is+the+rarest+%3F

NicolasWeb · #32 2020-11-13 07:43:14

Pas encore eu le temps de m'y mettre... Mais ça fait bien envie tout ça.

Atomium · #33 2021-01-21 19:58:56

poulpe_centriste a écrit :

Ouh j'avais loupé la suite, super infos
Oui effectivement Spacy n'est pas foufou pour le NER en français, mais plus rapide que NLTK si ma mémoire est bonne pour des tâches de tokenisation, ce qui est intéressant si en amont tu as récupéré un corpus un peu balèze.
Toujours est-il qu'il y a maintenant la lib de Stanford où si je me souviens bien, les scores sont à peu près identique pour le NER en français ou anglais. Tiens, quelques chiffres: https://stanfordnlp.github.io/stanza/performance.html
Présentation de la lib: https://youtu.be/b9vpwGkBnnU

Merci pour la lib de Stanford, j'étudie énormément l'analyse sémantique en ce moment et j'ai délaisser la production du langage.
Ta piste me titille du coup et je jeterai un oeil.

potache · #34 2021-03-15 10:24:09

Atomium a écrit :

Salut à tous, je n'avais pas vu ce topic avancer. Je suis pas mal occupé en cette fin d'année.
Par conte faîtes gaffe, Google est sur les starting blocks pour buter les contenus générés par les IA.
Donc attention à ne pas utiliser les dataset tout prêts à l'emploi sans quoi vous allez tomber sur les mêmes corpus que google, et donc la même probabilité d'apparition des termes dans vos phrases. Faîtes du bruit, interrompez la production, et sortez des termes parasites de temps en temps.

Attention, aucune certitude quant à ces informations. Je n'ai aucun rapport avec eux, mais ce sont des bruits de couloir.

Concernant la génération artificielle de textes, je sais que SpinWawe et leur team de 40 ingénieurs est très au point à ce niveau-là. Et ils étaient déjà bien doués avant les avancements d'OpenAi. Pour entrainer leur IA et s'assurer de la construction d'une librairie de training unique ils avaient plusieurs rédacteurs (assez qualis) qui reformulaient des phrases et des paragraphes à la chaine selon un processus spécifique.

Depuis 2-3 ans, ils n'auraient plus besoin de l'entrainer et peuvent créer des articles de très bonne qualité où la touche d'IA est quasiment indiscernable.

NicolasWeb · #35 2021-03-15 12:56:50

Vu comment Google a du mal à détecter certaines bouillie de texte, vous pouvez vous déchaîner avec l'AI.
Le problème, ce n'est pas la qualité du texte fourni par les logiciels, mais plutôt la pertinence par rapport à la requête et l'unicité (attention au duplicate content donc).

Sylvain · #36 2021-03-15 13:08:55

J'ai un retour d'XP sur du GPT2++ (du GPT2 qu'on a amélioré) : en search ça passe et ça rank, par contre à la demande d’intégration adsense on reçoit un mail expliquant que c'est non parce qu'on utilise une méthode de génération automatique. Je ne sais pas si c'est un algo ou un humain qui prend la décision, mais en tout cas coté ads ça passe pas.

Vu que j'ai bossé sur l'autre coté (la détection), ce que je peux vous dire c'est que la principale piste c'est la détection de footprint du modèle, donc un GPT-X sur étagère sera par exemple détectable, mais pas forcément un truc un peu dégueu mais maison. Un peu comme pour TBS à l'époque.

NicolasWeb · #37 2021-03-15 13:15:40

@Sylvain Merci pour ces précisions.
Par contre, entrainer un modèle GPT sur son propre jeu de données, c'est pas une mince affaire...

potache · #38 2021-03-15 13:21:22

@Sylvain si je te suis bien, cette détection basée sur les footprint peut signifier que le spinning handmade a encore de beaux jours devant lui non ?

Sylvain · #39 2021-03-15 13:48:23

NicolasWeb a écrit :

@Sylvain Merci pour ces précisions.
Par contre, entrainer un modèle GPT sur son propre jeu de données, c'est pas une mince affaire...

je te le confirme, pas contre faire un surentrainement ça passe (ça prend un peu de temps mais c'est pas fou) et nous c'est comme ça qu'on a eu des bonnes perfs.

Sylvain · #40 2021-03-15 13:50:37

potache a écrit :

@Sylvain si je te suis bien, cette détection basée sur les footprint peut signifier que le spinning handmade a encore de beaux jours devant lui non ?

A priori oui, du moment que la qualité est suffisante.

🟣 ♦️ OpenAI & Génération de texte

#21 2020-10-28 14:47:05

Re : ♦️ OpenAI & Génération de texte

#22 2020-10-30 09:30:23

Re : ♦️ OpenAI & Génération de texte

#23 2020-10-31 17:06:44

Re : ♦️ OpenAI & Génération de texte

#24 2020-10-31 20:23:36

Re : ♦️ OpenAI & Génération de texte

#25 2020-11-03 00:15:47

Re : ♦️ OpenAI & Génération de texte

#26 2020-11-03 00:30:02

Re : ♦️ OpenAI & Génération de texte

#27 2020-11-03 09:08:56

Re : ♦️ OpenAI & Génération de texte

#28 2020-11-03 23:45:20

Re : ♦️ OpenAI & Génération de texte

#29 2020-11-12 00:06:37

Re : ♦️ OpenAI & Génération de texte

#30 2020-11-12 13:12:56

Re : ♦️ OpenAI & Génération de texte

#31 2020-11-12 15:20:29

Re : ♦️ OpenAI & Génération de texte

#32 2020-11-13 07:43:14

Re : ♦️ OpenAI & Génération de texte

#33 2021-01-21 19:58:56

Re : ♦️ OpenAI & Génération de texte

#34 2021-03-15 10:24:09

Re : ♦️ OpenAI & Génération de texte

#35 2021-03-15 12:56:50

Re : ♦️ OpenAI & Génération de texte

#36 2021-03-15 13:08:55

Re : ♦️ OpenAI & Génération de texte

#37 2021-03-15 13:15:40

Re : ♦️ OpenAI & Génération de texte

#38 2021-03-15 13:21:22

Re : ♦️ OpenAI & Génération de texte

#39 2021-03-15 13:48:23

Re : ♦️ OpenAI & Génération de texte

#40 2021-03-15 13:50:37

Re : ♦️ OpenAI & Génération de texte

Pied de page des forums