♦️ OpenAI & Génération de texte

poulpe_centriste · #41 2021-03-15 14:33:55

Tiens ça me refait penser à une discussion en MP avec Atomium.

Voir:
https://arxiv.org/abs/2010.11967

This paper shows how to construct knowledge graphs (KGs) from pre-trained language models (e.g., BERT, GPT-2/3), without human supervision. Popular KGs (e.g, Wikidata, NELL) are built in either a supervised or semi-supervised manner, requiring humans to create knowledge. Recent deep language models automatically acquire knowledge from large-scale corpora via pre-training. The stored knowledge has enabled the language models to improve downstream NLP tasks, e.g., answering questions, and writing code and articles. In this paper, we propose an unsupervised method to cast the knowledge contained within language models into KGs. We show that KGs are constructed with a single forward pass of the pre-trained language models (without fine-tuning) over the corpora. We demonstrate the quality of the constructed KGs by comparing to two KGs (Wikidata, TAC KBP) created by humans. Our KGs also provide open factual knowledge that is new in the existing KGs. Our code and KGs will be made publicly available.

https://youtu.be/NAJOZTNkhlI

Ce qui au delà de la génération peut avoir bien d'autres aspects intéressants:
- génération de fiche de rédac à filer à des non experts
- génération en auto de maillage interne/externe utile pour les humains/marketing

Atomium · #42 2021-03-17 22:51:34

@NicolasWeb tu n'es pas obligé d'entrainer entièrement GPT2, tu peux prendre sa base de compréhension du langage naturel et le sur-entrainer (comme précise @sylvain) avec un ju de données à toi dans une certaine limite de taille (pour ne pas péter la RAM). ça ne prend pas si longtemps que ça et ça tourne très bien. Mes meilleurs tests sont basés là dessus. APrès GPT2 ne doit pas être lancé en roue libre pour produire un texte complet, il n'a aucune idée de ce qu'il raconte et son contexte est trop limité pour être en mesure de construire un début, milieu et une fin. Par contre, il s'en sort très bien sur de la production de paragraphe, même pour recracher de la vraie connaissance technique, il tombe souvent juste quand on l'amorce avec une structure habituelle (celle qu'il a appris dans son second corpus).

NicolasWeb · #43 2021-03-18 07:28:58

@Atomium Merci pour ce complément.
Pour le moment, je ne me suis pas intéressé précisément et je travaille toujours avec des structures en bouillie.
Mais dès que j'ai un peu le temps je vais m'y coller, c'est vraiment intéressant pour mes projets.

D'ailleurs, plus largement, j'utilise ces outils pour tester des pages conçues automatiquement. Si je vois qu'une page commence à bien prendre pour une expression intéressante (page 3 ou 2, avec intention d'achat ou rémunération possible), je transforme cela en mini-site ou je refait la page plus propre.

SimpleJack · #44 2021-03-19 04:05:07

NicolasWeb a écrit :

D'ailleurs, plus largement, j'utilise ces outils pour tester des pages conçues automatiquement. Si je vois qu'une page commence à bien prendre pour une expression intéressante (page 3 ou 2, avec intention d'achat ou rémunération possible), je transforme cela en mini-site ou je refait la page plus propre.

Bonjour, je trouve que c'est comme si tu envoie des éclaireurs à moindre cout et je pense que c'est une bonne approche.
Est ce que tu as pu identifier beaucoup de niches profitables ?

Dernière modification par SimpleJack (2021-03-19 04:06:57)

NicolasWeb · #45 2021-03-19 07:27:42

@SimpleJack
Pas de niches complètes, mais des sujets à explorer sur des sites que j'ai déjà oui !
Après, en pratique, avec de l'expérience une bonne analyse de la SERP suffit maintenant. Mais pour avoir une idée de ce qu'il se passe vraiment, Google Search console est quand même utile.

Ziltosh · #46 2021-03-31 21:00:45

@Atomium tu es sur GPT-2 ou GPT-3 ?

J'ai l'accès a GPT-3 depuis peu, c'est pas mal du tout mais encore perfectible, néanmoins ça reste assez impressionnant sur certaines demandes (et ça parle très bien en français, anglais ou même d'autres langues).
Je peux c/c un résultat ici sur un sujet en particulier si ça intéresse pour donner une idée et si d'autres n'ont pas déjà l'accès (ça ne doit pas être si rare que ça).

Par contre, ça peut grandement faciliter/accélérer la rédaction et donc le prix des articles pour ceux qui font appel à des rédacteurs. Perso je fais et vais faire du coup pas mal de tests pour voir si ça plaît à Google.

Dernière modification par Ziltosh (2021-03-31 21:03:05)

Sosa · #47 2021-04-04 01:36:12

J'ai fais ma demande fin 2020 mais je n'ai pas eu de retour depuis. Je continue à m'entrainer sur SC et quand j'aurais du temps avec Python. Merci pour les retours de chacun.

GBB_N12 · #48 2021-04-11 18:55:20

Y'a GPT Neo (en équivalent de GPT-3) qui à la côte en ce moment. "Accessible" à tous en Python via la librairie transformers de Hugging Face.

Atomium · #49 2021-04-15 07:18:48

GBB_N12 a écrit :

Y'a GPT Neo (en équivalent de GPT-3) qui à la côte en ce moment. "Accessible" à tous en Python via la librairie transformers de Hugging Face.

Comment c'est possible techniquement ?

LeMoussel · #50 2021-04-15 07:30:16

Plus d'info: EleutherAI / gpt-neo
An implementation of model & data parallel GPT3-like models using the mesh-tensorflow library.

Je teste sur Colab mais à ce jour, pas réussi / compris comment faire/ configurer pour le français.

Dernière modification par LeMoussel (2021-04-15 12:01:21)

Atomium · #51 2021-04-15 08:29:15

J'ai monté le colab, j'ai vu qu'il demandait un accès google cloud.
Je n'ai pas encore lancé je suis sur d'autres dossiers, mais vous avez une idée du volume que ça demande comme ressource ? Il faut du GG payant ?

LeMoussel · #52 2021-04-15 12:13:06

Colab notebook for GPTNeo

Attention seul le modèle pré traité/entrainé 1.3B (https://the-eye.eu/public/AI/gptneo-release/GPT3_XL/) passe sous Colab. Le modèle 2.7B: https://the-eye.eu/public/AI/gptneo-release/GPT3_2-7B/ est trop important, il ne passe pas dans la mémoire des TPUs Colab disponible.

Il y a aussi la possibilité d'utiliser GPTNeo localement sur vos GPU. Je ne m'y suis pas encore aventuré

Dernière modification par LeMoussel (2021-04-15 12:13:58)

Ziltosh · #53 2021-05-01 08:17:00

Pour ceux qui veulent voir un peu ce que peut proposer GPT-3, il y a https://www.conversion.ai/ qui l'utilise pour générer un peu de tout.

Daman · #54 2021-09-04 09:31:37

Hello,
je relance le sujet car je suis curieux de voir ce que ça donne tout ça.

Certains parmi vous ont testé jarvis.ai, ou copy.ai ?
En regardant quelques exemples et vidéos, ça fait très marketé, mais est-ce que c'est valable pour réellement produire vite et bien ?
Pour l'instant je reste dubitatif.

@Ziltosh : tu l'utilises du coup ?

Fin du mois je pense tester les deux services sur principalement 2 besoins :
- fiche produit sans objectif réel SEO, juste pas avoir un site vide
- articles de blogs à produire rapidement pour remonter de l'expiré, sans avoir de la bouillie ou de la daube à pas cher

J'ai aussi vu passer un tool français, markcopy.
Déjà, c'est plus cher que les deux premiers, leur démo m'emballe moyennement...
Et en cherchant, l'un des fondateurs semble uniquement se la ramener en mode "growth hack" et combien il gagne par semaine => pour les pigeons ?

Ziltosh · #55 2021-09-04 10:37:20

J'utilise GPT-3 sur un nouveau projet pour générer des phrases à partir de données que je lui fournis.
Ca permet quand même de ne pas avoir à rédiger, donc soit de le faire soi-même assez rapidement si on n'aime pas la rédaction (mon cas, c'est du clic clic + parfois correction d'une petite erreur), soit de le faire faire par un assistant plutôt qu'un rédacteur, ce qui peut coûter parfois moins cher aussi.

Dans l'ensemble c'est assez cool mais pas oufissime non plus. Il part un peu en couilles par moment du coup pour mon cas il faut en moyenne 2 générations pour obtenir un truc pas trop mal.

Mais j'ai l'impression que l'input qu'on lui envoie est vraiment important, plus on lui envoie de données pour contextualiser, mieux c'est, mais ça finit par coûter cher du coup.
Il y a aussi le choix des différentes variables mais c'est assez nébuleux pour le coup.

jerem · #56 2021-09-07 15:56:42

Je suis tout à fait d'accord sur l'output et la contextualisation qui est importante pour la pertinence du texte.
Ne pas hésiter à reformuler, modifier les ordres en cours de prod etc ...
Le ton d'écriture influe aussi sur la qualité du contenu produit.
Un des problème rencontré est les fausses infos, donc mettre l'outils dans les mains d'un assistant si il connait pas le thème ça peut être source de soucis. Lors d'une génération sur : "recettes soin du visage maison" l'IA m'a plus sorti la recette du quatre quart que d'un soin visage DIY. Donc pour l'instant selon moi la relecture est importante.

Daman · #57 2021-09-07 17:45:28

jerem a écrit :

l'IA m'a plus sorti la recette du quatre quart que d'un soin visage DIY

Bof, si c'est un soin DIY et vegan, c'est pareil

Ok bon c'est déjà pas mal comme retours, je vais tester tout ça fin du mois.

A voir aussi ce que peut sortir l'un ou l'autre outil si on lui balance un Titre + intro + sommaire : ça, c'est faisable quand même super vite, puis s'il comprend assez bien pour faire un texte de 800 mots correct et unique, ça me va.
A tester aussi le résultat en lui balançant à la fin des expressions clés, genre sortie d'un guide Yourtextguru : il va comprendre que c'est des inputs séparés, ou il va amalgamer tout et sortir une bouillie immonde de mots-clés ?

=> ça sent la prochaine évolution de Yourtextguru + Babbar non ?

jerem · #58 2021-09-07 18:42:56

je fais le test demain ou plus tard dans la soirée. J'ai toujours contextualisé. et je te dirais ça

potache · #59 2021-09-07 21:32:09

Article très intéressant lié à ce sujet : hxxps://www.animalz.co/blog/the-search-singularity/

En bref la quantité de contenus va exploser avec l'amélioration de ces modèles mais tout ce qui est vraiment automatisé reste une moyenne de tous les contenus qu'il a ingurgité. Donc le challenge sera pour les humains de VRAIMENT sortir du lot et pour les moteurs de recherche de VRAIMENT se sortir les doigts pour trier le bon grain de l'ivraie (c'est mon analyse) parce qu'actuellement le mauvaise contenu rank.

-> Augmentation de l'importance des facteurs off-site et comportementaux ?

Autre point très intéressant dans la recherche de la particularité des articles : il pourrait être pertinent d'inclure des phrases types comme "Personne ne mentionne blabla" ou "C'était vrai jusqu'à ce que ... maintenant...". Qu'en pensez-vous ?

En tout cas on y est pas encore ! J'ai fait un petit test récemment.

J'ai ranké en top 1 un article sur un KW du style "comment voit un chat" avec uniquement du texte (des tonnes de textes). J'ai créé une autre page (sur un autre site) avec cette fois un outil qui permettait d'expérimenter la chose en direct (donc vraiment l'intention de requête) mais moins de texte. Résultat il ne sort même pas en top 50 !

Daman · #60 2021-09-08 06:48:58

@Potache yes intéressant, et ton test aussi !

Autre point très intéressant dans la recherche de la particularité des articles : il pourrait être pertinent d'inclure des phrases types comme "Personne ne mentionne blabla" ou "C'était vrai jusqu'à ce que ... maintenant...". Qu'en pensez-vous ?

Peut-être en effet... un outil automatisé ne va effectivement pas parler de ce qu'il ne connait pas, alors que l'humain peut le détecter et compléter.

Autre chose, c'est plus du feeling à ce stade que des tests réels : intégrer des expressions, des jeux de mots ou relever des points contradictoires.

Je m'explique :
- un outil a beaucoup de mal à détecter une expression / un jeu de mots et surtout à bien le contextualiser.
Quel outil utiliserait un "c'est le jeu ma pauv' Lucette" à bon escient ?

- Sur un site et un sujet très particulier, pour rédigé un contenu je me suis bien sûr inspiré des sources et toutes les infos qu'on trouvait généralement : blogs, sites officiels et institutionnels, presse, Wiki...
Oui MAIS !
Tous fonctionnent pareil (et comme les outils ici) : on regarde ce qui existe déjà, on comprend le sujet, et on reformule.
Tous reprenaient la même erreur (date, lieu et origine d'un événement). 1 seul expert pointait du doigt cette erreur, preuve (photo) à l'appui, et n'est pas SEO.
=> J'ai pondu mon contenu optimisé mais contradictoire ; là j'attends de voir ce que ça va donner.
Ça, je vois pas comment un outil va l'automatiser.

En plus, si on part du principe que Google tend quand même à proposer des formats / intentions différents, évoquer un même sujet que les concurrents mais sous un angle différent, ça devrait lui plaire.

🟣 ♦️ OpenAI & Génération de texte

#41 2021-03-15 14:33:55

Re : ♦️ OpenAI & Génération de texte

#42 2021-03-17 22:51:34

Re : ♦️ OpenAI & Génération de texte

#43 2021-03-18 07:28:58

Re : ♦️ OpenAI & Génération de texte

#44 2021-03-19 04:05:07

Re : ♦️ OpenAI & Génération de texte

#45 2021-03-19 07:27:42

Re : ♦️ OpenAI & Génération de texte

#46 2021-03-31 21:00:45

Re : ♦️ OpenAI & Génération de texte

#47 2021-04-04 01:36:12

Re : ♦️ OpenAI & Génération de texte

#48 2021-04-11 18:55:20

Re : ♦️ OpenAI & Génération de texte

#49 2021-04-15 07:18:48

Re : ♦️ OpenAI & Génération de texte

#50 2021-04-15 07:30:16

Re : ♦️ OpenAI & Génération de texte

#51 2021-04-15 08:29:15

Re : ♦️ OpenAI & Génération de texte

#52 2021-04-15 12:13:06

Re : ♦️ OpenAI & Génération de texte

#53 2021-05-01 08:17:00

Re : ♦️ OpenAI & Génération de texte

#54 2021-09-04 09:31:37

Re : ♦️ OpenAI & Génération de texte

#55 2021-09-04 10:37:20

Re : ♦️ OpenAI & Génération de texte

#56 2021-09-07 15:56:42

Re : ♦️ OpenAI & Génération de texte

#57 2021-09-07 17:45:28

Re : ♦️ OpenAI & Génération de texte

#58 2021-09-07 18:42:56

Re : ♦️ OpenAI & Génération de texte

#59 2021-09-07 21:32:09

Re : ♦️ OpenAI & Génération de texte

#60 2021-09-08 06:48:58

Re : ♦️ OpenAI & Génération de texte

Pied de page des forums