Vous n'êtes pas identifié(e).
Hello,
J'essaye de faire une liste des outils qui permettent de faire de la génération de texte plus ou moins automatisée. Je pense notamment à :
- Générer des variantes d'un texte en content spinning (synonymes, reformulations ...)
- Générer des textes à partir d'un fichier Excel (liste de produits par exemple)
Vous utilisez quoi pour ce genre de cas ?
🔴 Hors ligne
seo-quartz c'est vraiment bien pour du spinning de texte
Dernière modification par oyonyx (2019-05-11 11:56:53)
🔴 Hors ligne
Pour ta liste voici des trucs que j'ai déjà utilisé avec plus ou moins de succès :
- bouille à partir d'un dictionnaire ou d'autres sources (suites de mots clés liées d'un point de vue sémantique ou non mais qui n'a aucun sens)
- traduction (attention à la violation de droit d'auteur !)
- OCR de vieux contenus (attention à la violation de droit d'auteur)
- enregistrement + transcription automatique du son d'une après midi avec ma grand-mère : 10 000 mots gratis par heure
- contenu dupliqué croisé / mixé (on prend plusieurs sources et on mélange les phrases entre elles / contenu incompréhensible)
- chaîne de Markov
- machine learning
🔴 Hors ligne
Il est maintenant tout à fait légal de produire du contenu à partir de courts extraits et d'en indiquer la source avec un lien (avec une petite obfuscation ...), tout comme on peut faire légalement de la courte curation en "reformulant" à la volée des résumés idéalement eux même construits à la volée via une API qui le fait bien ... assemblee-nationale.fr/15/ta/tap0267.pdf
🔴 Hors ligne
@NicolasWeb des tools à conseiller pour générer de la bouillie ? j'en cherche en ce moment.
"Without Data You're just another person with an opinion" - W. Edwards Deming
🔴 Hors ligne
@NicolasWeb des tools à conseiller pour générer de la bouillie ? j'en cherche en ce moment.
Il y a ce site qui est intéressant : hxxps://onlinerandomtools.com/shuffle-words (voir les autres outils également)
Perso, je développe les miens.
Avec un programmeur sous la main c'est assez simple :
1) On récupère les 30 ou 50 premiers résultats de Google
2) On enregistre d'un côté toute les phrases de contenus dans un fichier
3) On enregistre dans un autre fichier tous les titre
4) On enregistre dans un fichier tous les H1
5) On enregistre dans un fichier tous les H2
6) On recréé les phrases, titres, HN en utilisant des morceaux de phrases de plusieures sources combinées entre-elles.
Pour compléter et faire encore plus efficace :
7) on ajoute quelques phrases en bon français au début et à la fin avec des expressions qui nous intéresse
8) On ajoute des images (si possible unique ou retravaillées)
🔴 Hors ligne
Complément au 8) , pour voir si l'image a été suffisament "retravaillée" pour être unique : tineye.com
Vous allez voir que c'est pas si évident que ça.
Quelque soit l'image (libre ou pas) : ne pas la rapatrier telle quelle, mais faire un copie d'écran, ça évite beaucoup d'emmerdes (code inside, filligramme etc.).
Si l'image n'est pas libre (je déconseille mais bon) : inverser et tordre jusqu'à ce que ça passe tineye.com, sinon proba d'emmerdes déraisonnable.
🔴 Hors ligne
@guz @NicolasWeb
Merci pour vos conseils. J'ai pour le moment pas de programmateur sous la main j'ai une formation plutôt marketing et stratégie d'entreprise donc je me débrouille avec mes maigres connaissances et les tools que je trouve.
Je vais essayer de tester ça de mon coté rapidement
"Without Data You're just another person with an opinion" - W. Edwards Deming
🔴 Hors ligne
Trashbaby ça dépend vraiment de ce que tu veux faire, la bouilli fut un temps ça marchait avec les splog, mais c'est révolu.
Du contenu à l'arrache avec une queue et une tête comme le décrit NicolasWeb ça doit marcher pour remplir du tiers 3 ou 2, mais pas pour du tiers 1, et sur un MS, je pense pas que ça le fasse :-)
Pour du tiers 2 relativement propre, tu peux te faire un compte sur un site de résumé comme smmry et traire l'API jusqu'à plus soif, tu modifies à la mano pour faire décroitre la similarité et tu concatènes pour faire masse.
Ça va relativement vite, par contre il te faut vraiment un minimum de bagage technique pour faire ça, question gestion du flux, changement de format si tu veux utiliser pour importer dans un cms (wordpress, joomla etc ont des plugin pour faire ce genre de truc ça va très vite).
🔴 Hors ligne
Il y a d'autres solutions, le scrap RSS d'un moteur de recherche qui commence par B ou G. Mais là pareil il faudra un minimum technique.
C'est pas de la dev à proprement parlé, mais c'est quand de la manipulation relativement avancée.
exemples :
https://news.google.com/rss/search?q=banque+crédit&hl=fr&gl=FR&ceid=FR:fr
http://www.bing.com/news/search?q=banque+crédit&format=RSS
ce sont des fichiers exploitables, à condition de savoir mettre en place rapatriement (je viens d'essayer un simple wget ça marche les 2)
après il faut mettre au format que tu veux pour travailler, trier, etc
De gros sites de scrap font comme ça.
pour tout ça il faut connaitre les commandes, savoir écrire les scripts, pas trop déconner sur la vitesse de scrap, camoufler ton agent de scrap etc.
C'est pas de la haute volée, mais il faut s'y mettre.
L'avantage du scrap de rss c'est que légalement on peut pas trop t'emmerder, ce sont de "courts extraits" qui par nature sont destinés à être diffusés par leur source etc.
🔴 Hors ligne
Donc pour cette voie le principe c'est ça. Pour aller plus loin tu trouveras de la doc et des scripts en cherchant "{Google|Bing} News RSS Scraping"
🔴 Hors ligne
Après il y a la voie du spinning évoquée plus haut, par exemple avec l'outil de Jaffar seo-quartz, je l'ai pas essayé mais j'ai vu qu'on en disait du bien et j'ai pas de raison d'en douter.
Personnellement je n'utilise pas ces astuces en ce moment parce que je fais du PBN propre pour mon boulot, et j'ai opté pour une organisation radicalement différente : monter de l'organisation autour de docs pour "rédiger" rapidement du contenu de qualité ET maintenable (G est capricieux) sur du format Json.
Si grosso modo, en faisant pas n'importe quoi sur la footprint, on sait faire le réseau, j'ai remarqué que le facteur bloquant c'est le contenu et sa gestion. Là en gros les prestas que j'ai vues c'est soit de la sous-traitance à Madagacar (name.space par exemple indique qu'il sous-traite à mediaclick) et ça reste raisonnable (~200€ le site) soit c'est du cousu main, et là c'est ~1000€ le site par creanico.
Mais j'ai rien vu sur la MAJ et la maintenance du contenu.
Or c'est clair que maintenant une qualité minimale est devenue incontournable à court termre -> donc gaffe au contenu incohérent.
🔴 Hors ligne
Si grosso modo, en faisant pas n'importe quoi sur la footprint, on sait faire le réseau, j'ai remarqué que le facteur bloquant c'est le contenu et sa gestion.
[...]
Or c'est clair que maintenant une qualité minimale est devenue incontournable à court termre -> donc gaffe au contenu incohérent.
En effet, c'est le contenu et sa publication qui prend beaucoup de temps à gérer.
Par contre, je souhaite nuancer un point : la qualité minimale est devenue incontournable plutôt pour le "long terme" chez moi. Sur le court terme, on pousse de la bouillie et ça roule (enfin de mon côté).
Cette discussion est très intéressante donc merci à tous les participants.
🔴 Hors ligne
"Par contre, je souhaite nuancer un point : la qualité minimale est devenue incontournable plutôt pour le "long terme" chez moi. Sur le court terme, on pousse de la bouillie et ça roule (enfin de mon côté)."
Oui tout à fait d'accord, d'après ce que j'ai pu observer c'est que la bouillie peut tenir 6 mois sans problème, avec une décroissance ultérieure du trafic. En réactualisant 2 fois / an ... :-) Mais il se peut que ça tienne plus longtemps si tu as fait quelques phrases propres au début.
Ce que je voulais dire par court terme, c'est que probablement d'ici 1 à 3 ans G va savoir détecter cela et ce sera plus dur.
🔴 Hors ligne
En sous-traitance pbn il y a aussi une autre offre, PBN express, qui a l'air bien pensé pour faciliter le travail avec wordpress, en test à suivre.
Mais en fait toutes ces prestas ne permettent pas de gérer facilement les MAJ des textes eux-même.
Je pense que je vais concevoir un système centralisé avec publication, maj, données des spots etc.
Ça sent le Zeonnoposter pour bientôt
🔴 Hors ligne
octrino qui propose de la redac pour pbn aussi , je n ai pas testé
Par contre j'ai testé seo-quartz ça fonctionne bien, et c'est très efficace
Dernière modification par jmarc69 (2019-05-15 10:37:21)
🔴 Hors ligne
Le spinning bien fait ça change le lexique mais pas beaucoup la sémantique, et ça, GG peut le voir. En fait n'importe qui avec les tools d'analyse de linguistique peut le voir.
J'avais lu que GG est aussi capable de déterminer quel est l'auteur d'un article, alors ...
octrino ça a l'air bien. Mais bon, au niveau de la footprint c'est du même tonneau que pbn express.
En fait au plus je regarde les prestas au plus je bosse pour tout faire en interne!
Je juge pas les process qui me semblent bons au niveau productivité, mais vraiment à chaque fois sans creuser je repère facilement un ou deux trucs qui vont se voir.
Donc il y a un truc dont je suis sûr à 100%, c'est que quand Mueller de GG et consorts disent qu'ils savent repérer les PBN, c'est qu'ils ne bluffent pas.
🔴 Hors ligne
@guz Je suis plutôt d'accord avec toi sur le fait que si tu automatises, avec du spin ou autre GG peut le voir et que GG est capable de griller un pbn de loin je le pense aussi (surtout quand on voit leur dernier brevet sur les réseaux de liens (synapsis link le titre je crois))
Mais de la gestion de PBN propre pour booster du MS avec du T2 - T3 à la mano j'en fais déjà pour les clients et perso j'otpe pour de la rédaction via plateforme comme textbroker avec la qualité minimum ça me revient à 10€ l'article et c'est prévu dans le budget de mon client. Donc je n'ai pas trop de problème de ce coté la et ca fonctionne bien.
Mais la c'est pour faire des tests perso sur de la bouillie et du spin. en mode semi auto sur des sites que je vais lâcher C'est plus pour le fun et m'occuper le week end
"Without Data You're just another person with an opinion" - W. Edwards Deming
🔴 Hors ligne
Salut à tous, super cette discussion et ça tombe bien je suis en plein dedans aussi (création de mon premier content spin cette semaine ).
Pour ma part j'ai utilisé content-spinning.fr pour les variations (il faudra que je teste SEO-Quartz aussi), mais j'ai fait un travail long et avec ma tête et mes petites mains sur l'ensemble du spin pour avoir un truc assez cohérent.
Je pense que pour que ça tienne un minimum dans le temps, il est important de quand même suivre un minimum les textes publiés en auto et leur faire quelques petites MAJ, justement pour augmenter l'aspect sémantique du texte (même si GG est pas non plus complétement stupide, ça permet de bien passer sous les radars pendant plus longtemps à mon avis).
Avec un travail sur la variation du footprint en plus, y'a moyen de faire un truc durable.
Reste plus que les images, mais je vais déjà lancer mon site pour voir. Ensuite, c'est comme d'hab, on apprends et on améliore !
En tout cas, y'a des tools que je ne connaissais pas, donc encore merci pour ce topic.
Je n'échoue jamais ! J'apprends.
🔴 Hors ligne
plateforme comme textbroker avec la qualité minimum ça me revient à 10€ l'article et c'est prévu dans le budget de mon client. Donc je n'ai pas trop de problème de ce coté la et ca fonctionne bien.
Salut ! l'article fait combien de mots ? quelle est la durée de traitement d'une demande ? Merci
2008, Ghiata Pierre premier site et premier pas dans le SEO. Depuis le SEO ne m'a jamais quitté...
🔴 Hors ligne