Bonjour à tous,
Je fais du spin manuel et propre depuis pas mal de temps pour des money sites et je cherche à améliorer mon process de création et de rédaction pour gagner du temps et être plus efficace.
J'utilise les différents outils du marché pour différentes fonctionnalités ainsi que des fonctionnalités que j'ai en interne mais il me reste des problématiques :
- Comment faire pour estimer approximativement le taux de similarité si je génère X textes avec un masterspin ? Est-il possible de trouver un ratio avec le taux de perforation, de substitution ou un autre ? Pour faire en sorte d'éviter de trop travailler si j'ai déjà atteint un masterspin capable de remplir mon objectif
- Dans une optique de développement pour un outil, est-ce que vous connaissez une manière de parcourir les chemins les plus éloignés de mon masterspin pour générer mes textes ? Pour que ça ne soit pas du random et que ça prenne un temps fou ...
- Et enfin sur le calcul des similarités, on retrouve de tout, au niveau des taux, des algorithmes utilisés. Pour ceux qui font du content spinning ou qui exploite les textes finaux, à quoi vous vous fiez ?
Merci à vous pour votre temps et vos réponses, bonne journée
🔴 Hors ligne
Tu sais coder en PHP? Si oui tu as des règles de similarités. Et des formules de calcul de ressemblances entres les deux textes.
Je me fis a tout, mais en soit les textes générés sont toujours long et différents dans la forme voir presque dans le fond. Je sais que la plupart des acheteurs se fient uniquement aux caractéristiques sur certains produits et ne lisent même pas la première phrase.
Pour avoir développé mes propres outils, j'y ai passé plus de 3 ans afin de faire un truc propre et automatisé. J'ai jamais été déçu du résultat et je vais prochainement en faire un pour faire les annuaire et les textes pour les descriptions de mon site que je pourrais généré entre 250 et 5000 mots.
Par curiosité tu utilises quoi comme outils du marché ?
Un nom de domaine en rencontre un autre et lui dit : "Oh, T'es déjà pris?"
L'expert dans les pièces détachées et la vente de bracelet montre.
🔴 Hors ligne
https://outils-seo.alwaysdata.net/outils-contenu-editorial/calcul-similarite-contenu/ désolé pour le doublon, je voulais l'intégrer dans le précèdent
Un nom de domaine en rencontre un autre et lui dit : "Oh, T'es déjà pris?"
L'expert dans les pièces détachées et la vente de bracelet montre.
🔴 Hors ligne
Pour automatiser le spin ?
Il manque des mots pour que je puisse répondre lol
Un nom de domaine en rencontre un autre et lui dit : "Oh, T'es déjà pris?"
L'expert dans les pièces détachées et la vente de bracelet montre.
🔴 Hors ligne
@Gnolls j'avais fait ce petit recap au sujet des taux de similarité, ça peut te servir : https://scripts-seo.com/topic-13047-dis … age-1.html
J'ai fait mon propre tool de génération et sélection des textes les plus uniques à partir de ces recherches. D'après mes premiers test (datant du 22 mai) les taux d'indexation sont vraiment excellents.
Si tu veux dev ton propre tool, je peux te donner quelques pistes en MP sur l'ordre des filtres que j'utilise
Mon nouvel outil d'optimisation sémantique : https://thot-seo.fr/ ★★★
Vous pouvez tester gratuitement depuis la home de Thot SEO
🔴 Hors ligne
Hello,
Quelques news sur ma recherche. On est finalement parti sur Simhash avec la librairie de https://github.com/nicolaichuk/SimHashPhp dont je me suis inspirés utilise ce code pour calculer l'indice :
/**
* Similarity index
*
* @param int $countDifferences
* @return float
*/
protected function computeSimilarityIndex($countDifferences)
{
return $this->gaussianDensity($countDifferences) / $this->gaussianDensity(0);
}
/**
* Guassian distribution density
*
* @param int $x
* @return float
*/
protected function gaussianDensity($x)
{
$y = - (1 / 2) * pow($x / $this->deviation, 2);
$y = exp($y);
$y = (1 / sqrt(2 * pi())) * $y;
return $y;
}
Après avoir récupéré mes fingerprints de mes deux textes, j'aimerais connaître le pourcentage de similarité entre les deux textes.
Sauf que lors que je passe d'un SIMHASH 64bits, à 128 ou 256, le nombre de bit différent augmente et mon indice devient de plus en plus petit (avec des xxxxxE-19, xxxxE-40).
Sur l'article du concepteur de la librairie (https://web.archive.org/web/20150227194138/http://www.titouangalopin.com/blog/2014-05-29-simhash) , il explique une formule plus simple : 1 - (diffCount / nbBit)
Sauf que si j'applique cette formule au lieu du gaussianDensity, les résultats ne sont pas cohérents par rapport à un QualiSpin (environ 80% au lieu de <22% annoncé).
Donc je suis un peu bloqué ... Quelqu'un aurait une idée ?
Bonne journée
🔴 Hors ligne