Comme je ne vois pas de message qui en parle, je me permets de pointer ici vers NLTK : http://www.nltk.org/
Il s'agit d'une bibliothèque Python pour faire du traitement de la langue : lemmatisation, distances entre textes (jaccard, salton, EDM, etc.) et bien d'autres choses. Un outil indispensable !
Tant va la loutre à l'eau qu'à la fin elle se mouille...
🔴 Hors ligne
Salut
Hors sujet, mais apres lecture de vos slide de la pres seocamp, et lecture des references, et bien je voulais te remercier, tres instructifs.
J en ai dedui que le bon moyen de brouiller les piste et l existence d un tier4, qui serait linké par le MS, et qui linkerer le tier3... Je me trompe? Pas facile a faire... Mais ca fait reflechir.
Pour revenir au sujet, tu est purement python, ou tu fait du ruby? Car je cherche molement une base de données des regles gramatical de re-ecriture, genre: Paul mangue une pomme -> la pomme est mangé par Jean.
Une idee de ou trouve ca?
Merci a toi encore uen fois pour tes travaux de recherche.
Dernière modification par Jojo_le_haricot (2014-04-28 19:08:24)
----
Chili con seo
🔴 Hors ligne
merci Sylvain je vais bientôt en avoir besoin
⌕ Comment Ranker ?
▶ Nouveauté : Ninja Web Pro Pack copies limitées !
▶ Ebook : Ninjalinking (-25% : labo25e)
▶ Conseils stratégiques ou techniques ? ( Skype : jaffaarbh )
🔴 Hors ligne
Je fais remonter ce sujet pour vous donner un exemple de script fait avec NLTK qui est vraiment un outil digne d'intérêt.
Ce script Python utilise NLTK pour extraire les expressions les plus utilisées dans un texte (donc on cherche à avoir les occurrences des ngrams).
Voici le code (au cas où, j'utilise Python 3) :
# fonction pour lire un fichier
def lireFichier(fichier):
with open(fichier, encoding='utf-8', errors='ignore') as f:
content = f.readlines()
return content
# le fichier ngrams.txt contient le texte à analyser
contenu = lireFichier("ngrams.txt")
dictionnaire = dict()
# on cherche les expressions de 3 à 7 mots
for n in range(3,7) :
for ligne in contenu:
sixgrams = ngrams(ligne.split(), n)
for grams in sixgrams:
valeur = " ".join(grams)
if valeur in dictionnaire :
dictionnaire[valeur] += 1
else :
dictionnaire[valeur] = 1
# afficher tout ce qu'on a trouvé
#print(dictionnaire)
# on boucle sur le dictionnaire résultat
#for key in dictionnaire:
# valeur = dictionnaire[key]
# print(key, ' : ', valeur)
# afficher uniquement les occurrences de plus 3
for key in dictionnaire:
valeur = dictionnaire[key]
if valeur > 2 :
print("\"" + key + "\" : ", valeur)
Si vous n'avez pas NLTK, un petit coup de "pip" devrait vous aider à l'installer :
Donc, il faut créer un fichier "ngrams.txt" qui va contenir le texte à analyser. Par exemple, j'ai utiliser la page française de wikipedia sur le SEO, et le script m'a ressorti cela :
"les moteurs de" : 12
"un contenu de" : 3
"les moteurs de recherche," : 3
"qualité des liens" : 3
"la qualité du" : 3
"Suivi de positionnement" : 3
"de la page" : 8
"les moteurs de recherche" : 8
"des moteurs de recherche." : 3
"par les moteurs" : 4
"moteurs de recherche." : 4
"d'un moteur de" : 3
"L'optimisation pour les moteurs" : 3
"algorithmes de classement" : 3
"moteurs de recherche" : 12
"contenu de qualité" : 3
"L'optimisation pour les" : 3
"Optimisation pour les moteurs" : 3
"pour les moteurs" : 8
"Optimisation pour les moteurs de" : 3
"d'un moteur de recherche" : 3
"Optimisation pour les" : 3
"moteurs de recherche," : 5
"dans les résultats" : 3
"les résultats de" : 3
"pour les moteurs de" : 8
"L'optimisation pour les moteurs de" : 3
"par les moteurs de" : 3
"« black hat" : 3
"L'optimisation pour les moteurs de recherche" : 3
"les algorithmes de" : 3
"volume de trafic" : 3
"un contenu de qualité" : 3
"des moteurs de" : 5
"pour les moteurs de recherche" : 7
"moteur de recherche" : 3
🔴 Hors ligne
Sympathique partage et belle entrée en forme sur le forum !
🔴 Hors ligne
Je suis convaincu que Python est un langage qui gagne à être connu.
Merci pour le partage
Rédacteur web : CP à 1,9 € les 100 mots - rédacteur à Créteil (94).
Aucune sous-traitance.
🔴 Hors ligne
@Webredaction tout langage a ses propres atouts... Je pourrais dire la même chose de Ruby ou encore tout simplement Javascript ( React js, etc, etc). Chacun se retrouve dans son univers selon les besoins, intérêts ainsi que le domaine d'activité. Mais c'est vrai que le Python dispose de ses avantages en SEO.
_________
.
🔴 Hors ligne
Merci pour cet accueil pour mon premier "vrai" post. Je suis content que ce genre de chose intéresse du monde sur ce forum.
Au sujet de Python : je l'utilise surtout pour la quantité de modules existants et parce qu'il est populaire dans le monde universitaire (ce qui permet de trouver des "epxériences" programmées en Python).
Après, les outils SEO ça se programment un peu dans n'importe quel langage. J'ai des trucs en PHP, j'avais du Perl, j'ai une grosse partie de mon workflow de création de sites en Lua (car c'est le plus facile à comprendre et à modifier), etc.
Bref, faut juste être à l'aise.
Si vous aimez Python, je pense que j'aurai encore quelques trucs sympa à poster alors
🔴 Hors ligne
Merci pour le partage de ce script, je pense qu'il peut en intéresser plus d'un. Je vais tester ça dès ce soir.
Je ne maîtrise pas Python, mais je commence à bidouiller un peu. Si tu as d'autres choses à partager côté Python/SEO, n'hésite pas !!
Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr
🔴 Hors ligne