Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

🟣 NLTK : une bibliothèque de traitement de la langue


#1 2014-04-10 08:17:08

Mention Sylvain
🥈 Grade : Soldier

Membre du CercleOfficierNarcissiqueForce PolyvalenteStratège100likes
Inscription : 2014-04-07
Messages : 816
Likes : 110

Développement Python
Audit et Analyse
Sémantique
Advertising

NLTK : une bibliothèque de traitement de la langue

Comme je ne vois pas de message qui en parle, je me permets de pointer ici vers NLTK : http://www.nltk.org/

Il s'agit d'une bibliothèque Python pour faire du traitement de la langue : lemmatisation, distances entre textes (jaccard, salton, EDM, etc.) et bien d'autres choses. Un outil indispensable !


Tant va la loutre à l'eau qu'à la fin elle se mouille...

0
J'aime ❤️

🔴 Hors ligne

#2 2014-04-28 19:07:46

Mention Jojo_le_haricot
🥉 Grade : Scout

Auxiliaire
Inscription : 2014-04-18
Messages : 461
Likes : 2

Re : NLTK : une bibliothèque de traitement de la langue

Salut
Hors sujet, mais apres lecture de vos slide de la pres seocamp, et lecture des references, et bien je voulais te remercier, tres instructifs.
J en ai dedui que le bon moyen de brouiller les piste et l existence d un tier4, qui serait linké par le MS, et qui linkerer le tier3... Je me trompe?    Pas facile a faire... Mais ca fait reflechir.

Pour revenir au sujet, tu est purement python, ou tu fait du ruby? Car je cherche molement une base de données des regles gramatical de re-ecriture, genre: Paul mangue une pomme -> la pomme est mangé par Jean.
Une idee de ou trouve ca?
Merci a toi encore uen fois pour tes travaux de recherche.

Dernière modification par Jojo_le_haricot (2014-04-28 19:08:24)


----
Chili con seo

0
J'aime ❤️

🔴 Hors ligne

#3 2014-04-28 19:57:16

Mention Jaffaar
🥇 Grade : Guardian

AdminMembre du Black LaboMembre du CercleOfficierForce PolyvalenteIngénieur webKilluavie1000likesConsomateur de Liens1000 messagesMembre HospitalierPhilantrope
Lieu : Consultant SEO / WEB
Inscription : 2012-06-01
Messages : 8 420
Likes : 1327

Développement PHP
Développement JS
Networking SEO
Social Engineering

Re : NLTK : une bibliothèque de traitement de la langue

merci Sylvain je vais bientôt en avoir besoin smile


Comment Ranker ?
Nouveauté : Ninja Web Pro Pack copies limitées !
Ebook : Ninjalinking 2022 (-25% : labo25e)           
Conseils stratégiques ou techniques ? ( Skype : jaffaarbh )

0
J'aime ❤️

🟢 En ligne

#4 2015-09-30 12:42:25

Mention NicolasWeb
🥈 Grade : Soldier

Membre du CercleOfficierStratège100likes1000 messages
Lieu : Besançon (France)
Inscription : 2015-09-30
Messages : 1 080
Likes : 197

Rédaction
Sémantique
Site Web

Re : NLTK : une bibliothèque de traitement de la langue

Je fais remonter ce sujet pour vous donner un exemple de script fait avec NLTK qui est vraiment un outil digne d'intérêt.

Ce script Python utilise NLTK pour extraire les expressions les plus utilisées dans un texte (donc on cherche à avoir les occurrences des ngrams).

Voici le code (au cas où, j'utilise Python 3) :


# -*- coding: utf-8 -*-
# pour extraire les ngrams d'un texte
from nltk.util import ngrams

# fonction pour lire un fichier
def lireFichier(fichier):
    with open(fichier, encoding='utf-8', errors='ignore') as f:
        content = f.readlines()
    return content

# le fichier ngrams.txt contient le texte à analyser
contenu = lireFichier("ngrams.txt")

dictionnaire = dict()

# on cherche les expressions de 3 à 7 mots
for n  in range(3,7) :
    for ligne in contenu:
        sixgrams = ngrams(ligne.split(), n)
        for grams in sixgrams:
            valeur = " ".join(grams)
            if valeur in dictionnaire :
                dictionnaire[valeur] += 1
            else :
                dictionnaire[valeur] = 1

# afficher tout ce qu'on a trouvé
#print(dictionnaire)

# on boucle sur le dictionnaire résultat
#for key in dictionnaire:
#    valeur = dictionnaire[key]
#    print(key, ' : ', valeur)

# afficher uniquement les occurrences de plus 3
for key in dictionnaire:
    valeur = dictionnaire[key]
    if valeur > 2  :
        print("\"" + key + "\" : ", valeur)
 

Si vous n'avez pas NLTK, un petit coup de "pip" devrait vous aider à l'installer :

pip install nltk

Donc, il faut créer un fichier "ngrams.txt" qui va contenir le texte à analyser. Par exemple, j'ai utiliser la page française de wikipedia sur le SEO, et le script m'a ressorti cela :

"les moteurs de" :  12
"un contenu de" :  3
"les moteurs de recherche," :  3
"qualité des liens" :  3
"la qualité du" :  3
"Suivi de positionnement" :  3
"de la page" :  8
"les moteurs de recherche" :  8
"des moteurs de recherche." :  3
"par les moteurs" :  4
"moteurs de recherche." :  4
"d'un moteur de" :  3
"L'optimisation pour les moteurs" :  3
"algorithmes de classement" :  3
"moteurs de recherche" :  12
"contenu de qualité" :  3
"L'optimisation pour les" :  3
"Optimisation pour les moteurs" :  3
"pour les moteurs" :  8
"Optimisation pour les moteurs de" :  3
"d'un moteur de recherche" :  3
"Optimisation pour les" :  3
"moteurs de recherche," :  5
"dans les résultats" :  3
"les résultats de" :  3
"pour les moteurs de" :  8
"L'optimisation pour les moteurs de" :  3
"par les moteurs de" :  3
"« black hat" :  3
"L'optimisation pour les moteurs de recherche" :  3
"les algorithmes de" :  3
"volume de trafic" :  3
"un contenu de qualité" :  3
"des moteurs de" :  5
"pour les moteurs de recherche" :  7
"moteur de recherche" :  3

0
J'aime ❤️

🔴 Hors ligne

#5 2015-09-30 13:37:44

Mention NinjaLinker
🥉 Grade : Scout

AuxiliaireStratège1000 messagesMembre Hospitalier
Lieu : Lyon
Inscription : 2013-06-07
Messages : 1 198
Likes : 2

Netlinking
Networking SEO
Scraping
Cloaking

Re : NLTK : une bibliothèque de traitement de la langue

Sympathique partage et belle entrée en forme sur le forum !

0
J'aime ❤️

🔴 Hors ligne

#6 2015-09-30 13:49:12

Mention Ropo
🥉 Grade : Scout

AuxiliaireStratègeBusiness ManMembre Hospitalier
Inscription : 2015-09-25
Messages : 789
Likes : 5

Netlinking
Advertising
Marketing
Networking SEO

Re : NLTK : une bibliothèque de traitement de la langue

chaud ! le mec est en place !

Merci smile

0
J'aime ❤️

🔴 Hors ligne

#7 2015-09-30 13:53:04

Mention X3SED
🥉 Grade : Scout

AuxiliaireStratège10likesMembre Hospitalier
Inscription : 2015-05-13
Messages : 896
Likes : 13

Netlinking
Scraping
Automatisation Web
Comunity Management
Site Web

Re : NLTK : une bibliothèque de traitement de la langue

Excellent Nicolas, merci pour le partage !


_________
.

0
J'aime ❤️

🔴 Hors ligne

#8 2015-09-30 14:16:01

Mention Webredaction
🥉 Grade : Scout

AuxiliaireStratège
Lieu : CRETEIL
Inscription : 2015-05-14
Messages : 133
Likes : 1

Rédaction
Rédaction
Rédaction
Rédaction
Site Web

Re : NLTK : une bibliothèque de traitement de la langue

Je suis convaincu que Python est un langage qui gagne à être connu.
Merci pour le partage smile


Rédacteur web : CP à 1,9 € les 100 mots  - rédacteur à Créteil (94).
Aucune sous-traitance.
wink

0
J'aime ❤️

🔴 Hors ligne

#9 2015-09-30 15:33:44

Mention X3SED
🥉 Grade : Scout

AuxiliaireStratège10likesMembre Hospitalier
Inscription : 2015-05-13
Messages : 896
Likes : 13

Netlinking
Scraping
Automatisation Web
Comunity Management
Site Web

Re : NLTK : une bibliothèque de traitement de la langue

@Webredaction tout langage a ses propres atouts... Je pourrais dire la même chose de Ruby ou encore tout simplement Javascript ( React js, etc, etc). Chacun se retrouve dans son univers selon les besoins, intérêts ainsi que le domaine d'activité. Mais c'est vrai que le Python dispose de ses avantages en SEO. roll


_________
.

0
J'aime ❤️

🔴 Hors ligne

#10 2015-09-30 15:55:07

Mention NicolasWeb
🥈 Grade : Soldier

Membre du CercleOfficierStratège100likes1000 messages
Lieu : Besançon (France)
Inscription : 2015-09-30
Messages : 1 080
Likes : 197

Rédaction
Sémantique
Site Web

Re : NLTK : une bibliothèque de traitement de la langue

Merci pour cet accueil pour mon premier "vrai" post. Je suis content que ce genre de chose intéresse du monde sur ce forum.

Au sujet de Python : je l'utilise surtout pour la quantité de modules existants et parce qu'il est populaire dans le monde universitaire (ce qui permet de trouver des "epxériences" programmées en Python).
Après, les outils SEO ça se programment un peu dans n'importe quel langage. J'ai des trucs en PHP, j'avais du Perl, j'ai une grosse partie de mon workflow de création de sites en Lua (car c'est le plus facile à comprendre et à modifier), etc.
Bref, faut juste être à l'aise.

Si vous aimez Python, je pense que j'aurai encore quelques trucs sympa à poster alors wink

0
J'aime ❤️

🔴 Hors ligne

#11 2015-10-01 14:21:06

Mention Cyd
🥉 Grade : Scout

AuxiliaireStratège1000 messagesMembre Hospitalier
Lieu : Rennes
Inscription : 2013-01-18
Messages : 1 566
Likes : 3

Audit et Analyse
Netlinking
Cloaking
Marketing

Re : NLTK : une bibliothèque de traitement de la langue

Merci pour le partage de ce script, je pense qu'il peut en intéresser plus d'un. Je vais tester ça dès ce soir.

Je ne maîtrise pas Python, mais je commence à bidouiller un peu. Si tu as d'autres choses à partager côté Python/SEO, n'hésite pas !!


Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr

0
J'aime ❤️

🔴 Hors ligne

Pied de page des forums