Vous n'êtes pas identifié(e).

  • Contributions :
  • Vos boîtes de messages privés sont vides.

#1 2014-04-10 08:17:08

Mention Sylvain
Soldier
Inscription : 2014-04-07
Messages : 637

Développement Python
Audit et Analyse
Sémantique
Advertising

NLTK : une bibliothèque de traitement de la langue

Comme je ne vois pas de message qui en parle, je me permets de pointer ici vers NLTK : http://www.nltk.org/

Il s'agit d'une bibliothèque Python pour faire du traitement de la langue : lemmatisation, distances entre textes (jaccard, salton, EDM, etc.) et bien d'autres choses. Un outil indispensable !


Tant va la loutre à l'eau qu'à la fin elle se mouille...

Hors ligne

#2 2014-04-28 19:07:46

Mention Jojo_le_haricot
Scout
Inscription : 2014-04-18
Messages : 461

Re : NLTK : une bibliothèque de traitement de la langue

Salut
Hors sujet, mais apres lecture de vos slide de la pres seocamp, et lecture des references, et bien je voulais te remercier, tres instructifs.
J en ai dedui que le bon moyen de brouiller les piste et l existence d un tier4, qui serait linké par le MS, et qui linkerer le tier3... Je me trompe?    Pas facile a faire... Mais ca fait reflechir.

Pour revenir au sujet, tu est purement python, ou tu fait du ruby? Car je cherche molement une base de données des regles gramatical de re-ecriture, genre: Paul mangue une pomme -> la pomme est mangé par Jean.
Une idee de ou trouve ca?
Merci a toi encore uen fois pour tes travaux de recherche.

Dernière modification par Jojo_le_haricot (2014-04-28 19:08:24)


----
Chili con seo

Hors ligne

#3 2014-04-28 19:57:16

Mention Jaffaar
Guardian
Lieu : Marseille
Inscription : 2012-06-01
Messages : 5 766

Développement PHP
Développement JS
Networking SEO
Social Engineering
Site Web

Re : NLTK : une bibliothèque de traitement de la langue

merci Sylvain je vais bientôt en avoir besoin smile


⌕ Tu veux Ranker ?
⏩ Active le mode automatique : SEO Quartz             
⏩ Profite d'un consultant SEO (sur Marseille ou sur Skype => jaffaarbh )
⏩ Tu veux des techniques concrètes ? SEO Basics Skills - SEO Ranking Skills

En ligne

#4 2015-09-30 12:42:25

Mention NicolasWeb
Soldier
Lieu : Besançon (France)
Inscription : 2015-09-30
Messages : 619

Rédaction
Sémantique

Re : NLTK : une bibliothèque de traitement de la langue

Je fais remonter ce sujet pour vous donner un exemple de script fait avec NLTK qui est vraiment un outil digne d'intérêt.

Ce script Python utilise NLTK pour extraire les expressions les plus utilisées dans un texte (donc on cherche à avoir les occurrences des ngrams).

Voici le code (au cas où, j'utilise Python 3) :


# -*- coding: utf-8 -*-
# pour extraire les ngrams d'un texte
from nltk.util import ngrams

# fonction pour lire un fichier
def lireFichier(fichier):
    with open(fichier, encoding='utf-8', errors='ignore') as f:
        content = f.readlines()
    return content

# le fichier ngrams.txt contient le texte à analyser
contenu = lireFichier("ngrams.txt")

dictionnaire = dict()

# on cherche les expressions de 3 à 7 mots
for n  in range(3,7) :
    for ligne in contenu:
        sixgrams = ngrams(ligne.split(), n)
        for grams in sixgrams:
            valeur = " ".join(grams)
            if valeur in dictionnaire :
                dictionnaire[valeur] += 1
            else :
                dictionnaire[valeur] = 1

# afficher tout ce qu'on a trouvé
#print(dictionnaire)

# on boucle sur le dictionnaire résultat
#for key in dictionnaire:
#    valeur = dictionnaire[key]
#    print(key, ' : ', valeur)

# afficher uniquement les occurrences de plus 3
for key in dictionnaire:
    valeur = dictionnaire[key]
    if valeur > 2  :
        print("\"" + key + "\" : ", valeur)
 

Si vous n'avez pas NLTK, un petit coup de "pip" devrait vous aider à l'installer :

pip install nltk

Donc, il faut créer un fichier "ngrams.txt" qui va contenir le texte à analyser. Par exemple, j'ai utiliser la page française de wikipedia sur le SEO, et le script m'a ressorti cela :

"les moteurs de" :  12
"un contenu de" :  3
"les moteurs de recherche," :  3
"qualité des liens" :  3
"la qualité du" :  3
"Suivi de positionnement" :  3
"de la page" :  8
"les moteurs de recherche" :  8
"des moteurs de recherche." :  3
"par les moteurs" :  4
"moteurs de recherche." :  4
"d'un moteur de" :  3
"L'optimisation pour les moteurs" :  3
"algorithmes de classement" :  3
"moteurs de recherche" :  12
"contenu de qualité" :  3
"L'optimisation pour les" :  3
"Optimisation pour les moteurs" :  3
"pour les moteurs" :  8
"Optimisation pour les moteurs de" :  3
"d'un moteur de recherche" :  3
"Optimisation pour les" :  3
"moteurs de recherche," :  5
"dans les résultats" :  3
"les résultats de" :  3
"pour les moteurs de" :  8
"L'optimisation pour les moteurs de" :  3
"par les moteurs de" :  3
"« black hat" :  3
"L'optimisation pour les moteurs de recherche" :  3
"les algorithmes de" :  3
"volume de trafic" :  3
"un contenu de qualité" :  3
"des moteurs de" :  5
"pour les moteurs de recherche" :  7
"moteur de recherche" :  3

Hors ligne

#5 2015-09-30 13:37:44

Mention NinjaLinker
Soldier
Lieu : Lyon
Inscription : 2013-06-07
Messages : 1 198

Netlinking
Networking SEO
Scraping
Cloaking

Re : NLTK : une bibliothèque de traitement de la langue

Sympathique partage et belle entrée en forme sur le forum !


@NinjaLinker | Mon modeste Blog SEO | Mon Tool Perso PBN Premium | Agence SEO

Hors ligne

#6 2015-09-30 13:49:12

Mention Ropo
Soldier
Inscription : 2015-09-25
Messages : 773

Netlinking
Advertising
Marketing
Networking SEO

Re : NLTK : une bibliothèque de traitement de la langue

chaud ! le mec est en place !

Merci smile

Hors ligne

#7 2015-09-30 13:53:04

Mention Linuxma
Soldier
Inscription : 2015-05-13
Messages : 860

Netlinking
Scraping
Automatisation Web
Comunity Management
Site Web

Re : NLTK : une bibliothèque de traitement de la langue

Excellent Nicolas, merci pour le partage !

Hors ligne

#8 2015-09-30 14:16:01

Mention Webredaction
Scout
Lieu : CRETEIL
Inscription : 2015-05-14
Messages : 133

Rédaction
Rédaction
Rédaction
Rédaction
Site Web

Re : NLTK : une bibliothèque de traitement de la langue

Je suis convaincu que Python est un langage qui gagne à être connu.
Merci pour le partage smile


Rédacteur web : CP à 1,9 € les 100 mots  - rédacteur à Créteil (94).
Aucune sous-traitance.
wink

Hors ligne

#9 2015-09-30 15:33:44

Mention Linuxma
Soldier
Inscription : 2015-05-13
Messages : 860

Netlinking
Scraping
Automatisation Web
Comunity Management
Site Web

Re : NLTK : une bibliothèque de traitement de la langue

@Webredaction tout langage a ses propres atouts... Je pourrais dire la même chose de Ruby ou encore tout simplement Javascript ( React js, etc, etc). Chacun se retrouve dans son univers selon les besoins, intérêts ainsi que le domaine d'activité. Mais c'est vrai que le Python dispose de ses avantages en SEO. roll

Hors ligne

#10 2015-09-30 15:55:07

Mention NicolasWeb
Soldier
Lieu : Besançon (France)
Inscription : 2015-09-30
Messages : 619

Rédaction
Sémantique

Re : NLTK : une bibliothèque de traitement de la langue

Merci pour cet accueil pour mon premier "vrai" post. Je suis content que ce genre de chose intéresse du monde sur ce forum.

Au sujet de Python : je l'utilise surtout pour la quantité de modules existants et parce qu'il est populaire dans le monde universitaire (ce qui permet de trouver des "epxériences" programmées en Python).
Après, les outils SEO ça se programment un peu dans n'importe quel langage. J'ai des trucs en PHP, j'avais du Perl, j'ai une grosse partie de mon workflow de création de sites en Lua (car c'est le plus facile à comprendre et à modifier), etc.
Bref, faut juste être à l'aise.

Si vous aimez Python, je pense que j'aurai encore quelques trucs sympa à poster alors wink

Hors ligne

#11 2015-10-01 14:21:06

Mention Cyd
Soldier
Lieu : Rennes
Inscription : 2013-01-18
Messages : 1 541

Audit et Analyse
Netlinking
Cloaking
Marketing

Re : NLTK : une bibliothèque de traitement de la langue

Merci pour le partage de ce script, je pense qu'il peut en intéresser plus d'un. Je vais tester ça dès ce soir.

Je ne maîtrise pas Python, mais je commence à bidouiller un peu. Si tu as d'autres choses à partager côté Python/SEO, n'hésite pas !!


Work Hard In Silence, Let Success Make The Noise !
--> cedricguerin.fr

Hors ligne

Pied de page des forums