Pages :: 1
Bonjour
Puisque c'est la technologie que j'utilise pour mes propres développements, voici une liste (que j'étendrai au fur et à mesure) de ressources techniques/codes utiles pour nos usages.
* Mise en oeuvre de l'algorithme de Kuhn-Munkres couplé à Levenshtein pour la détection de similarité entre chaînes de caractères (c'est la méthode que j'ai adapté à mon outil effiSpin, pour le contrôle de similarité) ; utilise Levenshtein pour la comparaison des mots, le tout pondéré par l'algorithme hongrois pour un traitement optimal des "suites de mots" - très intéressant avec de bons résultats, mais un coût de calcul relativement élevé... Non adapté aux "gros" textes, donc.
http://www.codeproject.com/Articles/111 … etween-str
* Détection de la langue d'un texte : je ne l'ai pas encore utilisé puisque je travaille pour le moment exclusivement sur du français, mais le taux de réussite est semble-t-il intéressant. Pourrait être une ressource sympa à intégrer dans un scraper pour de la traduction auto (?)
http://www.codeproject.com/Articles/431 … s-language
* OBSOLETE (devenu payant) Traduction de texte avec Google Translate : autre outil fort intéressant que je n'ai pas (encore) testé, mais qui serait sympa pour générer de la soupe ![]()
http://www.codeproject.com/Articles/127 … Translator
* Parser de texte trèèèèès intéressant : tout est dans le titre, voir en fin d'article les projets utilisant ce code (dont celui ci-dessus car c'est le même auteur)
http://www.codeproject.com/Articles/12708/StringParser
Peut être remplacé (fonctionne parfaitement) par Microsoft translator API ; je diffuserai mon wrapper prochainement (nb : limité à 1 000 000 de caractères / mois en version gratuite)
* Un scraper en C# : sympa comme projet, pour inspiration ou base de travail ![]()
http://www.codeproject.com/Articles/478 … DotNetTech
* [Utilitaire] Générateur d'expressions clé : un truc sympathique, avec le code, pour générer les mariages possibles entre groupes de mots-clés en vue d'une utilisation avec AdWords (ou tout autre outil !)
http://www.codeproject.com/Articles/319 … -Generator
* API pour Google Image : un projet pour récupérer les images d'une recherche Google Images
http://www.codeproject.com/Articles/118 … age-Search
* Sanitizer HTML : un projet pour nettoyer finement du code HTML, vraiment bien pensé
http://www.codeproject.com/Articles/879 … -sanitizer
* Scrapy Sharp : une classe surchargeant HTML Agility Pack (gratuit également), histoire de scraper n'importe quelle page en utilisant la syntaxe JQuery :-)
https://bitbucket.org/rflechner/scrapysharp/wiki/Home
Une petite parenthèse : il faudrait plutôt nommer ce forum "Développement .Net" car C# c'est réducteur
(je suis plutôt VB.Net que C# !)
Dernière modification par effi10 (2015-07-15 08:38:58)
effiSpin, c'est moi ;-)
🔴 Hors ligne












Un grand merci pour ce partage Effi ! ca fais vraiment plaisir de voire cela, je pense que je vais prendre un peu de temps pour me pencher sur tout ca. ![]()
il faudrait plutôt nommer ce forum "Développement .Net" car C# c'est réducteur wink (je suis plutôt VB.Net que C# !)
je fais cela immédiatemment , et tu as tout a fais raison Dot net c'est beaucoup plus large
)
⌕ Comment Ranker ?
▶ Nouveauté : Ninja Web Pro Pack copies limitées !
▶ Ebook : Ninjalinking (-25% : labo25e)
▶ Conseils stratégiques ou techniques ? ( Skype : jaffaarbh )
🔴 Hors ligne
Salut effi 10 c'est toi qui a réalisé effispin non ?
Bonjour
Oui effectivement, et la version 2 arrive dans les bacs ! Peut-être pas cette semaine car je dois en faire une présentation vidéo et je n'en aurai pas le temps, mais la semaine prochaine probablement ![]()
Au programme :
- spins matriciels (gestion par paragraphes / blocs de textes) avec analyse combinatoire totale ou partielle (possibilité de faire des "tirages" de N parmi M, soit en combinaisons, soit en permutations)
- deux niveaux d'intégration de données
- possibilité de générer un "super masterspin" (encore en version beta)
- etc.
Vais créer un post à ce propos, histoire de vous faire baver ![]()
effiSpin, c'est moi ;-)
🔴 Hors ligne
Bonjour
Deux petits ajouts sympas :
* Sanitizer HTML : un projet pour nettoyer finement du code HTML, vraiment bien pensé
http://www.codeproject.com/Articles/879 … -sanitizer
* Scrapy Sharp : une classe surchargeant HTML Agility Pack (gratuit également), histoire de scraper n'importe quelle page en utilisant la syntaxe JQuery :-)
https://bitbucket.org/rflechner/scrapysharp/wiki/Home
effiSpin, c'est moi ;-)
🔴 Hors ligne
Pages :: 1