Vous n'êtes pas identifié(e).
Je ne sais pas si vous connaissez ce que développe le medialab de science po, mais ça pourrait intéresser les devs/scientists qui sont là
Hyphe is a web corpus curation tool featuring a research-driven web crawler
http://hyphe.medialab.sciences-po.fr/
> ceux qui joue avec gephi devrait apprécier
artoo.js is a piece of JavaScript code meant to be run in your browser's console to provide you with some scraping utilities.
https://github.com/medialab/artoo
> s'approche de casper.js ou phantom
Explore networks and publish narratives.
https://github.com/medialab/manylines
> basé sur nodejs
https://github.com/medialab/gazouilloire
un scrapper de tweets
Dernière modification par Cherubin (2016-01-22 20:20:05)
🔴 Hors ligne
hyphe a l'air vraiment top avec son export vers gephi pour triturer le graphe plus confortablement ensuite en plus
__
Powering Nikozen
🔴 Hors ligne
J'ai jeté un oeil, déjà c'est bien fait. Par contre j'ai pas tout pigé sincèrement.
Effectivement le grand intérêt est pour les chercheurs, mais suite à un crawl tu dois tout faire à la main pour intégrer ou non les nouveaux doc trouvés dans le corpus.
@salemioche j'ai essayé de faire un export, je n'ai rien eu d'exploitable sur gephi. Il n y a pas les couples d'urls.
🔴 Hors ligne
C'est des projets évolutifs, je ne suis pas dev, mais n'hésitez pas à leur proposer des améliorations
Je suis entrain de reconfigurer mon serveur, pas encore pu installer la version full, avec mongodb.
🔴 Hors ligne