Aussitôt dis, aussitôt fait. L'API google speech permet d'interagir avec de l'audio. Le gem est speech2text. Vous installez .. et ca se passe en 3 ligne
audio = Speech::AudioToText.new("mon_fichier_audio.wav")
puts audio.to_text
quoi ? Vous vous attendiez à plus compliqué ??
Comme évoqué dans un autre post, ca ne marche pas pour les "spoken letters" .. et de toute façon, réaliser une appli dépendante d'une autre API ... bof bof (même si effectivement ca peut dépanner)..
voilà !
🔴 Hors ligne
Quand je pense qu un nouveau membre qui c est inscrit hier faisait la promotion de transcription vocal vers text... Tu lui casse son biz la
Tu a une solution pour traiter des mp3 et 4 ?
Question de ce faire des articles sur une base youtube
----
Chili con seo
🔴 Hors ligne
Merci pour l info en tout cas.
La moi je ressort de la gem paypal-recurente que je viens d integrer, c est moins fun que toi
----
Chili con seo
🔴 Hors ligne
Concernant les spoken letter, pas moyen de lui rajouter un dico?
----
Chili con seo
🔴 Hors ligne
yo !
g pas mal exploré le domain de l'audio et ruby en amont de mon truc
comme logiciel de reconnaissance en libre, tu as sphinx 4.. tu peux lui faire un dico tout ca .. mais ca à l'air assez complexe
pour mp3 mp4, si ya que de l'audio, tu peux tester le code tout là haut
moi j'ai réellement testé que sur mes bdd de training et de test
toute facon le réseau et son entrainement c'est pas le plus compliqué dans un truc comme ca, c'est plus la manière dont tu va transcire ton audio en données (vecteur) pour le passer au réseau (FFT, MFCC, LPC ... sont autant de manière de numériser de l'audio par ex)
enfin ya aussi la manière de classifier qui compte quand j'y réfléchis .. là je change mon fusil d'épaule et je vais entrainer le réseau à reconnaitre une seule lettre à la fois ..
PS un pti tuto sur l'utilisation du gem paypal récurrente en ruby ca peut être sympa
🔴 Hors ligne