Les Numériques

Meta dévoile Voicebox, son studio d'IA qui transforme le texte en audio

logo de Les Numériques Les Numériques 22.06.2023 14:53:53
Meta dévoile Voicebox, son studio d'IA qui transforme le texte en audio

Meta dévoile Voicebox, son studio d'IA qui transforme le texte en audio

Meta

Après le monde en réalité virtuelle, Mark Zuckerberg s'attaque au monde de l'audio avec Voicebox. Le géant des réseaux sociaux décrit ce nouvel outil comme "un modèle d'IA de pointe capable d'effectuer des tâches de génération de la parole, telles que l'édition, l'échantillonnage et la stylisation" sur son blog.

En premier lieu, le studio de Meta permettra de réaliser du "text-to-speech", c'est-à-dire qu'il sera capable de transformer un texte écrit en un texte audio parlé grâce à une voix de synthèse. Parmi les options, les utilisateurs pourront profiter d'un large choix de voix disponibles ainsi que de langues. Et Meta a décidé de ne pas s'arrêter à cette seule option. Le studio permet aussi d'utiliser la langue adéquate dans un texte contenant plusieurs langues étrangères. En tout, six langues sont disponibles : l'anglais, le français, l'allemand, l'espagnol, le polonais et le portugais. La voix de synthèse pourra énoncer le texte dans la langue utilisée.

Plus impressionnant encore, Voicebox a également la capacité de reproduire le style d'un audio à partir d'un extrait de seulement deux secondes. Il peut l'utiliser afin de générer d'autres contenus audio. Le langage utilisé est ainsi plus représentatif de la façon dont les personnes parlent dans la vie de tous les jours, plus naturel et donc plus agréable à l'oreille.

En plus de transformer un texte en audio et de reproduire son style, le studio offre la possibilité d'éditer un extrait. En effet, l'utilisateur pourra supprimer un son ou tout autre partie d'un audio pour rendre le contenu parfait, sans avoir besoin de faire un nouvel enregistrement.

"Nous avons entraîné Voicebox avec plus de 50 000 heures de discours enregistrés et de transcriptions de livres audio du domaine public en anglais, français, espagnol, allemand, polonais et portugais. Voicebox est entraîné à prédire un segment de parole lorsqu'on lui donne la parole environnante et la transcription du segment", a expliqué Meta.

Le groupe américain n'est pourtant pas le premier à avoir observé un intérêt pour les voix de synthèse. TikTok avait déjà créé l'engouement avec son propre outil de text-to-speech à son lancement en 2020. Le géant chinois avait même permis d'utiliser les voix de personnages de films de Disney, comme Rocket Raccoon des Gardiens de la Galaxie, C-3PO de la saga Star Wars, ou encore de Stitch dans Lilo et Stitch pour lire le texte en format audio. Plus engageant et plus inclusif, l'utilisation des voix de synthèse continue de séduire les utilisateurs et les grands acteurs des réseaux sociaux.

Pour Meta, "ce type de technologie pourrait être utilisé à l'avenir pour aider les créateurs à éditer facilement des pistes audio, permettre aux malvoyants d'entendre les messages écrits de leurs amis avec leur voix, et permettre aux gens de parler n'importe quelle langue étrangère avec leur propre voix". Un moyen de renforcer les liens et de séduire de nouveaux utilisateurs.

jeudi 22 juin 2023 17:53:53 Categories: Les Numériques

ShareButton
ShareButton
ShareButton
  • RSS

Suomi sisu kantaa
NorpaNet Beta 1.1.0.18818 - Firebird 5.0 LI-V6.3.2.1497

TetraSys Oy.

TetraSys Oy.