Ces impressionnants livres audio d’IA sonnent-ils bien ou mal ?
Points clés à retenir
- DeepZen utilise l’IA (intelligence artificielle) pour créer des livres audio étonnamment réalistes à partir de texte.
- La technologie utilise de vrais acteurs de la voix humaine pour fournir les éléments de base.
- Amazon et Audible n’acceptent pas actuellement les livres audio générés par ordinateur.
Kelly Skiema/Unsplash
DeepZen est une entreprise qui crée des voix de synthèse utilisées dans des livres audio à partir des voix réelles d’acteurs humains. La qualité est horrible – facile à écouter pendant des heures à la fois. Le gimmick ici est le composant AI (intelligence artificielle) qui lit le texte et déduit la réponse émotionnelle correcte en fonction du contexte. Il intègre ensuite cette émotion dans le son.
C’est impressionnant et très pratique. Mais voulons-nous vraiment une expérience de livre audio homogène ? Alors qu’en est-il de ces acteurs de la voix?
« Du point de vue d’un éditeur indépendant, tout ce qui réduit le coût de la production de livres audio est très intéressant », a déclaré Rick Carlile, propriétaire de l’éditeur indépendant Carlile Media, à ledigitalpost par e-mail.
« Mais cet appel suppose que le produit sera de la même qualité que le récit traditionnel. Je ne pense pas que nous soyons encore à 100 %. Ne vous méprenez pas, DeepZen est très bon. C’est une énorme percée et ses créateurs méritent un énorme crédit et succès… mais ce n’est pas parfait. »
audio « assez bon »
La meilleure façon de comprendre la qualité de DeepZen est d’écouter les échantillons. Si vous ne saviez pas qu’ils étaient générés par ordinateur, vous ne vous en êtes probablement même pas rendu compte. Pas pour le moment en tout cas. Supposons que l’IA de DeepZen soit parfaite et qu’elle n’interprète jamais mal la note émotionnelle qu’elle est censée atteindre.
Brett Jordan/Unsplash
Même ainsi, les humains peuvent fournir des explications plus nuancées et souvent plus surprenantes. Les acteurs peuvent faire des rebondissements inattendus sur des mots que l’ordinateur ne considérerait jamais. En réalité, l’interprétation de l’intelligence artificielle n’est certainement pas aussi bonne que celle des doubleurs professionnels.
« En tant que personne qui a travaillé dans le cinéma et, plus récemment, dans la narration audio, bien que je sois impressionné par l’IA, je sais pertinemment qu’il y a des significations plus profondes que les machines ne peuvent pas expliquer », a déclaré Paul Cram, acteur vocal professionnel, à ledigitalpost. par email.
« Est-ce qu’il y aura une tonne d’auteurs inconnus qui l’utiliseront ? Je le promets, parce que c’est ‘assez bon’. »
Assez bon, combiné à la commodité et aux économies de coûts, peut suffire à inciter les éditeurs indépendants à utiliser le service.
« Les livres audio peuvent coûter jusqu’à 500 $ par heure d’audio terminé (les voix de célébrités coûtant beaucoup plus), sans compter le temps de gestion et d’administration », a déclaré Carlisle. « Avoir le coût de moitié simplement en téléchargeant le manuscrit sur un fournisseur comme DeepZen est très attrayant. »
difficulté à parler
Ce n’est pas aussi simple que de licencier votre doubleur et de télécharger votre manuscrit sur DeepZen. À l’heure actuelle, il y a un obstacle à la simple présentation de l’IA du livre audio, qui vient d’Amazon.
Joël Muniz/Unsplash
« Actuellement, l’auto-éditeur ACX, la passerelle vers la distribution de livres audio Audible et Amazon, n’accepte pas les livres audio que les humains n’ont pas enregistrés », a déclaré Carlisle.
Pourquoi? qualité. Voici l’entrée de la FAQ sur le site Web :
« La synthèse vocale ou d’autres enregistrements automatisés ne sont pas autorisés. Les auditeurs audibles choisissent des livres audio pour représenter le matériel et les histoires. Pour répondre à cette attente, vos livres audio doivent être enregistrés par des humains. »
Cela signifie que les livres audio produits par DeepZen sont obsolètes – du moins pour le moment. C’est de la pure spéculation, mais DeepZen semble être une bonne acquisition pour Amazon pour vendre le service et le garder uniquement pour les livres audio. Même si cela ne se produit pas, si la qualité des livres audio générés par ordinateur est si bonne, il ne semble y avoir aucune raison de ne pas faire exception à cette règle.
Aimeriez-vous écouter des livres audio créés de cette façon ? Quand cela arrive, la plupart des gens ne s’en doutent même pas. Certaines personnes peuvent préférer la perfection des sons générés par ordinateur, car elles se débarrasseront des secousses parfois distrayantes et de l’habitude des sons. La technologie fonctionne également pour les jeux vidéo, les publicités télévisées et radiophoniques et tout autre scénario où vous devez embaucher un doubleur.
La technologie de DeepZen sera également un excellent moyen de créer automatiquement des podcasts d’actualités à partir d’articles écrits, ce qui pourrait être pratique pour les déplacements.
Alors qu’en est-il de ces acteurs de la voix? Eh bien, il y a au moins une chance : ils peuvent aller travailler pour DeepZen.
Merci de nous en informer!
Dites-nous pourquoi !
D’autres détails ne sont pas assez difficiles à comprendre