Convertir Texto a Voz con Inteligencia Artificial
Cuando intentas convertir texto a voz online los resultados sonarán muy artificiales, demasiado robóticos. Hoy, gracias a la Inteligencia Artificial, puedes lograr voces más realistas en idioma español, con acento latinoamericano o europeo. Te cuento mi experiencia.
Como creadores de contenido, bien sea que realicemos videos, multimedia o por ejemplo tours virtuales, en algún momento necesitaremos agregar narraciones o en mi caso, por ejemplo, hotspots de audio.
El costo de una voz comercial
Yo pienso que lo ideal sería siempre contratar a algún actor o locutor profesional. Y al respecto, quiero decirte que hasta hace unos años, conseguir una voz comercial era costosísimo.
En mi experiencia personal, cuando hice el video de promoción de fotografía esférica en 2010, pagué 500 dólares por una excelente voz comercial. Además de otros 500 dólares por la composición del fondo musical y otro presupuesto alto se fue para la animación… en fin, escucha el audio con atención:
Locutor por tan solo $5 USD
Sin embargo, años después, descubrí que es posible conseguir voces comerciales a un precio muy interesante, a través de la plataforma Fiverr.
Por ejemplo, esta narración la encargué al locutor Joel Evans en Fiverr, quien me cobró tan solo 5 dólares y me la entregó en 3 días, escúchala, es en inglés.
Este otro locutor, Spanish Talent, me cobró un poco más, 15 dólares, por este audio de 148 palabras, en español, escucha…
Nada mal por tan poco dinero, ¿verdad? Pues bien, siempre considera a un locutor o narrador profesional, como primera solución.
Convertir texto en audio
Tal vez tengas proyectos en los que necesites cientos de narraciones y no tengas el presupuesto para contratar una voz comercial. En ese caso, estarías tentado a usar software que convierte texto en audio. Sin embargo, estas voces suelen ser robóticas, desagradables para escuchar y darán un acabado poco profesional a tu producto.
Una solución ya incorporada para multimedia y tours virtuales la proporciona nativamente 3D Vista a través de la función de un creador automático de voces. Sin embargo, claramente tiene una vocación más de accesibilidad, que suplir una voz comercial. Puedes ver aquí el video tutorial de 3D Vista.
Usando Inteligencia Artificial: voces naturales
Bien, pues he encontrado una verdadera joya que estoy usando en mis proyectos y la quiero compartir hoy contigo. Se trata de este software en la nube que utiliza la inteligencia artificial para darle un toque muy realista a las voces.
Nota cómo volvemos en este blog a hablar de Inteligenica Artificial. Hace unos días, te mostraba un software con el que estoy aumentando el tamaño de mis fotografías, con una calidad destacable, usando Inteligencia Artificial, puedes verlo acá.
Hoy, vamos a ver cómo funciona esta plataforma de conversión de texto a audio, y de qué manera la inteligencia artificial abre un nuevo panorama en este campo para mejorar la calidad y naturalidad de estas voces.
¿Cuánto vale?
Lo primero: no es un software de descarga, funciona 100% en la nube. Es de pago, vale 100 dólares, pero yo lo compré por 47 dólares en promoción, en este enlace, en Black Friday el pasado noviembre.
Si lo ves aún en ese precio, no dudes en comprarlo, yo estoy fascinado porque esta inversión queda amortizada dese el primer trabajo.
Este precio es para toda la vida y no tiene límite de uso. Otras plataformas similares te cobran por mes y tienes un límite en la cantidad de audios que puedes crear. Entonces ojo con eso: no hay límite.
Así funciona
Ingresas a la plataforma y en el cajón pegas el texto o guion. En mi experiencia, funciona mejor si el texto es corto, tal vez tres párrafos. Si tienes un guión más largo, puedes crearlo por partes y luego, la misma plataforma te permite unir esas partes en un solo audio.
Bien, una vez escrito el guión, escoge el idioma y sus variaciones de acento. Verás las voces disponibles para cada acento. Además, verás el modo de creación de las voces: Estándar o con Inteligencia Artificial.
Ojo, porque la mayoría de voces solo tienen el modo normal. Algunas voces que usan Inteligencia Artificial tienen la variaciones de tono: normal, amigable y serio.
Este modo de AI suele dar muy buenos resultados a la primera. Pero tendrás también la opción de agregar manualmente cierto énfasis en las palabras que quieras, a través de cambios en el volumen y la velocidad, así como la posibilidad de agregar pausas.
Pero lo importante será que tu texto esté escrito correctamente y que tenga bien puestos los signos de puntuación.
Algunas voces del modo estándar tendrán la opción de agregar manualmente un énfasis, e incluso respiración.
Nota que algunas voces solo están disponibles en la versión PRO, en la que tendrías que pagar un valor adicional a los 47 dólares.
Ejemplo voces en modo AI
Estas son las voces en español en modo Inteligencia Artificial. Como verás, son pocas. La que más me impresiona es la de Leticia, escúchala con atención. Aunque está en las voces con acento mexicano, creo que está bastante neutro y se puede usar en cualquiera de nuestros proyectos:
¿Cómo las escuchas? ¿Crees que las usarías en tus proyectos? Déjame saberlo en los comentarios.
Ejemplo de voces modo normal
A continuación puedes escuchar el resto de voces de la plataforma, en idioma español, que no traen el modo AI, sino que se forman de manera tradicional. Aunque no tienen la misma calidad, ten en cuenta que puedes agregar manualmente énfasis, respiración, velocidad y variaciones que las harían sonar un poco mejor.
En los siguientes ejemplos no se utilizó ningún tipo de variación.
Un detalle sutil: ¿viste las fotos que usé para las pistas de las voces? Son fotografías creadas artificialmente, de personas inexistentes, creadas también con Inteligencia Artificial, gracias al banco «Generated Photos».
¿Vale la pena?
Absolutamente sí. Aunque da una apariencia de ofrecerte una enorme variedad de voces, como habrás escuchado, la mayoría aún suenan muy robóticas. Pero solo por la voz de Leticia, la inversión de $100 USD (ó $47 USD en promoción) sí que vale la pena.
Y vale más, cuando tengas que utilizar voces en inglés, en donde sí que hay más variedad y calidad. Así que encontrarás mucha más desarrollado el tema de inteligencia artificial en las voces inglesas que en las españolas, pero esto es hasta cierto punto normal.
Lo interesante, es que la suscripción es perpetua y la plataforma va agregando nuevas voces de forma permanente.
También podrás usarla en otros idiomas, como el italiano, francés, portugués, alemán… que estoy seguro también podrías necesitar.
Ejemplo en tour virtual hecho con 3D Vista
Ahora escucha la voz de Leticia aplicada en los hotspots de audio de esta panorámica de Buenos Aires. Este tour está creado con 3D Vista, escucha…
Tener narración dentro del tour virtual será un gran aporte a la experiencia de usuario, porque tendrá más tiempo de permanencia en tu visita virtual, además funcionará mejor en el modo de Realidad Virtual, en el que poner cajones de texto informativo no es nada práctico.
Bien, espero te sirva este dato y que te animes a enriquecer tus visitas virtuales con estos audios. Te invito a suscribirte en mi canal y a apoyarme como patrono, desde $5 USD, tu nombre saldrá al final del video.