Las mejores inteligencias artificiales para convertir de texto a voz de forma realista. Narran textos (casi) como tú
Escrito por Boris Bueno Camacho el 26 de septiembre de 2023
Con el auge de las tecnologías basadas en inteligencias artificiales y métodos de machine learning, cada vez encontramos herramientas que aprovechan estas capacidades para ofrecernos funciones y características muy útiles. Uno de estos ejemplos es sin duda la posibilidad de pasar de texto a voz mediante IA, algo que ha mejorado ampliamente en los últimos años.
Hoy día podemos generar voces hiperrealistas, e incluso clonar la voz de otra persona con la ayuda de la inteligencia artificial. En este artículo hemos querido recopilar algunas de las herramientas más útiles y destacadas que nos permiten hacer esto. De esta manera, podrás transformar en audio cualquier archivo de texto, e incluso crear tus propios audiolibros. Bajo estas líneas te dejamos con algunos ejemplos.
La técnica de conversión de texto a voz cada vez es más realista
Aplicaciones que permitan conversión TTS (text-to-speech) han existido durante muchos años. Sin embargo, la inteligencia artificial ha impulsado en gran medida la eficacia de este tipo de herramientas, y son muchos los proyectos que existen hoy día y que se dedican a entrenar complejos modelos de lenguaje destinados a este tipo de tareas, entre muchas otras.
Ahora, con ayuda de complejos algoritmos y tecnologías basadas en IA es posible hacer que las voces acaben siendo lo más realistas posibles, cuidando la prosa, entonación y calidad del audio de una forma sorprendente. Bajo estas líneas te hemos dejado con algunos ejemplos destacados, aunque en la red podrás encontrar infinidad de herramientas que se adapten mejor a tus necesidades.
ElevenLabs
El software de esta startup quizás sea uno de los mejores y más accesibles de los que se puedan encontrar a día de hoy. ElevenLabs ofrece una serie de tecnologías enfocadas en la utilización de inteligencia artificial para tareas de text-to-speech, clonación de voces, y otros proyectos.
Su versión gratuita ofrece la posibilidad de pasar a voz hasta 10.000 palabras al mes y crear hasta tres voces personalizadas a través de diversos parámetros de edición incluidos en el software de ElevenLabs. También podemos generar voces en hasta 28 idiomas.
Entre sus paquetes de pago encontramos el de 5 dólares al mes (el primer mes a un dólar), que ofrece hasta 30.000 palabras al mes y creación de hasta 10 voces personalizadas. En cuanto a su paquete más amplio, cuesta 22 dólares al mes (11 dólares el primer mes), y permite pasar a voz hasta 100.000 palabras y crear hasta 30 voces personalizadas. Es en estos paquetes de pago donde también tenemos acceso a la clonación de voz.
Speechify
Desde Speechify también cuentan con tecnologías para pasar a voz cualquier tipo de documento, tanto artículos, como PDFs, e incluso correos electrónicos. Su lector de pantalla ofrece la posibilidad de escuchar cualquier texto que veamos en pantalla con total facilidad.
Su software es posible encontrarlo tanto en su extensión oficial para Chrome, e incluso aplicación para dispositivos iOS y Android. Speechify también cuenta con numerosas voces en varios idiomas, y es una alternativa sencilla para poder escuchar prácticamente cualquier texto. Hay quienes lo usarían además como método para transformar sus libros en audiolibros.
Bark
Se trata de un modelo open-source que puede generar voces hiperrealistas y en multitud de idiomas. Bark también cuenta con la opción de poder generar música, ruido de fondo o simples efectos de sonido. Su creador, Suno, también ofrece con su software la posibilidad de generar audio de comunicación no verbal, ya sean risas, suspiros, llantos y más.
Desde su página de Github advierten que, si bien fue desarrollado para fines de investigación, no se trata de un software convencional de texto a voz, y que puede que dependiendo de las indicaciones que le demos a su IA, pueda ofrecer un comportamiento inesperado.
Para instalarlo necesitamos hacerlo desde los comandos de instalación de librerías de Python a través de ‘pip install git+https://github.com/suno-ai/bark.git’. El software no dispone de interfaz gráfica, por lo que los audios los generará a través de los comandos dados. En la página de Github contamos con todos los comandos que podemos utilizar. El audio que generemos estará limitado a un máximo de 13 o 14 segundos.
TorToiSe
TorToiSe es otro modelo open-source con el objetivo de generar voces hiperrealistas de múltiples tipos y que además se centra en hacer aún más realista la prosa y entonación de las mismas. Lo bueno es que a través de Hugging Face podemos probar las capacidades de este modelo de forma directa.
Para probar el modelo, lo único que tenemos que hacer es ir a la web del modelo en Hugging Face y escribir lo que queremos generar a voz o subir un archivo de texto. También contamos con la opción de seleccionar el tipo de voz, añadir una segunda voz, y seleccionar modos de calidad. Ten en cuenta que si seleccionas el modo más realista tendrás que esperar un buen rato en cola.
Una vez tengas todos los parámetros configurados puedes presionar sobre ‘Submit’ y el modelo generará un fragmento de audio con el texto dado. Es posible que tengas que esperar un buen rato dado que todo el proceso se realiza desde la nube.
Microsoft Word
Microsoft Word también cuenta con una herramienta para pasar a voz cualquier texto que esté escrito en un documento. Esta función nos puede resultar muy útil en determinados momentos, y si tienes acceso a este procesador de textos se trata de una característica completamente gratuita.
Para acceder a esta función, lo único que tienes que hacer es escribir ‘Leer en voz alta’ en el cuadro de búsqueda de Word. También puedes encontrar la opción en Revisar > Leer en voz alta.
La voz que genere Microsoft Word no será hiperrealista como en los demás ejemplos, pero al menos nos ayudará para escuchar todo lo que escribimos o leemos en documentos, e incluso como opción de accesibilidad.
(Fuente: Link)