¿Te preocupa que la inteligencia artificial este avanzando a un ritmo acelerado? Bueno, aquí hay una noticias que podría aumentar esas preocupaciones. Un equipo de investigadores de Microsoft esta trabajando en una nueva IA que puede imitar con precisión una voz humana a partir de una muestra de audio de solo tres segundos de duración.
La IA de Microsoft, llamada Vall-E, está entrenada con un “códigos derivados de un códec de audio neural listo para usar”, así como 60,000 horas de voz, 100 veces más que los sistemas existentes, de más de 7,000 oradores, la mayoría de los cuales provienen de audiolibros de dominio público de LibriVox.
Vall-E se basa en una tecnología llamada EnCodec que Meta anunció en octubre de 2022. Funciona analizando la voz de una persona, desglosando la información en componentes, de esta forma utiliza su entrenamiento para sintetizar la forma en que sonaría la voz si estuviera hablando con diferentes frases. Incluso, después de escuchar una muestra de tres segundos, Vall-E puede replicar el timbre y el tono emocional de un hablante.
Microsoft have announced their AI "VALL-E"
Using a 3-second sample of human speech, it can generate super-high-quality text-to-text speech from the same voice. Even emotional range and acoustic environment of the
sample data can be reproduced. Here are some examples. pic.twitter.com/ExoS2VWO6d— Tuvok @ NaughtyDog (@TheCartelDel) January 7, 2023
“Los resultados del experimento muestran que Vall-E supera significativamente al sistema TTS de última generación [IA que recrea voces que nunca ha escuchado] en términos de naturalidad del habla y similitud del hablante”, afirma el trabajo de investigación, disponible en Cornell. “Además, encontramos que VALL-E podría preservar la emoción del orador y el entorno acústico del mensaje”.
Pueden escuchar ejemplos de Vall-E recreando voces en GitHub. Muchos son realmente sorprendentes, suenan casi idénticos, a pesar de estar basados en una muestra de audio tan corta. Hay algunos que son un poco más robóticos y suenan un poco más al software tradicional de texto a voz, pero sigue siendo impresionante y seguramente mejorara con el tiempo.
Los investigadores de Microsoft creen que Vall-E podría encontrar uso como una herramienta de texto a voz, una forma de editar el habla y un sistema de creación de audio al combinarlo con otras IA generativas como GPT-3.
Al igual que con todas las IA, existen preocupaciones sobre el posible uso indebido de Vall-E.
Hacerse pasar por figuras públicas como políticos es un ejemplo, especialmente cuando se usa junto con Deepfakes. O podría engañar a las personas haciéndolas creer que están hablando con familiares, amigos o funcionarios y de esta forma robar datos confidenciales. También está el hecho de que algunos sistemas de seguridad usan identificación por voz. En cuanto a su impacto en el trabajo, Vall-E probablemente sería una alternativa más económica que contratar actores de doblaje.
Si abordamos los riesgos, del posible mal uso de Vall-E, los investigadores dijeron que estos podrían mitigarse. “Es posible construir un modelo de detección para discriminar si Vall-E sintetizó un clip de audio. También pondremos en práctica los Principios de IA de Microsoft cuando desarrollemos más los modelos”.
Fuente: ArsTechnica