Microsoft crea una herramienta capaz de imitar cualquier voz escuchándola sólo tres segundos

Microsoft crea una herramienta capaz de imitar cualquier voz escuchándola sólo tres segundos

Cortesía

 

Varias herramientas creadas con técnicas de inteligencia artificial y aprendizaje máquina han conseguido sorprendernos en los últimos años. Dall-E, Midjourney o Stable Diffusion, por ejemplo, son capaces de crear imágenes a partir de descripciones de texto. ChatGPT puede conversar como un humano, explicar cualquier concepto y elaborar resúmenes de forma coherente.

Por: El Mundo





Ahora, Microsoft ha conseguido también aplicar estas técnicas para crear un motor de síntesis de voz capaz de imitar la voz de cualquier persona tan sólo escuchándola hablar durante tres segundos. La herramienta se llama VALL-E y es capaz de imitar el tono y la inflexión con una precisión sorprendente.

Los modelos de síntesis de voz que utilizan técnicas de aprendizaje máquina para conseguir un resultado realista no son nuevos. Empresas como Google o Meta llevan años perfeccionándolos. Algunos son capaces de imitar voces, pero necesitan un extenso entrenamiento con textos que contengan la mayoría de fonemas y eso requiere muchas veces leer varios minutos de textos predefinidos.

VALL-E, en cambio, es capaz de capturar la esencia de una voz escuchando cualquier fragmento de tres segundos, aunque lo que diga no tenga nada que ver con el texto que se le pide sintetizar. Microsoft lo ha conseguido entrenando el modelo de lenguaje con más de 60.000 horas de grabaciones y más de 7.000 voces diferentes que forman parte del catálogo de LibriLight.

Cuanto más parecida sea la voz de la persona a una de esas 7.000 voces de referencia, más fácil es para VALL-E ofrecer un resultado convincente, aunque de momento, eso sí, sólo funciona en inglés.

Puedes leer la nota completa en El Mundo