Microsoft reveló silenciosamente un nuevo tipo de IA (que podría asustarlo silenciosamente)

Qué privilegio ser uno de los últimos seres plenamente humanos.

También técnicamente incorrecto

Sé que en un futuro previsible, los artistas anteriormente conocidos como humanos serán un híbrido táctil de carne y chips.

Quizás no debería haberme sorprendido, entonces, cuando los investigadores de Microsoft aparecieron para acelerar un poco las cosas hacia el futuro sin esperanza.

Todo parecía tan ingenuo y científico. Título del ensayo del investigador era creativamente opaco: “Modelos de lenguaje de códec neuronal para sintetizadores de texto a voz Zero-Shot”.

¿Qué crees que esto significa? Hay una forma nueva y más rápida Una máquina que transcribe las palabras que dices?

Más: ¿Es ChatGPT revolucionario? Microsoft parece tener grandes planes para este chatbot de IA

El resumen de los investigadores comienza bastante bien. Utiliza muchas palabras, frases y siglas. Esto explica por qué el modelo de lenguaje de códec neuronal se llama VALL-E.

Seguro que este nombre te ablandará. ¿Qué tiene de aterrador la tecnología que suena como un lindo robotito de una película conmovedora?

OK, probablemente lo sea: “VALL-E exhibe capacidades de aprendizaje en contexto y puede usarse para sintetizar voz personalizada de alta calidad con una grabación de 3 segundos de un hablante invisible como estímulo acústico”.

A menudo quería demostrar habilidades de aprendizaje. En cambio, tuve que esperar a que emergieran.

Lo que surge de la última frase de los investigadores es un escalofrío. Los grandes cerebros de Microsoft ahora solo necesitan 3 segundos para falsificar oraciones largas y grandes discursos que probablemente no hables, pero suenan como tú.

No me meteré demasiado en la ciencia para que ninguno de nosotros se beneficie.

Menciono que VALL-E utiliza una biblioteca de audio creada por Meta, una de las empresas más admiradas y confiables del mundo. fue invitado LibrilitaEs un repositorio de 7.000 hablantes que suman 60.000 horas.

Naturalmente, pedí el trabajo de VALL-E.

Más: El pionero de la IA, Geoff Hinton, analiza un tipo de computadora completamente nuevo

Escuché a un hombre hablar durante 3 segundos. 8 segundos Escuché su versión de VALL-E decir: “Luego se movieron con cautela buscando antes de la cabaña y encontrando algo que demostrara que Warrenton había cumplido su misión”.

Si hay demasiada diferencia, te niegas a darte cuenta.

Es cierto que muchas de las evocaciones suenan a las peores piezas de la literatura del siglo XVIII. Muestra: “Así este padre humano y de mente recta consoló a su hija infeliz, y su madre, abrazándola de nuevo, hizo todo lo que pudo para calmar sus sentimientos”.

Pero, ¿qué puedo hacer sino escuchar los muchos ejemplos que presentan los investigadores? Algunas versiones de VALL-E eran más sospechosas que otras. La redacción no es correcta. Se sintieron divididos.

Sin embargo, el efecto general es bastante aterrador.

Ya has sido advertido. Cuando los estafadores lo llaman y lo graban, reproducen su discurso y usan su voz abstracta para pedir productos caros y desagradables, sabe que no debe hablar con ellos.

Más: Use la personalización impulsada por IA para bloquear llamadas y mensajes de texto no deseados

Esto, al parecer, es otro nivel de sutileza. Tal vez ya he visto demasiados episodios de Peacock.capturadonde se ofrecen deepfakes como parte normal del gobierno. Microsoft es una compañía tan agradable e inofensiva en estos días que realmente no tengo que preocuparme.

Sin embargo, no me consuela la idea de que puedo engañar fácilmente a cualquiera, a cualquiera, para que diga algo que no digo. Específicamente, pueden reflejar el “contexto emocional y acústico” de los primeros 3 segundos de habla de alguien, como dicen los investigadores.

Se sentirá aliviado de que los investigadores hayan identificado este potencial de incomodidad. están proporcionando: “Dado que VALL-E puede sintetizar el habla que mantiene la identidad del hablante, esto puede presentar riesgos potenciales de mal uso del modelo, como falsificar la identidad de la voz o hacerse pasar por un hablante específico”.

¿La solución? Desarrollando un sistema de detección, dicen los investigadores.

Esto podría dejar a una o dos personas preguntándose: “¿Entonces por qué hiciste esto?”

A menudo, en tecnología, la respuesta es: “Porque podemos”.

Eurico Arroyo

“Lector. Organizador. Exasperantemente humilde experto en Twitter. Comunicador certificado”.

READ ¿Lo que hay de nuevo viejo? Apple está lanzando una edición especial de AirPods Pro 2 en China para el Año del Conejo

También técnicamente incorrecto

Modo de juego Soul Brawl explicado en Teamfight Tactics (TFT).

Meta lanza la primera actualización de funciones para subprocesos desde su lanzamiento

Es hora de que Microsoft ponga el modo multijugador en línea en todos los niveles de Game Pass

La evolución de la comida rápida

Sostenibilidad y envasado de alimentos

Uniendo a las personas: La función de las tabletas para el gobierno libre en la inclusión social

¿Cómo es el dominio web perfecto?

También técnicamente incorrecto

Deja una respuesta Cancelar la respuesta

More Stories

Modo de juego Soul Brawl explicado en Teamfight Tactics (TFT).

Meta lanza la primera actualización de funciones para subprocesos desde su lanzamiento

Es hora de que Microsoft ponga el modo multijugador en línea en todos los niveles de Game Pass

You may have missed

La evolución de la comida rápida

Sostenibilidad y envasado de alimentos

Uniendo a las personas: La función de las tabletas para el gobierno libre en la inclusión social

¿Cómo es el dominio web perfecto?