¡¡Megapost!! Análisis de VoCo, el Photoshop de los voiceover

Hace unos días se presentó el proyecto VoCo y lo cierto es que ha suscitado muchas dudas. Me gustaría hacer un análisis profundo de este nuevo software, de los retos que tendrá que superar para ser un producto reseñable y de lo que podría suponer su irrupción en el mercado.

Cuando de repente la tecnología te sitúa en el futuro

Los días van pasando y la tecnología avanza casi sin darnos cuenta. Se introduce en nuestras vidas de manera sutil. Cambiamos de móvil tantas veces que las mejoras se implementan casi sin advertirlo. Crees que el Compact Disc es cosa del pasado y de repente un día ya no usas el iPod sino tu propio smartphone. Cada poco tiempo, algo que creías usual en tu vida empieza a formar parte del pasado. Y así, casi de manera inconsciente, la obsolescencia programada se va apoderando de todo lo que lleva en nuestra vida más de dos años.

voco-bienvenidoalfuturo

Pero a veces nos presentan productos que nos hacen pensar que ya estamos en el futuro, en ese futuro que hace tan sólo unas semanas nos parecía ciencia ficción.

Algo así sentí cuando Adobe, la famosa marca que trajo al mundo Photoshop y el formato PDF, presentó el proyecto VoCo.

VoCo Captura

Captura de pantalla de VoCo

¿Pero qué es VoCo exactamente?

¿Te imaginas poder poner en boca de alguien cosas que no ha dicho? Pues eso mismo es el proyecto VoCo. Se trata de un algoritmo que permite manipular la voz humana en un archivo de audio, como solemos hacer con una fotografía cuando trabajamos con Photoshop. Es decir que con VoCo podemos borrar, mover, editar o incluso crear palabras en una grabación de audio. Todo con un simple dispositivo móvil. Del mismo modo que retocamos una fotografía para quitar o poner objetos que no estaban en el archivo original, VoCo puede hacer lo mismo con las palabras de una grabación de audio. Una herramienta inquietante por los usos que puede llegar a tener.

De lo que no hay duda es de que si VoCo sale al mercado marcará un precedente en el mundo de la comunicación sonora y la edición de audio.

La presentación de VoCo es una noticia que ha calado con especial profundidad en el mundo de la locución, es decir, los sectores de Voiceover, audiolibros y podcasts.

Así fue la presentación de VoCo

Presentación del Adobe Max 2016

Presentación del Adobe Max 2016

Adobe Max 2016

El “Photoshop de locutores” o VoCo, como le han llamado cariñosamente, es una de las once tecnologías experimentales que se presentaron el pasado 4 de noviembre en el Adobe Max 2016, en San Diego. El Adobe Max es un evento donde ingenieros y desarrolladores de la marca presentan los últimos avances de sus laboratorios. Los usuarios pueden ver de cerca todo aquello en lo que está trabajando la marca.

Todas estas tecnologías presentadas en el Adobe Max se encuentran en una fase embrionaria de experimentación y probablemente les quede mucho para ser incluidas en el paquete de Adobe Cloud. Pero sin duda es un adelanto interesante para entender lo que podremos hacer en un futuro con nuestros dispositivos. El proyecto VoCo fue uno de los más impresionantes en la edición de 2016.

Zeyu Jin tuvo el honor de presentarnos VoCo

Uno de los investigadores de Adobe, Zeyu Jin, fue el encargado de realizar la demostración de esta nueva herramienta para manipular el audio con una facilidad y eficiencia hasta ahora nunca vistas. Comenzó la presentación diciendo:

VoCo y Zeyu jin

Zeyu Jin, uno de los investigadores de Adobe

Todos hemos manipulando alguna vez una fotografía. Pues lo que vamos a hacer hoy es manipular una frase de audio como, por ejemplo, lo que dijisteis en vuestra boda. tweet

La presentación continuó con una demostración de cómo se podía cambiar el orden de las palabras de una frase. Usaron un archivo de audio que habían grabado previamente con la voz de un compañero del equipo. Toda la edición la hacía a través de texto. Es decir, al mover partes de un texto, el audio se modificaba automáticamente. Cambiando varias palabras el ingeniero logró que todo lo que se decía en el archivo de audio resultante fuera completamente distinto a la grabación inicial. Aquí podemos ver todo el vídeo.

Cambiando literalmente toda una frase

Logró que la frase inicial: “… y besé a mis perros y a mi mujer” se convirtiera en “… y besé a mi mujer y a mis perros”. Incluso logró crear palabras que no estaban en el archivo original, de manera que el audio final decía: “… y besé a Jordan tres veces”.

Todo lo que has hecho con la fotografía pero con el audio

El ingeniero aseguraba que no sólo podemos escribir simples palabras, sino que podremos crear pequeñas frases. Bastaría sólo con escribir el texto y el algoritmo sería capaz de reproducir el archivo de audio usando sonidos de una grabación de muestra que se haya grabado previamente. Zeyu Jin aseguraba:

Hemos hecho mucho por la imagen, hemos revolucionado nuestras vidas con la edición de fotos, ahora es el momento de hacer lo mismo, pero con el audio. tweet

¿Y si cae en malas manos?

En algún momento, el actor de televisión Jordan Peele preguntó: ¿Y si esta tecnología cae en malas manos? A lo que el ingeniero respondió:

De hecho estamos investigando cómo prevenir esto. Estamos pensando en algo parecido a una marca de agua, sistemas de detección… Y sí, estamos haciendo lo posible para que la gente pueda distinguir el audio manipulado del audio real. Estamos trabajando muy duro para hacerlo detectable. tweet

El ingeniero de Adobe también aseguró que para que VoCo sea plenamente funcional es necesario cargar primero una muestra de la voz con la que vamos a trabajar de alrededor de veinte minutos. Comentó que era una herramienta ideal para manipular material como audiobooks y podcasts, donde es fácil encontrar largos segmentos de locución sin música ni efectos de fondo.

Como ves, VoCo puede marcar un hito dentro del mundo de la producción de podcasts, audiobooks y las aplicaciones de voiceover en general. Pero más allá de la expectación que ha provocado este supuesto adelanto, vamos a bajar las cosas a tierra. Pensemos en lo que hay detrás de VoCo y en sus posibles consecuencias en la industria.

¡Pero si Adobe es una empresa de edición gráfica!

Síntesis de voz

Adobe, esto no es imagen, es audio

“Adobe, te estás metiendo en el complicado mundo de la síntesis de voz”. Eso les diría yo. Porque luego está la otra parte, la promesa, (y de momento es sólo una promesa), de que VoCo puede recrear partes de un discurso que nunca han existido. Con este sistema lo que ha hecho Adobe es entrar en el mundo de la investigación de la síntesis de voz. Es decir, Adobe asume el reto de poder recrear la voz de un humano a partir de una muestra de voz anterior. Es un mundo complejo y ampliamente investigado. Esa afirmación, la de que puede crear palabras nuevas a partir de una muestra, supone que Adobe posee la fórmula que investigadores de todo el mundo han estado buscando durante mucho tiempo.

La promesa de haber llegado donde otros barcos más grandes no pudieron

Se han invertido cantidades ingentes de recursos tratando de averiguar cómo sintetizar la voz para que parezca más humana, pero sin llegar a conseguir una frase que pueda confundirse con la voz original de una persona. Empresas mucho más grandes como Google, Apple o Nuance, no han conseguido demasiada naturalidad en la voz de  sus asistentes, a pesar de los esfuerzos realizados en los últimos años.

Zapatero a tus zapatos

Por otra parte, Adobe es una empresa especializada en gráficos, algo que se le da realmente bien con productos como Photoshop y After Effects; pero hasta donde sabemos sus incursiones en sonido han sido bastante limitadas. Recordemos que su producto estrella en edición de sonido, Audition, en realidad es un software que compró a Syntrillium en 2003 por la suma de 16,6 millones de dólares. Esto nos hace pensar que no tenía mucha infraestructura en investigación sobre sonido y síntesis de voz. Más bien su recorrido en la creación de software para audio sugiere que Adobe ha tenido que invertir mucho para llegar a conseguir un hito tan importante.

La primera cuestión entonces sería: ¿realmente los laboratorios de una empresa cuyo fuerte ha sido la gestión de gráficos puede conseguir un logro notable en sonido y síntesis de voz?

Eso está por ver. Pensemos que en estos momentos es tan sólo una tecnología en pañales, pero si nos basamos en las capacidades de edición que hemos visto en la demostración, con el tiempo el algoritmo mejorará hasta convertirse en el verdadero Photoshop de audio.

¿Demasiado efectivo para ser verdad?

Así las cosas, la parte más sorprendente de la presentación en el Adobe Max 2016, es ese momento en la que Zeyu Jin dice que en un futuro haría falta una marca al agua porque no sería posible distinguir una voz original de una manipulada, lo cual es mucho decir a día de hoy.

De ser ciertas estas afirmaciones estaríamos ante un descubrimiento que investigadores de todo el mundo no han podido resolver hasta ahora. Por eso, desde un punto de vista científico, VoCo, es mucho más que un juguete para modificar voces. Supondría el mayor descubrimiento en síntesis de voz.

El reto de acabar con los actuales sintetizadores de voz

VoCo podría marcar un hito en el panorama de síntesis de voz, si tomamos como ejemplo los que tenemos actualmente en el mercado. Los sintetizadores de voz que conocemos hasta ahora son muestras malogradas de voz humana donde una máquina trata de juntar fonemas de manera poco agraciada, hasta el punto de formar palabras no siempre comprensibles.

La maldición de Loquendo

El sintetizador de voz más famoso desde el año 2000 es Loquendo, el producto de una empresa multinacional italiana que en 2011 fue adquirida por Nuance. El principal problema de este sistema es la entonación. Carecen de una melodía humana. Las palabras empiezan y acaban con una entonación que no corresponde al sentido de la frase. El algoritmo entona las frases siempre de la misma manera y con la misma velocidad y pausas. A veces no es capaz de respetar los acentos de las palabras. Eso hace que su discurso sea mecánico, repetitivo y robótico. Una locución de Loquendo es bastante incómoda de escuchar.

A pesar de todos los inconvenientes de estos sintetizadores de voz y de su ineficiencia para comunicar, se usan para todo tipo de aplicaciones, incluyendo audiolibros o vídeos explicativos.

Podemos suponer que si VoCo se convirtiera en una realidad comercial podría sacudir la industria de los sintetizadores.
Loquendo

Los antecedentes técnicos que indican que VoCo es posible

Existen antecedentes técnicos que hacen pensar que es posible simular una voz humana:

Smab, manejando audio con texto

Por un lado, la peculiaridad de poder editar el audio con el texto se basa en anclar cada palabra a una parte del archivo de audio, de manera que sea más sencillo jugar con las palabras que con una onda de audio. Esta peculiaridad es una característica que ya conocíamos en productos como SMAB (smab.audio), creado por Adrián Dogar hace ya unos años.

ISSE, el desmezclador

Por otro lado, hace unos meses pudimos vivir la irrupción de ISSE, un algoritmo capaz de separar frecuencias de tal manera que sirve como un “desmezclador” de audio, es decir, que puede separar los instrumentos o elementos sonoros de un archivo de audio. Por cierto entre el equipo de ISSE se encuentra Gautham J. Mysore de Adobe Research. Aún está en una versión alpha, pero podemos descargar esta prometedora herramienta para comprobar lo que es capaz de hacer.

Izotope Rx 5, el arte de separar todo tipo de frecuencias

En cuanto a la eficiencia de aislar frecuencias podríamos decir lo mismo de iZotope RX 5, un reductor de ruido con resultados impresionantes.

La tecnología para separar sonidos de una voz humana ya es una realidad. Esto, en combinación con otros factores técnicos podría ser suficiente para que se consiga de verdad retocar un sonido (voz humana), sin que se note.

La clave está en parametrizar la voz humana

¿Y cuáles son los factores que nos hacen creer que Adobe podría haber conseguido el preámbulo de una síntesis de voz perfecta?

La base de la síntesis de voz se basa en la parametrización de todas las variables que hacen posible el habla humana y el propio lenguaje. Es decir, la idea es que un ordenador sea capaz de medir y cuantificar cada una de las variables que se producen en la voz humana, que son muchísimas.

También harían falta los dispositivos adecuados para medir todas esas variables y una máquina suficientemente potente para procesar todos esos datos.

parametrización de la voz humana

Respecto a esta parametrización de la voz humana el Jefe del Departamento de Acústica de la Escuela Universitaria de Telecomunicación de Barcelona, José Martí Roca, lo explica muy bien:

Tradicionalmente se ha considerado que la unidad más elemental de la voz humana sería el fonema, como abstracción de las unidades acústicas elementales de una determinada lengua. Ahora bien, durante la producción de un fonema, la onda acústica está sometida a variaciones, tanto en la configuración como en la amplitud, de forma que, si la queremos describir de forma directa, habrá que acudir a intervalos de tiempo más cortos durante los cuales las características del sonido se puedan considerar prácticamente constantes. Estas unidades pueden recibir el nombre de microfonemas o tramas, y deberán ser suficientemente cortas para que en transiciones rápidas este escalonamiento no traiga problemas para la resolución temporal de nuestra percepción acústica. Cada microfonema quedará determinado por unos valores numéricos o parámetros que caracterizarán los valores de la señal acústica para generarla adecuadamente cuando interese.

El microfonema, el píxel del sonido

Es decir, según Martí, el secreto para una buena síntesis de voz pasa por dividir la voz en una unidad mínima de manera que una máquina pueda luego reconstruir una voz a modo de puzzle sin que se note. Martí habla del microfonema como unidad mínima para formar sonidos a partir de muestras. El equivalente del microfonema en imagen sería el píxel. Cualquier imagen digital está formada por píxeles.

Cuantos más píxeles hay decimos que mayor resolución tiene la imagen y más realista parece. Lo que sucede es que cuantos más píxeles hay más difícil es procesar una imagen. Lo mismo sucedería con el sonido: cuanto más pequeño sea el microfonema más potencia necesitaremos para formar un sonido.

PianoDisc, el pianista ya no es necesario

En el ámbito musical ya es posible que una máquina interprete música. Ya se ha conseguido sustituir al ser humano en la interpretación de instrumentos musicales. Es posible que un piano interprete por sí mismo una pieza musical de cualquier complejidad, sin necesidad del talento de un pianista. El hito en la automatización de instrumentos musicales lo marcó la empresa alemana PianoDisc, que lo hace posible desde finales de los ochenta.

Puedes hacer que una máquina toque un piano exactamente igual que lo hace un ser humano. Primero graban los movimientos de las manos de un pianista (parametrizar) y luego un mecanismo con electroimanes (solenoide), mueve las teclas del piano imitando al ser humano. Sólo hay que darle la partitura y la máquina ejecuta con extraordinaria precisión la composición, sin que se note que lo hace un microchip. A diferencia del ser humano, no se cansa, no se equivoca y puede estar tocando horas y horas, sin tener que pagarle nada. He estado en muchos restaurantes y hoteles donde tienen un PianoDisc tocando las 24 horas del día, sin que haya nadie sentado en la banqueta. Con PianoDisc sólo es necesaria la presencia del pianista una vez, para que la máquina aprenda cómo se toca la pieza. Después sólo harán falta algunos compositores que creen nuevas piezas para la máquina. Es como una versión moderna de la pianola inventada en el siglo XIX.

Kontakt, el piano tampoco es necesario

También se puede hacer el proceso a la inversa. El piano también puede ser sustituible, como sucede cuando los compositores usan las bibliotecas midi. Puedes tener un teclado midi de 50 euros pero puedes hacer que suene como un piano de cola Steinway de 100.000 euros. ¿Cómo? Fácil.

Reason Steinway

Primero graban el sonido del piano en un estudio, nota por nota. Generan un pequeño archivo de audio por cada nota. Después un software asigna cada nota grabada a su correspondiente tecla. Cuando pulsas por ejemplo la nota C# el software reproduce el archivo de audio donde está grabado el Stainway tocando esa nota. Si tocas diez notas a la vez, el software reproducirá diez archivos de audio con la grabación del piano original al mismo tiempo. Además, los teclados midi de hoy en día tienen un detector de pulsación (que parametriza la fuerza de la mano), haciendo que si tocas más fuerte el piano suene con más fuerza y si tocas más suave el sonido sea más moderado. Eso permite darle textura y carácter a la interpretación, casi la misma que si estuvieras tocando un Stainway real. Hoy en día es difícil saber si el piano que estás escuchando es una grabación natural o es un sample reproducido en un software. Es lo que sucede con productos como Kontakt.

En definitiva, podemos hacer que una máquina haga sonar un Steinway con la calidez y precisión de un ser humano, pero sin que estén presentes ni el piano y el pianista… un mundo totalmente sintético.

Podemos sustituir al intérprete y al instrumento…¿acaso la voz humana no es un instrumento más interpretado por alguien?

¿Por qué no no funciona aún con la voz humana?

Bien, pues porque los instrumentos suelen reproducir sonidos constantes, afinados en notas constantes. Es muy sencillo grabar esto y hacer que un software recree este tipo de sonidos. Pero la voz humana depende de muchos más factores. Como decía Martí, en un mismo fonema (el equivalente a una nota musical) tiene variaciones en sí mismo, con lo que es necesaria una unidad más pequeña.

El reto de la síntesis de voz, como comentábamos antes, está en parametrizar todos estos factores, uno por uno, por separado. Y después tener una máquina que sea capaz de ordenar y manejar esa cantidad ingente de datos. Por eso, de ser cierto lo que VoCo promete, podría ser un hito importante en varios sectores, entre ellos, el de la locución.

Todavía quedan incógnitas

La entonación de la voz, la asignatura pendiente de las máquinas

Por supuesto, la demostración de Adobe deja muchas incógnitas por resolver.

Por ejemplo, ¿hasta qué punto el algoritmo será capaz de trabajar con la entonación correcta de la voz de una persona, una de las partes más complejas en la voz humana?

La prosodia (el modo en que entonamos la voz), es un mundo muy complejo, de hecho, complejo de parametrizar… ¿Cómo una máquina podría recrear la forma característica de interpretar de una persona? ¿Cómo recreará todos los registros de una voz y las emociones? Y en el caso de lograrlo, ¿no será quizá una interpretación demasiado perfecta hasta el punto de sonar artificial, como sucede con las fotografías modificadas con Photoshop? Es fácil imaginar que el algoritmo estudiaría los patrones de nuestra voz, así como los giros lingüísticos y todas las peculiaridades posibles que hacen de nuestra voz algo único. Y con esos datos podrá imitarnos con absoluta fidelidad, incluyendo nuestras imperfecciones humanas.

Además, hay que considerar que todos estos patrones son completamente distintos según el idioma. La entonación en chino o japonés es completamente distinta a la del italiano o el alemán, algo que el algoritmo también tendría que aprender.

La máquina no puede crear por sí misma y termina repitiéndose

Otra cuestión interesante es que sin una inteligencia creativa que la guíe, una máquina termina repitiendo un patrón y eso la delata. Es lo que hace que sepamos que es una máquina.

Este es un reto que ya se han encontrado los programadores de plugins de producción sonora. Es el caso de los plugins que imitan mediante código los efectos de sonido creados por la naturaleza. Al final, esos efectos de sonido digitalizados terminan teniendo cierto patrón de repetición. Lo que sucede es que al tratarse de un efecto de fondo o de ruidos, por ejemplo, quizá no se note tanto en una producción sonora; y tal como están desarrollados en este momento quizá sea suficiente.

Pongamos el ejemplo de la friturita de un disco de vinilo. Los discos de vinilo suelen tener un efecto de fondo en el que parece que están friendo patatas, como resultado del roce de la aguja con el disco. Es un efecto característico al que nos resultó difícil renunciar, en especial a la generación que crecimos con esa tecnología imperfecta. La falta de friturita fue una de las razones por las que nos costó aceptar el uso del Compact Disc a finales de los ochenta y son muchos los usuarios que aún lo reclaman como parte de la experiencia de escuchar música. Debido a esa demanda, con el tiempo, muchos desarrolladores han conseguido crear plugins que simulan la friturita, como es el caso de Mynoise, creado por el ingeniero de sonido Stéphane Pigeon. Al final, si escuchamos atentamente ese plugin, es probable que detectemos que no es un disco de verdad lo que está sonando, sino algo sintetizado por un ordenador. En el disco nunca sonará una friturita igual y en el plugin tarde o temprano habrá un patrón de repetición.

Por tanto, VoCo necesitaría aprender nuevos patrones de las fuentes naturales cada cierto tiempo. Esto limita las aplicaciones del algoritmo, al depender forzosamente de la creación humana. La única alternativa con la que VoCo podría ser autosuficiente sería complementándolo con una inteligencia artificial, una inteligencia creadora sintética, algo aún más lejano en el horizonte tecnológico, que no es objeto de este artículo.

¿Funcionaría con voces cantadas?

Otra de las dudas que deja entrever la demostración de la pre-beta en Adobe Max es saber si VoCo podría trabajar con voces cantadas. Recordemos que hace tiempo Apple implementó en Logic Pro la funcionalidad Flex Time, que permite modificar una voz cantada en su tono y su pitch. Así lo define Apple:

Flex Time, similar a lo que en otras aplicaciones se conoce como audio elástico, simplifica el proceso de edición de la temporización de notas, tiempos y otros eventos de los pasajes de audio. Puede comprimir o expandir el tiempo entre eventos específicos de un pasaje de audio sin necesidad de realizar operaciones de recorte, desplazamiento, empuje o fundido. tweet

Puede editar la temporización de notas y tiempos de los pasajes de audio utilizando marcadores Flex. Al seleccionar un algoritmo Flex Time, el contenido de la pista de audio se analiza en busca de transitorios, o picos significativos, y cualquier transitorio detectado se marca en los pasajes de audio. Puede añadir un marcador Flex en una parte específica de la onda que desee editar. Después de añadir marcadores Flex a un pasaje de audio, puede utilizarlos para ajustar el tiempo (comprimir o expandir) del material de audio. Los marcadores de transitorios determinan los límites iniciales dentro de los que se realiza esta operación. tweet

Flex Pitch le permite cuantizar y editar el tono del material de audio. Puede editar el tono del material de audio seleccionando el algoritmo de Flex Pitch. El contenido de la pista de audio se analiza mediante un proceso de detección de tono, y los resultados se dibujan en una curva de tono. tweet

Puede editar la temporización del audio en el área Pistas y el tono en el editor de pistas de audio. tweet

Si VoCo consiguiese modificar las voces cantadas o reproducir canciones nuevas a partir de muestras, podríamos hacer que cantantes ya retirados o fallecidos pudieran interpretar canciones nuevas.

Obtener las muestras no sería tan sencillo

Otra cuestión interesante es saber cuánto costaría realmente tener una muestra con todos los datos necesarios para que VoCo pueda trabajar bien. Según el ingeniero de Adobe, como ya hemos dicho, a VoCo le bastarían sólo veinte minutos de contenido para parametrizar una voz. A esta muestra con todos los parámetros necesarios podríamos llamarla “sample”. ¿Pero realmente en veinte minutos podríamos tener un sample completo? Fijémonos en los antecedentes.

Siri, un ejemplo de la dificultad de parametrizar una voz

Siri es el asistente de voz de los productos de Apple, una voz que sirve de gran utilidad, sobre todo en los iPhone´s. Siri apareció en el iPhone 4S, en el año 2011. Marcó una diferencia importante respecto a otros sintetizadores porque sonaba más humano y tenía más capacidad de interacción que otros sistemas de simulación de inteligencia artificial. Tanto fue así que tuvo su aparición un episodio de la serie Big Bang Theory en la que uno de los protagonistas llegaba a imaginarse cómo sería Siri si fuera humana.

Rajesh se enamora de Siri from Isaac Baltanás on Vimeo.

Pero la realidad es que Siri, como la mayoría de los sintetizadores de voz, se basa en una voz humana. Siri se basó en la voz de la locutora y actriz de doblaje Susan Bennett. La idea para crear Siri fue la misma que se requiere para trabajar con VoCo: grabar sonidos previos de una voz humana para después poder construir palabras.

Pero obtener las muestras necesarias para hacer hablar a Siri no fue nada fácil.

En 2005 Bennett recibió el encargo de unos textos un tanto extraños. En ese momento Bennet no tenía ni idea de que su voz acabaría en los dispositivos iOS, porque grabó las locuciones antes de que Apple comprase la compañía que creó Siri. Para que la voz de los dispositivos iOS pudiera decir cualquier cosa en inglés fue necesario un trabajo muy duro por parte de Bennett:

Estuve grabando cuatro horas al día, cinco días a la semana durante todo el mes de julio. Para un locutor este ritmo de grabación supone una sobrecarga de trabajo en su voz, lo que produce mucha tensión. Supone estar mucho tiempo hablando constantemente y esto produce fatiga. tweet

Esto nos da una pista de que los ingenieros necesitaban muchos sonidos para que Siri pudiera ser mínimamente funcional y eso les llevó bastante tiempo.

Es posible que el algoritmo de VoCo necesite un sample de voz mucho más corto para construir frases, pero aún queda la parte de la entonación de la voz.

Bennet llevaba desde los años 70 haciendo locuciones de todo tipo y no era la primera vez que humanizaba una máquina con su voz. De hecho los primeros cajeros automáticos con voz de Estados Unidos tenían el timbre de Susan Bennett. Pero la grabación de la voz de Siri fue algo completamente distinto:

Recibí pocas instrucciones, pero la voz tenía que sonar como de otro mundo y con cierto sarcasmo”, apunta Bennett recordando aquellas sesiones de grabación.

Pero no queda ahí la cosa. Bennett no grabó un texto, como los que solía recibir en otros encargos:

La grabación para una voz computarizada como Siri es especialmente difícil. Aquellas maratones de locución no implicaban la lectura de palabras o frases completas. Había que pronunciar verdaderos trabalenguas con fonemas que constituían los sonidos básicos del habla. tweet

La idea era poder incluir en esas grabaciones cada posible sonido, dividido generalmente en fonemas, para que la máquina pudiera construir después cualquier palabra del diccionario. Para grabar algo así, Bennett se vio obligada a recitar frases extrañas que incluían todos los sonidos de la lengua inglesa. La locutora tuvo que grabar frases absurdas, sin mucho sentido como “oil your mills jewel weed today”.

El proceso de grabación del sample de voz para Siri llevó mucho tiempo porque había que registrar todas las variedades de sonidos posibles. De esta manera Siri parecería más humana. No bastaba con grabar el fonema k. Había que grabarlo para que pudiera ser pronunciado en casos como “casa”, “kilo”, “queso” o “escapar”… Luego, el procesador debe poder juntar los fonemas para que parezca el discurso de un humano.

El adelanto de VoCo puede estar en que con un sample de voz mucho menor (veinte minutos), el algoritmo pueda llegar a construir una frase que tenga una apariencia completamente humana.

Mientras Adobe consigue superar todos estos escollos, vamos a analizar lo que supondría la irrupción de VoCo en el mundo de la producción sonora. ¿Te imaginas todo lo que podríamos hacer con él?

VoCo lo cambiaría todo en la edición de audio… ¿para mejor?

Si VoCo sale al mercado con todas sus promesas cumplidas los editores de audio de estaciones de radio, podcast y audiobooks estarán de enhorabuena, porque contarán con el poder de la edición de audio a un nuevo nivel. Podrán hacer con sonido lo que actualmente hace cualquier editor de Photoshop, es decir: todo. No sólo podremos manejar el contenido a nuestro antojo, sino que podremos crear o eliminar partes de un audio sin que se note que está editado. Podremos crear y destruir palabras de un locutor sin límites. Los editores de audio estarían de celebración mucho tiempo.

VoCo lo cambiaría todo en la locución… ¿para peor?

Otra reacción muy distinta tendrían los locutores. La primera y más temida suposición es que el locutor podría convertirse en una mera pieza de museo. Uno de los debates que suscita VoCo es la facilidad con la que se podrían corregir los errores de los locutores… o podríamos ir un paso más allá: prescindir de ellos.

Como hemos visto, a partir de una sola muestra de voz de unos pocos minutos, se podrían recrear frases completas con la voz del locutor, sin necesidad de que él esté presente. En esta tesitura bastaría con tener una muestra inicial del locutor que queremos. Como aseguró el investigador de Adobe, bastaría con una muestra, un sample, de unos veinte minutos de contenido para recrear la voz con total fidelidad.

Con el sample del locutor cualquier dispositivo móvil o de estudio podría recrear las locuciones de todos los textos que queramos, haciendo creer a cualquier persona que es el propio locutor quien los ha grabado. El productor sólo necesitaría del talento del locutor la primera vez, para samplear su voz. Para hacer el resto de trabajos sólo sería cuestión de pegar el texto del guión en el software y VoCo se encargaría del resto. Un proceso parecido al que hemos visto con Siri. La voz de Susan Bennett sólo hizo falta al inicio, durante un mes. Después, Siri ha proliferado por todos los dispositivos Apple, sin que la dueña de esa voz tenga que hacer nada.

Es decir, usamos la voz del locutor una vez y a partir de ahí podremos prescindir de él. Da miedo, ¿verdad?

En realidad no sería del todo catastrófico

Lógicamente los locutores, los proveedores naturales de esos samples seguirán siendo un pilar fundamental en la industria. Lo que sucedería es que el modelo de negocio de la locución cambiaría radicalmente. Podría establecerse un modelo de licencias de uso, de manera que el locutor pueda cobrar de por vida según los usos que se vayan haciendo de su voz y la posibilidad legal de negar su uso en una producción si no lo ve conveniente. Claro que con este sistema la industria de la locución de nuevo quedaría relegada a un reducido sector de profesionales con una voz peculiar o con un algún timbre el particular. Una vez tengamos un catálogo con miles de voces de todas las clases sólo se buscaría samplear las voces con un timbre característico. No cualquier voz sería digna de samplear.

Ahora mismo todo esto puede sonar a ciencia ficción, como algo irrealizable, pero con la entrada de VoCo en escena esta idea deja de ser tan descabellada.

Es más, sería lógico que la industria de la locución tuviera cierto miedo a que un mundo así pueda ser posible, pensar en un mundo en el que los locutores ya no sean necesarios más que para alimentar a una máquina que les sustituirá. Pero cuando Gutenberg inventó la imprenta los monjes escribanos se quedaron sin trabajo (aunque siguieron existiendo escritores). Lo mismo les pasó a los copistas de patentes cuando se inventó la fotocopiadora, (pero no afectó a los inventores). En ese caso, el modelo de negocio de la locución sufriría la transformación que ha sufrido cualquier proceso mecanizable.

No es tan descabellado pensar que los locutores finalmente “vendan” su voz a un catalogador, para que el productor pueda explotarla su gusto, siempre que el locutor, como he mencionado antes, pueda cobrar un royalty por la explotación de su talento natural mientras viva. Puede sonar horrible para cualquiera que se dedique a la locución, pero parece que es un mundo posible y cada vez más probable con la aparición de VoCo.

El locutor seguirá siendo necesario

Por otra parte, también es fácil pensar que la voz recreada virtualmente no evolucionaría con el tiempo. Susan Bennett, piensa que con el tiempo, Siri se ha ido alimentando de otras voces para perfeccionar su manera de aunar fonemas.

Es cierto que en algún momento la máquina se encontraría con un techo de registros porque el sample que haya grabado el locutor tiene muestras limitadas de su voz, con lo que no podría sacar más registros aleatorios que hacen que nuestra voz parezca imperfecta y natural. El locutor, a lo largo de su carrera aprende nuevos registros, nuevas maneras de interpretar y en cada grabación, en cada etapa, la voz no siempre suena igual, no todas las sílabas se pronuncian de la misma manera, no todas las vocales tienen la misma duración. Hay un número infinito de muestras diferentes en cada grabación y eso hace que nuestra voz, nuestra forma de expresarnos, sea única. Y como decíamos, a menos que haya una inteligencia artificial capaz de crear e interpretar, como lo hace el ser humano, el locutor tendrá que seguir estando presente para alimentar y enriquecer la diversidad de todas esas librerías de voces.

En ese caso tal vez el locutor tenga que ir actualizando los samples para que el algoritmo vaya evolucionando, para que le sea más fácil interpretar un texto cada vez con una variedad más heterogénea de registros, como lo haría la voz original.

Utilizades de VoCo

Edición sin límites

Como ya hemos dicho, los primeros beneficiados serían los editores de audio, a los que se les otorgaría el poder de manejar el audio a nuevos niveles. Con VoCo en la mano tendrían la posibilidad no sólo de mover el un corte de sonido sin tocar las ondas de audio, sino que podría arreglar tomas de sonido mal hechas, arreglar posibles errores de locutores e incluso acabar un trabajo que el locutor no haya podido hacer por alguna circunstancia. El editor en realidad sería ahora el nuevo creador.

Desaparición de los aberrantes sintetizadores de voz actuales

El beneficio más interesante de una hipotética irrupción de VoCo en el mercado sería la definitiva desaparición de los sintetizadores de voz. Desde 1998 estas voces sintetizadas han ido proliferando por doquier, a pesar de su horrible ejecución. Desde el año 2001 está empezando a ser un problema en el mundo de la comunicación por su implementación en aplicaciones a las que nunca deberían haber llegado: Centralitas telefónicas, audiolibros e incluso en megafonías de aeropuertos. El drama está servido cuando empresas e instituciones públicas usan este malogrado sintetizador para locuciones en sistemas de emergencia, alarmas de evacuación, etc… No hay nada peor que dar un mensaje confuso en un momento de pánico… pues eso mismo están haciendo con Loquendo. Los comunicadores sentimos que realmente es un problema importe en el día a día de miles de personas.

VoCo y su capacidad muy superior para sintetizar cualquier voz, haciendo que parezca natural, podría acabar con esta pesadilla en el mundo de la comunicación.

Perpetuar voces de locutores

Otra utilidad en la industria que afecta a la locución es la posibilidad de inmortalizar una voz. Al samplear la voz de un locutor, tenemos la garantía de poder seguir produciendo nuevos textos, incluso cuando el locutor ya no esté. Esto produce ciertos conflictos con la renovación del mercado de voces. El catálogo sería cada vez mayor, siendo más y más difícil destacar en el mundo de locución.

En contrapartida, el correcto uso de VoCo podría abaratar los costes de locución dramáticamente en algunos campos. Podríamos obtener audiolibros más económicos, así como productos y herramientas de bajo coste para invidentes. En este caso son dos caras de una misma moneda. Los locutores ganarían mucho menos, pero las aplicaciones a las que van dirigidas sus voces y los beneficiarios (los invidentes), ganarían mucho más.

Perpetuar voces cantadas

Si VoCo pudiera procesar bien las voces cantadas podríamos encontrar una interesante aplicación en la creación de canciones a partir de voces de cantantes fallecidos.

Muchos estarán de acuerdo en que este mundo sería mejor si pudiéramos escuchar un nuevo disco de canciones inéditas de Frank Sinatra o de Michael Jackson. Por supuesto, esto implicaría algunos inconvenientes, porque con esta técnica estaríamos haciendo que los cantantes fueran eternos, sin dejar lugar al ciclo natural de la vida en la música, permitiendo que otros talentos tengan la oportunidad de convertirse en las leyendas que ya son aquellos que fallecieron.

Perpetuar voces célebres

Pero las aplicaciones no acabarían ahí. Lo cierto es que se podrían inmortalizar voces que no fueran precisamente de locutores o cantantes, sino de celebridades, de personas importantes. Sería maravilloso poder tener la voz de Nicola Tesla o de Marconi. Lo mismo podrán decir las próximas generaciones de otros personajes importantes en la actualidad.

Perpetuar voces de familiares

Y, por qué no, también se podrían perpetuar las voces de familiares y personas queridas, de manera que siempre tengamos la oportunidad de escuchar a alguien querido diciéndonos cosas que nos gustaría oír de ellos, aunque ya no estén. Aquí de nuevo entramos en un conflicto, poniendo en boca de esas personas cosas que a lo mejor nunca hubieran dicho en vida, adentrándonos en un mundo artificial, mucho más alejado de la realidad que fue un día.

Perfeccionamiento del habla

Otro uso interesante de este algoritmo podría ser para aprender a hablar mejor. La máquina podría analizar nuestros registros y reproducir lo que se supone una locución perfecta. Por imitación podríamos aprender cómo hacer para locutar o simplemente para hablar adecuadamente. El algoritmo también podría ser parte de una máquina de diagnóstico que nos diga qué problema exacto tenemos en nuestra voz.

La cuestión ética

Por último está la cuestión ética y moral de todo este asunto.

El ingeniero de Adobe aseguró que estaban trabajando para implementar marcas de agua u otros sistemas, para que el consumidor pueda diferenciar rápidamente entre un audio manipulado y uno original. Pero, como ha sucedido con otros muchos productos, podrían encontrar el secreto del algoritmo a través de ingeniería inversa y volver a crear el mismo código, pero sin esas restricciones que piensa implementar Adobe. Eso dejaría a disposición de cualquier usuario una herramienta con posibilidades infinitas, permitiendo hacer todo lo que hemos mencionado y mucho más, pero sin respetar necesariamente las reglas éticas, sin poner la moral de por medio. Si ya es difícil ver si una imagen es falsa o no, mucho más difícil será detectar si el audio ha sido manipulado.

Hablar de este escenario en la actualidad puede sonar absurdo, pero en realidad suena tan absurdo como lo fue pensar en una máquina de escribir a finales del siglo XIX o las fotocopiadoras a principios del XX.

Al menos VoCo ha sido una buena acción de marketing

De cualquier manera, lo que es innegable es que VoCo ha sido una técnica de marketing infalible. Las conjeturas acerca de lo que traerá este sintetizador de voz ha causado un gran impacto a nivel mundial. Tal vez se trate solo de eso. De mostrar una demo básica. Nada que no se pueda hacer ya con otras herramientas y prometer cosas para un futuro, mientras hoy obtienen el impacto mediático necesario para impulsar los productos de su catálogo que sí que son una realidad. El tiempo lo dirá. Mientras tanto, sigamos usando nuestro talento para deleitar los oídos de las personas con nuestra voz de manera completamente artesanal.