Canta en sindarin, Suno

¿Quieres saber cómo crear una canción en un idioma inventado utilizando herramientas de inteligencia artificial para conseguir una pronunciación plausible? Pues si tienes un ratito, te lo cuento.

No voy a decir que la inteligencia artificial es maravillosa, porque no lo es; y ya hay demasiadas personas que tratan de convencerte de las bondades y que minusvaloran el esfuerzo y sentido que tienen la mayor parte de trabajos artísticos. Es algo a lo que ya estamos habituados, porque nos hemos vuelto locos y necesitamos correr como si fuésemos a llegar a algún sitio. Ser los más rápidos, los más eficientes…, ¿para qué? Alguien me tiene que explicar esas prisas. En cualquier caso, ese desprecio al esfuerzo por lo artesanal y la búsqueda de lo estéticamente homogéneo es habitual cuando lo que podrían convertirse en herramientas de proceso se utilizan para generar directamente resultados.

Una de las pruebas que me gusta hacer con estos gigantescos modelos generativos es proponerle tareas que sean complicadas de resolver y que, sobre todo, el porcentaje de datos al que hayan podido acceder mediante entrenamiento sea mínimo — o que directamente no exista — . Para este tipo de evaluaciones, me gusta utilizar modelos que sean comerciales. Quiero aclarar aquí, que es presumible que el élfico sí haya formado parte del entrenamiento de ChatGPT al haber información en foros y otros lugares de Internet, y que existen en línea lugares que actualmente podría consultar como referencia gramatical. A lo que me refiero con esto es que el volumen con respecto a otras lenguas en las que las personas sí nos comunicamos es prácticamente anecdótico, por lo tanto, construirlo con coherencia y respetando lo que existe de él, sin recurrir a parches desde otros idiomas, puede ser una tarea más complicada que se realice bien. También supone una dificultad extra, si se desconoce, hacer una evaluación del trabajo que ha realizado.

En este caso me dediqué a torturar a ChatGPT (5 Thinking) y a Suno (4,5+) — ya que pago un mes de uso, vamos a por todas — .

Por qué hago esto, si es inútil

El arte bebe de lo inútil, o eso dicen.

Habitualmente las pruebas que se hacen con los modelos de IA están enfocadas en problemas del mundo real, del que hay datos y con el que se ha entrenado mucho, por lo que es más sencillo que los errores (o alucinaciones) estén más acotados o sean menos habituales.

Recordemos que le estamos otorgando una autoridad que no deberíamos darle y que tenemos que tener cuidado con la información que escupe como resultado, porque somos propensos a caer en el sesgo de autoridad. Siempre hay que verificar la información que arroja cualquier modelo con fuentes fiables y primarias.

Aquí lo que importa es el proceso y que dé el pego al final (sobre todo), así que como en todo experimento vamos a establecer el objetivo, condiciones y el procedimiento.

Objetivo: una canción generada con IA que cante en sindarin y cuya pronunciación sea correcta en este idioma artificial.

Condición: no se admite ningún tipo de intervención creativa humana, más allá de las solicitudes de creación y modificación.

Esta condición me parece muy interesante a la hora de abordar esta prueba, porque se puede medir así el grado de laxitud del modelo a la hora de inventar para parecer coherente. Obviamente, a este proceso se le han sumado pruebas anteriores en las que se le ha pedido traducciones y otras tareas en las que lo ha hecho lo suficientemente bien como para aceptar pulpo como animal de compañía. Para no eternizarme y no incurrir en conflictos de derechos de autor, que la IA haga lo que le parezca y ya la criticamos después. A fin de cuentas, hemos venido a ver cómo Suno se pronuncia en élfico.

Procedimiento: al imponer la condición previa de no poder utilizar un poema traducido o escrito directamente en sindarin (que existen), se realiza esta prueba con los siguientes procesos:

A ChatGPT le pedimos que cree una canción en neosindarin que mantenga el ritmo. Le ponemos neosindarin para que no esté tan acotado y pueda inventar palabras (al final el sindarin aparte de ser ficticio, no tiene un diccionario tan extenso como podría tenerlo una lengua natural).
Aquí es importante que se le pida un glosario de aquellas palabras de neosindarin que haya creado junto con su traducción.
Después, le vamos a pedir una traducción al español (o la lengua de preferencia), y también la transcripción del neosindarin al Alfabeto Fonético Internacional (AFI), entre otras versiones.
Con esto, vamos a Suno, cargamos una base musical (opcional) y le colocamos la letra en neosindarin junto con los parámetros de preferencia y generamos la canción.

Fácil, ¿verdad?

La razón de hacer esta prueba o proyecto con IA, no es demostrar que se puede o enseñar, es reflexionar hasta qué punto estos modelos pueden ser susceptibles de generar herramientas que puedan ser útiles para explorar nuevos horizontes no tan «fijos» en los esquemas de datos que tengan dentro estas redes neuronales. ¿Cómo podría utilizarse de forma realmente creativa?, pero no por ella, sino por la intención del usuario.

Consideraciones previas

Puede que a la hora de escribir esto hay hecho trampa, porque al procedimiento le faltan detalles, pero quería detenerme en ellos durante el desarrollo, para que los descubrierais con la lectura. Sobre todo, porque con cómo nos estamos tomando la vida, corriendo, más de uno habrá visto los tres puntos del procedimiento y se habrá sorprendido al tener un resultado un poco nefasto. Bueno, vale, no nefasto, pero que se ha conformado con lo primero que le ha salido.

Aquí hay un tema interesante, en el punto en el que trabajamos con Suno. Ya os avanzo que sería genial que generaran un TTS que fuese capaz de generar voz usando el AFI, pero la realidad es que ¡era una trampa!

Hay que tener en cuenta las limitaciones o, mejor dicho, el terreno de juego. Queremos que la canción suene como hemos escuchado a los elfos pronunciar el élfico en las diferentes películas que se han metido en la Tierra Media, ¿no?, pero no existe el TTS de élfico (todavía). Tenemos que jugar con los que hay.

Voy a ahorraros tiempo, los tres TTS que más ajustan la pronunciación el élfico son el galés, suiomi y español. De los tres, el que Suno interpreta mejor es el español. Aunque las tonalidades de los otros dos son mucho más ricas, el español te permite, al ser menos variable en la equivalencia entre alfabeto y fonemas, controlar mejor la definición del fonema. Para que lo aplique, hay que decírselo explícitamente a Suno, en los estilos, una de las cosas que le debes decir es el idioma del TTS, para forzarlo.

Si no se lo dices, por el tipo de estructura y formación de palabras, lo más probable es que entienda que es árabe, u otro parecido, aquí estaríamos dejándole al modelo elegir el idioma que le parece que es. Al hacerlo, puede quedar bien o, más probablemente, la pronunciación final va a estar muy alejada de lo que realmente buscamos.

Este es uno de los puntos clave; el otro es entender que el sindarin tiene unas características de pronunciación diferentes al español (o al TTS que vayamos a usar); por lo que la letra que le pongamos a Suno, al ponérsela tal cual, la pronunciación será fonéticamente española. ¡Y tampoco queremos eso!

En el procedimiento, en el punto dos puse «entre otras versiones», porque soy un bicho y me gusta haceros leer. Igual que dije que el IFA no funcionaba, sí que podemos pedirle a ChatGPT que trascriba la letra para que la interprete correctamente un TTS en español respetando la fonética élfica. Esa transcripción (sin guiones entre sílabas, si las ha puesto) es lo que hay que ponerle como letra a Suno para que consiga un élfico que dé el pego.

Desarrollo de la prueba

Comenzamos con la solicitud a ChatGPT:

«Hola, Gepeto.
Necesito que crees una canción (poema) en neosindarin, que sea melódica en esa lengua y tenga cadencia y ritmo interno. Te dejo elegir la métrica, lo importante es que se pueda cantar. Ponle título, por favor.
Además, necesito que generes un glosario con todos aquellos términos que hayas creado y que no correspondan oficialmente al sindarin.
Sobre la temática, me gustaría que tratara de un elfo que se pierde en el bosque, después de haberse quedado en la Tierra Media porque haberse enamorado de una humana, y descubre que este se está quemando y él no puede hacer nada para rescatarla de las llamas. Quedándose sin la posibilidad de ir a las Tierras Imperecederas para sanar su dolor y sin la razón por la que se quedó en la Tierra Media. Al final el elfo se marchita como la esperanza y se convierte en cenizas igual que el bosque. Juega con esa idea».

El resultado que obtenemos por parte de ChatGPT, tras pensárselo un buen rato es que informa de que ha optado por versos de 7–9 sílabas y un estribillo bimembre —qué majo—. También me pone la canción y el glosario después, como le he pedido. Antes de ponerla aquí, por ahorrar espacio, le hago la siguiente petición:

«¿Podrías hacerme la traducción al español de España, por favor?».

Ante todo, educación.

Este es el resultado base con el que vamos a trabajar:

Y a continuación el glosario que creó, que creo que podría haberlo extendido un poco más, pero… esto es lo que ChatGPT ha decidido que es lo relevante puntualizar.

Podemos hacer el primer salto a Suno, ¿qué puede salir mal?

Bien, en estilo, para todos los casos voy a utilizar la siguiente indicación (hay mucha preferencia personal aquí que no afecta a la voz, pero sí guía a un resultado más a mi gusto), solo especificaré los cambios, cuando cambie algo.

Para crear la base musical que usarán las canciones, usaré estas indicaciones de estilo: Forest fantasy, melodic, melancholic, Celtic rhythm, lira, string instrumental, wind, organic, natural, -rock, -bass, -drums, -pop, -epic, -cinematic, -OST, -drama, -autotune, -reggeton

Le hago generar, con esto, una canción instrumental. Esta es la base generada elegida para este ejemplo: Canto al bosque en llamas (0 – Instrumental)

Colocando la canción de base instrumental y agregando en el espacio reservado para la letra, la que ha escrito ChatGPT en neosindarin, tal cual, con esos estilos, y añadiendo también: Sweet female voice, este es el resultado: Linnod na Eryn-lach (1 – Sindarin sin ajustes)

En las opciones avanzadas, los parámetros he configurado: Weirdness y Stile influence al 50 %, y Audio Influence al 40 %. Se lo aplicaré igual a todas.

¿Bien? Es bonita, sí, ¿por qué no?, pero aquí no estamos tanto controlando la pronunciación. El modelo está interpretando como mejor cree.

Como recordarás, en consideraciones previas he puesto que era necesario guiar a Suno hacia el idioma en el que debía vocalizar. Para influir en el TTS que usará para sintetizar la voz, hay que añadir otra cosita a los estilos: Spanish pronunciation.

Al colocar esta nueva etiqueta, el resultado es este: Linnod na Eryn-lach (2 – TTS indicado)

¿Has notado la diferencia del primero al segundo? La «vocalización» del modelo está más definida, lo que nos permite ahora, poder controlar mejor cómo queremos que se produzca el sonido.

Toca adaptar la propia letra. Estamos usando el TTS que debemos, pero no estamos escuchando la pronunciación del élfico como debería ser, sino la del español. Tenemos que volver a ChatGPT, y le pedimos lo siguiente:

«Ahora, quiero hacer que un modelo TTS en español sea capaz de interpretar la canción en neosindarin correctamente, necesitaría que, de la letra en neosindarin, crearas la transcripción (sin partición silábica, por favor) para que el modelo TTS generara un audio en el que la pronunciación del sindarin fuese correcta y evitar que suene a español».

Además, hace un apunte (muy majo Gepeto) dándote una pequeña clave de los cambios para el TTS en español:

Colocando esta versión, y acordándonos de que en las etiquetas tenemos que añadir el Spanish pronunciation, obtenemos esta versión de la canción: Linnod na Eryn-lach (3 – Pronunciación ajustada al TTS)

Conclusión

Intuyo que si Suno aceptase AFI para generar la pronunciación, el resultado podría ser más natural y ajustado a cómo debería escucharse. No solo lo digo por el élfico, señores, no me seais cortitos de miras.

Usar un sistema internacional podría facilitar y agilizar la forma en la que los TTS trabajan. Sería interesante aplicar una herramienta del lenguaje —que ya existe—, y quizá sería útil para hacer alguna prueba. Esto lo lanzo como idea por si alguien quiere recoger el guante.

A mí poner este tipo de retos me resulta interesante; los hago porque son formas de intentar romper los modelos y enfrentarlos a problemas que se desvían un poco de la norma…, y así aprender sus límites, lo que realmente son capaces de hacer y tomar nota de sus errores.

También quiero que se entienda, porque se está vendiendo que vale cualquier cosa; que esto, como todo, puede tener resultados más aceptables o menos. No, no vale cualquier cosa que genera. Es importantísimo aprender y entender cómo funcionan estos sistemas, y hasta qué punto pueden llegar, o cómo tienes que modificar la forma de interactuar con estos modelos para sacarles un rendimiento adecuado y que sea útil y, en la medida de lo posible, único. Aunque, sinceramente, lo mejor que puedes hacer si quieres un resultado único y tuyo es crearlo tú mismo. ¿Qué sentido tiene dejarle el trabajo de definirte y llegar a las conclusiones de un proyecto a una red neuronal que no es la tuya? Vivimos para aprender y para eso necesitamos pensar nosotros.

Sobre los resultados del proceso, os dejo a vosotros decidir si merecen la pena u os gustan. Esto es solo una demostración de cómo, pensar y comprender, que eso te sigue tocando a ti, pueden mejorar el resultado de una de estas herramientas… También es un buen momento para reflexionar si de verdad merece la pena que perdamos esa capacidad que tenemos de ser creativos, porque todo lo que no trabajamos y repetimos, se pierde. No lo pierde la IA, lo pierdes tú; pierdes toda esa evolución que podrías haber desarrollado. Y al final del camino, pierdes la satisfacción que solo podría ser tuya a cambio de una gratificación instantáneamente generada.

El fruto de tus reflexiones y tu esfuerzo es solo tuyo.

Posdata. En la creación de este artículo, los contenidos generados con IA están colocados como imágenes o enlaces a audios; el resto de la redacción ha sido generada mediante inteligencia humana. No se ha requerido de revisores de IA para la publicación de este artículo.

He dejado todas las versiones que he hecho en esta lista de reproducción de Suno: Creating an Elven Song by @erebyel | Suno

En esta lista de reproducción hay otros bonus, como versiones de suomi, islandesa o euskera, recomendaciones que ha hecho ChatGPT sobre modelos de TTS que podrían dar un resultado muy similar o con un «sabor» (tono melódico) peculiar (como es el caso del euskera). Reconozco que esa sugerencia me sorprendió un poco.

Bonus

Venga, que esto ya se ha ido de madre, qué más da si añadimos algo más, la transcripción en AFI (en la imagen, IPA) es esta:

Y si tratamos de hacer la canción con ello con Suno, sustituyendo el Spanish pronunciation en el estilo por: phoneme alphabet IPA, el resultado es este: Linnod na Eryn-lach (Bonus – IPA)

Ahora, os toca a vosotros juzgar.

Ciencia de datos