Explicar la IA cantando

26 de Octubre de 2023
Act. 20 de Noviembre de 2023
Josep Maria Ganyet | VIA Empresa

La irrupción de la IA generativa nos fascina y a la vez nos preocupa. Hoy cualquier persona que sepa enviar un WhasApp puede generar textos que parecen escritos por un redactor o imágenes que parecen hechas por un ilustrador. ¿Y música? ¿Puede el famoso ChatGPT "crear" música? La respuesta corta es no. La larga es fascinante. Echemos cuatro o cinco meses atrás.

Cada año en noviembre se celebra la Catosfera, el encuentro del internet catalán. Empezó en 2008 en Granollers con la voluntad de que los que hacíamos cosas en la red nos pusiéramos cara. Uno de los asiduos era un joven que se llamaba Carles Puigdemont que, una vez fue alcalde de Girona, la acogió en la ciudad a partir del 2015. Al principio tenía gracia encontrarnos todos, conocernos y hacer (todavía más) red. Con los años ya nos conocemos todos e internet se ha hecho grande en todos los sentidos. El encuentro ha mutado a unas jornadas temáticas orientadas a la comunicación y la red, a pesar de que no han perdido su espíritu original de comunidad.

La edición de este año de la Catosfera iba, como no podía ser de otra manera, de inteligencia artificial y me invitaron a participar. La organización me encargó hablar sobre el impacto de la IA generativa en la creatividad y los derechos de autor. ¿Charla? ¿Mesa redonda? ¿Debate? ¿Pica-pica? Se nos ocurrió hacer una sesión de creación en directo con IA: crearíamos un tema musical con la ayuda de ChatGPT y con la participación del público. Observad que digo "con la ayuda" y no "que ChatGPT" crearía un tema musical. La distinción es fundamental.

En el escenario yo guiaría al ChatGPT, llevaría mis sintetizadores analógicos, pondría el ordenador y los menguados conocimientos de producción musical y me encargaría de explicar todos los conceptos de IA a la audiencia a la vez que creaba un tema musical. Pero faltaba la inteligencia natural, en este caso musical; faltaba una variable de la ecuación: el músico. Había hecho algún ejercicio de generación de música con ChatGPT, pero por muy satisfactorio que me pareciera yo no tengo la autoritas necesaria a la hora de validar un tema musical. Mazoni al rescate.

Jaume Pla de Mazoni es uno de los músicos más relevantes de nuestro país con una autoritas que se mide en más de 20 años, 11 álbumes y 110 temas grabados. No hay que decir que como fan de Mazoni me ilusionaba trabajar con él en el proyecto pero todo dependía que quisiera participar. Había ido a conciertos suyos pero no nos conocíamos personalmente, pero nos habíamos intercambiado mensajes privados por Twitter sobre IA, creatividad y música y me animé a proponérselo. Me dijo que sí enseguida, pero todavía quedaban tres filtros para pasar: 1) el filtro "kill your idol", 2) el filtro luddita y 3) el filtro "cotorra estocástica". Manos a la obra.

El filtro "Kill your idol"

La frase la llevaba en la camiseta Jon Bon Jovi en los 90 con la cara de Nuestro Señor. Creo que es bastante autoexplicativa. Hace referencia al riesgo que hay de conocer a alguien que admiras de quien solo conoces su personalidad pública. Puede ser un gran actor, cantante, escritor, poeta o pintor, pero una pésima persona. Aquello de separar el autor de la obra que en el caso del Loquillo cuesta tanto. Guille Milkyway de La Casa Azul me explicó que en una edición del festival de Benicássim coincidió en el backstage con Lou Reed, uno de sus ídolos de toda la vida. Él y su mujer lo saludaron muy educadament sin mirar de importunarlo a lo que el neoyorquino reaccionó con una mala educación extrema. A menudo es mejor no conocer a tus ídolos. No es el caso de Mazoni.

"Puede ser un gran actor, cantante, escritor, poeta o pintor, pero una pésima persona"

El filtro luddita

Con el ídolo vivo había un segundo filtro todavía más complejo. ¿Y si el artista percibía que la IA había llegado para sustituirlo? ¿Y si a partir de ahora todo era apretar un botón y la creación de la máquina superaba a la humana? Nos encontramos, nos pusimos a hacer pruebas —a hacer un diálogo socrático con ChatGPT— y todo fue rodado. La curiosidad de uno y otro —ignorábamos si sacaríamos nada en positivo— y las ganas de explorar para hacer algo nuevo eclipsaron toda sombra de luddismo. Prueba superada.

El filtro de la "cotorra estocástica"

Superados los dos primeros había el riesgo que no llegáramos a ninguna parte. La lingüista computacional Emily Bender tildó los sistemas basados en aprendizaje máquina como el ChatGPT como "cotorras estocásticas", un tipo de loros probabilísticos que, como sus análogos biológicos, solo saben repetir aquello que han escuchado.

Emily Bender tildó los sistemas basados en aprendizaje máquina como el ChatGPT como "cotorras estocásticas"

Tiene lógica: si estos sistemas han "aprendido" de todo lo que han "leído" en internet lo que harán es generar las combinaciones de palabras que tienen más probabilidad de aparecer juntas; seguirá las normas pero nunca las romperá. Como los loros que emiten sonidos que nosotros interpretamos como palabras, los sistemas de IA generativa generan contenido al que nosotros damos sentido. De hecho no tienen ningún conocimiento del mundo, solo del lenguaje: no "saben" qué quiere decir "saber", por lo tanto, no "saben" que no "saben" (es por eso que no "callan" nunca, ni cuando no tienen una respuesta correcta).

Tampoco fue el caso. Enseguida le encontramos las costuras al ChatGPT. Cuando le pedimos un ritmo por nuestro tema musical nos lo dio muy básico y fue el músico quién lo iba guiando con la complejidad, la sorpresa, la tensión musical o las modulaciones. La tónica se repitió con la progresión de acuerdos, la línea de bajo y los arpegis. Esto nos animó porque quedaba muy clara la colaboración entre ChatGPT y el humano, que uno no sustituía al otro, que el diálogo era constructivo y quedaban claros los roles de cada uno; no era el uno contra el otro sino que cada cual hacía su trabajo: el músico establece objetivos y valida, la IA genera y propone (observad que no digo crea).

"El músico establece objetivos y valida, la IA genera y propone"

Pasado el tercer filtro, fuimos felices.

La actuación

El single

El diálogo

Por si queréis profundizar os dejo algunas de las interacciones más relevantes con ChatGPT. Las incorrecciones gramaticales son del original.

Humano: Buenos días, imagínate que eres un músico, y que quieres hacer un tema musical de un estilo que no existe. ¿Me podrías crear uno nuevo estilo musical de música pop?

 

ChatGPT: Nombre del estilo: PopCòsmic

Concepto:

El PopCòsmic mezcla elementos de música pop con sonidos inspirados en el universo, la ciencia ficción y los fenómenos astronómicos, creando una experiencia musical que transporta el oyente a través del espacio y el tiempo.

Elementos clave:

  • Sonidos Espaciales:
    • Vistazo a los sonidos que recuerdan en el espacio, como por ejemplo olas sintetitzadoras etéreas, reverberaciones cósmicas y efectos de sonido de nave espacial.
    • Podrían incluir sonidos reales del espacio, como por ejemplo los sonidos electromagnéticos capturados por sondas espaciales.
  • Estructura Pop:
    • Conservar la estructura básica de la música pop: verso, estribillo, verso, estribillo, puente, estribillo.
    • Las melodías tendrían que ser pegadizas y las armonías agradables para una amplia audiencia.
  • Letra Inspiradora:
    • Letra con temas centrados en la exploración, la curiosidad, el misterio y la belleza del universo.
    • Podría incluir referencias a la astronomía, las teorías científicas y la ciencia ficción.
  • Visuales Espectaculares:
    • El aspecto visual del PopCòsmic podría incluir vídeos musicales y espectáculos en directo con imágenes del espacio, efectos de luz que imitan estrellas y planetas, y vestuario inspirado en el astronauta o en la ciencia ficción.
    • Quizás incluir elementos de realidad aumentada o virtual para aumentar la experiencia en directo.
  • Instrumentos y Producción:
    • Vistazo a los sintetizadores, las máquinas de ritmo y otros elementos de la música electrónica.
    • También podrían incluir instrumentos más tradicionales, como por ejemplo guitarra, bajo y batería, para mantener la raíz pop.
    • La producción tendría que destacarse por su pulcritud y por la fusión entre los elementos electrónicos y los acústicos.
  • Colaboraciones Interdisciplinarias:
    • Podría colaborar con científicos e investigadores para incluir datos y sonidos auténticos relacionados con el espacio.
    • También podría implicar artistas visuales, diseñadores de luz y programadores para crear una experiencia inmersiva.
  • Estilo Vocal:
    • Las voces podrían ser manipuladas para añadir un tono más etéreo o futurista, mediante el uso de autotune, harmonizadores o vocoders.
    • También se podría experimentar con técnicas vocales diferentes, como por ejemplo el canto diphonic, para aportar una dimensión diferente al sonido.

Humano: ¿Puedes escribir el ritmo en una partitura?

ChatGPT: ¡Ciertamente! Vamos a escribir una partitura básica con el ritmo que hemos discutido.

Partitura de Batería Básica

Estamos trabajando con un compás de 4/4, así que tendremos 4 tiempos en cada medida.

  • Bombo (Kick): Representado con una nota en el espacio inferior del pentagrama.
  • Caja (Snare): Representado con una x en el centro del pentagrama.
  • Hi-hat: Representado con una x en el espacio superior del pentagrama.

Compás 1: | 1 + 2 + 3 + 4 + |

Bombo: | X X X X |

Caja: | X X X X |

Hi-hat: | X X X X X X X X |


Humano: ¿Lo puedes hacer un poco complejo, con más subdivisiones?

ChatGPT: ¡Claro! Podemos hacer el ritmo algo más complejo añadiendo más subdivisiones, como por ejemplo semicorcheas (subdividiendo cada corchea en dos partes). Esto nos da 16 subdivisiones por compás.

Partitura de Batería Más Compleja

Compás 1: | 1 e + a 2 e + a 3 e + a 4 e + a |

Bombo: | X X X X X |

Caja: | X X X X |

-hat: | X X X X X X X X X X X X X X X X |


Humano: De acuerdo, lo hemos bajado a 80 bpm. Continuamos con los acordes. ¿Qué progresión nos sugieres por la estrofa?

ChatGPT: Una progresión de acordes clásica y accesible es a menudo una gran elección para la estrofa de una canción pop. A continuación se presenta una progresión de acordes que podríamos utilizar, junto con una explicación breve:

Progresión de Acordes para la Estrofa: vi - IV - Y - V

Esta progresión de acuerdos es popular en muchos géneros porque es melódica y emotiva, pero también bastante neutral, lo que la hace perfecta para una estrofa. La progresión es:

  • vi: El sexto acorde menor de la escala.
  • IV: El cuarto acorde mayor de la escala.
  • I: El primer acorde mayor (o tónica) de la escala.
  • V: El quinto acorde mayor de la escala.

Humano: Me gusta, pero lo encuentro demasiado simple. ¿Puedes poner alguna modulación?

ChatGPT: ¡Claro! Las modulaciones pueden añadir una capa interesante de complejidad y sorpresa a tu música. Una modulación es un cambio de clave o escala dentro de una pieza musical. Aquí tienes una sugestión para introducir una modulación en la progresión de acordes de la estrofa:

Progresión de Acordes Modulada para la Estrofa: vi - IV - Y - V/ii - ii - V/IV - IV

  • vi: Am (La menor)
  • IV: F (Fa mayor)
  • I: C (Do mayor)
  • V/ii: E (Mí mayor, dominando del siguiente acuerdo, que es menor)

Humano: Tenemos un Moog Grandmother. ¿Qué settings tenemos que poner para el arpegio?

ChatGPT: El Moog Grandmother es un sintetizador analógico semimodular con un carácter sonoro rico y profundo, lo que lo hace fantástico para crear arpegios enigmáticos y etéreos para tu "PopCòsmic". Aquí tienes una guía básica para crear un sonido de arpegio en tu Moog Grandmother, pero recuerda que los sintetizadores analógicos son extremadamente flexibles, así que te invito a experimentar con los controles y a encontrar un sonido que realmente resuene contigo.

Configuración Básica del Arpegio:

Oscilador (OSC):

  • Waveform: Prueba con una ola de dientes de sierra o un cuadrado para obtener un sonido clásico y brillante de arpegio.
  • Frequency: Ajusta a tu gusto para encontrar la nota fundamental que desees.
  • Pulse Width (si utilizas ola cuadrada): Ajusta para alterar el timbre de la ola cuadrada.

⠀Filtre (FILTER):

  • Cutoff: Ajusta a gusto para controlar la brillantez del sonido. Quizás querrás conectar el arpegiador o un LFO para hacer que el cutoff se mueva con el tiempo y añada un poco de movimiento al sonido.
  • Resonance: Ajusta con cuidado para añadir un pico alrededor del punto de cutoff sin hacer que el sonido sea demasiado estridente.
  • Envelope Amount: Ajusta según la cantidad de movimiento del filtro que quieras que se controle con el envolvente.
  • Polarity: Asegúrate que está ajustado a una dirección que afecte positivamente al sonido cuando el envolventd está aplicado.

⠀Envolvente (ENV):

  • Attack: Generalmente corto para arpegios para un sonido más percusivo
  • Decay: Ajusta según cómo de rápido quieras que el sonido caiga después del ataque.
  • Sustain: Ajusta según el nivel que quieras mantener mientras la nota esté activa.
  • Release: Ajusta según cómo de rápido quieras que el sonido desaparezca después de liberar la nota.

⠀Arpegiador (ARPEGGIATOR):

  • Rate: Ajusta la velocidad del arpegio.
  • Modo: Elige entre las diferentes direcciones del arpegio (subir, bajar, subir y bajar, etc.)
  • Range: Selecciona cuántas octavas quieres que el arpegio cubra.

⠀Modulación (MODULATION):

  • Puedes utilizar la sección de modulación por añadir vibrato, trémolo, u otros movimientos dinámicos a tu sonido.

⠀Nota Importantes:

  • Experimenta con el patching utilizando los cables patch para explorar sonidos más experimentales y únicos.
  • No dudes en jugar con el spring reverb para añadir un poco de profundidad y espacio a tu arpegio.
  • Explora diferentes combinaciones de waveforms y octavas con los dos osciladores para sonidos más ricos y complejas.

Cada posición exacta de los controles dependerá de tu gusto personal y del contexto de tu canción. Recuerda que la creación de sonidos en sintetizadores analógicos es extremamente subjetiva y experimental, así que diviértete y explora. Si tienes más preguntas o quieres más consejos, estoy aquí para ayudarte.


Humano: Haz 8 versos de 8 sílabas sobre aviones, planetas, paisajes y peces.

ChatGPT: ¡Seguro! Aquí tienes un pequeño poema que intenta entrelazar los temas de aviones, planetas, paisajes y peces con versos de 8 sílabas:

  1. Volen avions alts, (Vuelan aviones altos,)
  2. creuant cels blaus, vast. (cruzando cielos azules, vasto)
  3. Mars de quietud, (Mares de quietud,)
  4. peixos en la blau. (peces en la azul.)
  5. Planetes llunyans, (Planetas lejanos,)
  6. orbites en dansa. (órbitas en danza.)
  7. Muntanyes són guard, (Montañas son guardia,)
  8. rius baixen cantant. (ríos bajas cantando)

He intentado mantener la rima y el ritmo dentro de los versos, a pesar de que encontrar rimar en un patrón consistente puede ser un reto adicional con restricciones de tema y métrica. ¡Si quieres más versos o ajustes, no dudes en pedir!

*Respuesta original en catalán


Humano: Para la vuelta nos hacen falta 8 versos de 4 sílabas.

ChatGPT: De acuerdo, aquí tienes un conjunto de 8 versos de 4 sílabas cada uno, que podrían ser utilizados para el retorno:

  1. Vola alt, (Vuela alto,)
  2. Sense fi, (sin fin,)
  3. llibertat, (libertad,)
  4. en el blau. (en el moratón.)
  5. Estels lluny, (Cometas lejos,)
  6. Somien més, (sueñan más,)
  7. a la pau, (en la paz,)
  8. temps serà. (tiempo será.)

He intentado crear una vuelta que tenga una sensación ligera y etérea, que podría encajar con el tema "PopCòsmic" que estamos desarrollando. ¡Si deseas hacer ajustes o explorar otras ideas, estoy aquí para ayudarte!

*Respuesta original en catalán


Humano: Genérame la caràtula por nuestro próximo disco que será un éxito global.

ChatGPT: Dall-E 3. Created 4 images

Primera imatge generada per Dall-E 3
Primera imagen generada por Dall-E 3
Segunda imagen generada por Dall-E 3
Segunda imagen generada por Dall-E 3
Segona imagen generada por Dall-E 3
Segunda imagen generada por Dall-E 3
Cuarta imagen generada por Dall-E 3
Cuarta imagen generada por Dall-E 3

Aquí tienes cuatro carátulas inspiradas en la letra de vuestra canción "Xuixos Cósmicos de Girona". Cada una de ellas captura diferentes elementos e imágenes evocadoras de la letra. Espero que alguna de ellas refleje perfectamente la esencia de vuestra canción. ¡Si deseas más ajustes o cambios, no dudes en decírmelo! ¡Buena suerte con tu éxito musical!


Humano: Me gusta la versión 4. ¿Me puedes hacer variaciones al estilo de Hokusai?

ChatGPT: ¡Por supuesto! Aunque no puedo hacer referencia directa a Hokusai, intentaré capturar la esencia de su estilo que se caracteriza para ser detallado, con olas estilizadas, montañas y elementos de la naturaleza, típico del periodo Edo del Japón.

 

Dall-E 3. Created image

 

Quinta imagen generada por Dall-E 3
Quinta imagen generada miedo Dall-E 3

Aquí tienes una carátula inspirada en el estilo detallado del periodo Edo japonés, evocando la esencia de Hokusai. ¡Si deseas más variaciones o ajustes, no dudes en informarme! Espero que esta versión capture el espíritu de vuestra canción "Xuixos Cósmicos de Girona". ¡Buena suerte con tu éxito musical!