Explicar la IA cantant

26 d'Octubre de 2023
Act. 20 de Novembre de 2023
Josep Maria Ganyet | VIA Empresa

La irrupció de la IA generativa ens fascina i alhora ens preocupa. Avui qualsevol persona que sàpiga enviar un WhasApp pot generar textos que semblen escrits per un redactor o imatges que semblen fetes per un il·lustrador. I música? Pot el famós ChatGPT “crear” música? La resposta curta és no. La llarga és fascinant. Tirem quatre o cinc mesos enrere.

Cada any al novembre se celebra la Catosfera, la trobada de la internet catalana. Va començar l’any 2008 a Granollers amb la voluntat de que els que fèiem coses a la xarxa ens poséssim cara. Un dels assidus era un xicot que es deia Carles Puigdemont que un cop va ser alcalde de Girona va acollir-la a la ciutat a partir del 2015. Al principi tenia gràcia trobar-nos tots, conèixer-nos i fer (encara més) xarxa. Amb els anys ja ens coneixem tots i internet s’ha fet gran en tots els sentits. La trobada ha mutat a unes jornades temàtiques orientades a la comunicació i la xarxa, tot i que no han perdut el seu esperit original de comunitat.

L’edició d’enguany de la Catosfera anava, com no podia ser d’altra manera, d’intel·ligència artificial i em van convidar a participar-hi. L’organització em va encarregar parlar sobre l’impacte de la IA generativa en la creativitat i els drets d’autor. Xerrada? Taula rodona? Debat? Pica-pica? Se’ns va acudir fer una sessió de creació en directe amb IA: crearíem un tema musical amb l’ajut del ChatGPT i amb la participació del públic. Observeu que dic “amb l’ajut” i no “que el ChatGPT” crearia un tema musical. La distinció és fonamental. 

A l’escenari jo guiaria el ChatGPT, portaria els meus sintetitzadors analògics, hi posaria l’ordinador i els minvats coneixements de producció musical i m’encarregaria d’explicar tots els conceptes d’IA a l’audiència a l’ensems que creava un tema musical. Però faltava la intel·ligència natural, en aquest cas musical; faltava una variable de l’equació: el músic. Havia fet algun exercici de generació de música amb ChatGPT, però per molt satisfactori que em semblés jo no tinc l’auctoritas necessària a l’hora de validar un tema musical. Mazoni al rescat.

En Jaume Pla de Mazoni és un dels músics més rellevants del nostre país amb una autoritas que es mesura en més de 20 anys, 11 àlbums i 110 temes enregistrats. No cal dir que com a fan de Mazoni m’il·lusionava treballar amb ell en el projecte però tot depenia que volgués participar-hi. Havia anat a concerts seus però no ens coneguéssim personalment, però ens havíem intercanviat missatges privats per Twitter sobre IA, creativitat i música i em vaig animar a proposar-l’hi. Em va dir que sí de seguida, però encara quedaven tres filtres per passar: 1) el filtre “kill your idol”, 2) el filtre luddita i 3) el filtre “cotorra estocàstica”. Som-hi.

El filtre “Kill your idol”

La frase la portava a la samarreta Jon Bon Jovi als 90 amb la cara de Nostre Senyor. Crec que és prou autoexplicativa. Fa referència al risc que hi ha de conèixer algú que admires de qui només en coneixes la seva personalitat pública. Pot ser un gran actor, cantant, escriptor, poeta o pintor, però una pèssima persona. Allò de separar l’autor de l’obra que en el cas del Loquillo costa tant. El Guille Milkyway de La Casa Azul em va explicar que en una edició del festival de Benicàssim va coincidir al backstage amb Lou Reed, un dels seus ídols de tota vida. Ell i la seva dona el van saludar molt educadament sense mirar d’importunar-lo al que el novaiorquès va reaccionar amb una mala educació extrema. Sovint és millor no conèixer els teus ídols. No és el cas de Mazoni.

"Pot ser un gran actor, cantant, escriptor, poeta o pintor, però una pèssima persona"

El filtre luddita

Amb l’ídol viu hi havia un segon filtre encara més complex. I si l’artista percebia que la IA havia arribat per substituir-lo? I si a partir d’ara tot era pitjar un botó i la creació de la màquina superava a la humana? Ens vam trobar, ens vam posar a fer proves —a fer un diàleg socràtic amb el ChatGPT— i tot va anar rodat. La curiositat d’un i altre —ignoràvem si en trauríem res en positiu— i les ganes d’explorar per a fer alguna cosa nova van eclipsar tota ombra de luddisme. Prova superada.

El filtre de la “cotorra estocàstica”

Superats els dos primers hi havia el risc que no arribéssim enlloc. La lingüista computacional Emily Bender va titllar els sistemes basats en aprenentatge màquina com el ChatGPT com a “cotorres estocàstiques”, una mena de lloros probabilístics que, com els seus anàlegs biològics, només saben repetir allò que han sentit.

Emily Bender va titllar els sistemes basats en aprenentatge màquina com el ChatGPT com a “cotorres estocàstiques”

Té lògica: si aquests sistemes han “après” de tot el que han “llegit” a internet el que faran és generar les combinacions de paraules que tenen més probabilitat d’aparèixer juntes; seguirà les normes però mai no les trencarà. Com els lloros que emeten sons que nosaltres interpretem com a paraules, els sistemes d’IA generativa generen contingut al que nosaltres donem sentit. De fet no tenen cap coneixement del món, només del llenguatge: no “saben” què vol dir “saber”, per tant, no “saben” que no “saben” (és per això que no “callen” mai, ni quan no tenen una resposta correcta).

Tampoc no va ser el cas. De seguida li vam trobar les costures al ChatGPT. Quan li vam demanar un ritme pel nostre tema musical ens el va donar molt bàsic i va ser el músic qui l’anava guiant vers la complexitat, la sorpresa, la tensió musical o les modulacions. La tònica es va repetir amb la progressió d’acords, la línia de baix i els arpegis. Això ens va animar perquè quedava molt clara la col·laboració entre ChatGPT i l’humà, que un no substituïa l’altre, que el diàleg era constructiu i quedaven clars els rols de cadascun; no era l’un vers l’altre sinó que cadascú feia la seva feina: el músic estableix objectius i valida, la IA genera i proposa (observeu que no dic crea).

"El músic estableix objectius i valida, la IA genera i proposa"

Passat el tercer filtre, vam ser feliços.

L’actuació

El single

El diàleg

Per si voleu aprofundir us deixo algunes de les interaccions més rellevants amb el ChatGPT. Les incorreccions gramaticals són de l’original.

Humà: Bon dia, imagina't que ets un músic, i que vols fer un tema musical d'un estil que no existeix. Em podries crear un nou estil musical de música pop?

ChatGPT: Nom de l'estil: PopCòsmic

Concepte:

El PopCòsmic barreja elements de música pop amb sons inspirats en l'univers, la ciència ficció i els fenòmens astronòmics, creant una experiència musical que transporta l'oient a través de l'espai i el temps.

Elements clau:

  • Sons Espacials:
    • Ullada als sons que recorden a l'espai, com ara ones sintetitzadores etèries, reverberacions còsmiques i efectes de so de nau espacial.
    • Podrien incloure sons reals de l'espai, com ara els sons electromagnètics capturats per sondes espacials.
  • Estructura Pop:
    • Conservar l'estructura bàsica de la música pop: vers, estribillo, vers, estribillo, pont, estribillo.
    • Les melodies haurien de ser enganxoses i les harmonies agradables per a una àmplia audiència.
  • Lletra Inspiradora:
    • Lletra amb temes centrats en l'exploració, la curiositat, el misteri i la bellesa de l'univers.
    • Podria incloure referències a l'astronomia, les teories científiques i la ciència ficció.
  • Visuals Espectaculars:
    • L'aspecte visual del PopCòsmic podria incloure vídeos musicals i espectacles en directe amb imatges de l'espai, efectes de llum que imiten estrelles i planetes, i vestuari inspirat en l'astronauta o en la ciència ficció.
    • Potser incloure elements de realitat augmentada o virtual per augmentar l'experiència en directe.
  • Instruments i Producció:
    • Ullada als sintetitzadors, les màquines de ritme i altres elements de la música electrònica.
    • També podrien incloure instruments més tradicionals, com ara guitarra, baix i bateria, per mantenir l'arrel pop.
    • La producció hauria de destacar-se per la seva netedat i per la fusió entre els elements electrònics i els acústics.
  • Col·laboracions Interdisciplinàries:
    • Podria col·laborar amb científics i investigadors per incloure dades i sons autèntics relacionats amb l'espai.
    • També podria implicar artistes visuals, dissenyadors de llum i programadors per crear una experiència immersiva.
  • Estil Vocal:
    • Les veus podrien ser manipulades per afegir un to més eteri o futurista, mitjançant l'ús d'autotune, harmonitzadores o vocoders.
    • També es podria experimentar amb tècniques vocals diferents, com ara el cant diphonic, per aportar una dimensió diferent al so.

Humà: Pots escriure el ritme en una partitura?

ChatGPT: Certament! Anem a escriure una partitura bàsica amb el ritme que hem discutit.

Partitura de Bateria Bàsica

Estem treballant amb un compàs de 4/4, així que tindrem 4 temps en cada mesura.

  • Bombo (Kick): Representat amb una nota a l'espai inferior del pentagrama.
  • Caixa (Snare): Representat amb una x al centre del pentagrama.
  • Hi-hat: Representat amb una x a l'espai superior del pentagrama.

Compàs 1:    | 1   +   2   +   3   +   4   + |

Bombo:       | X       X       X       X     |

Caixa:       |     X       X       X       X |

Hi-hat:      | X   X   X   X   X   X   X   X |


Humà: El pots fer una mica complexe, amb més subdivisions?

ChatGPT: Clar! Podem fer el ritme una mica més complex afegint més subdivisions, com ara semicorxeres (subdividint cada corxera en dues parts). Això ens dóna 16 subdivisions per compàs.

Partitura de Bateria Més Complexa

Compàs 1:    | 1 e + a 2 e + a 3 e + a 4 e + a |

Bombo:       | X       X   X   X       X       |

Caixa:       |     X       X       X       X   |

Hi-hat:      | X X X X X X X X X X X X X X X X |


Humà: D’acord ho hem baixat a 80 bpm. Continuem amb els acords. Quina progressió ens suggereixes per l'estrofa?

ChatGPT: Una progressió d'acords clàssica i accessible és sovint una gran elecció per a l'estrofa d'una cançó pop. A continuació es presenta una progressió d'acords que podríem utilitzar, juntament amb una explicació breu:

Progressió d'Acords per a l'Estrofa: vi - IV - I - V

Aquesta progressió d'acords és popular en molts gèneres perquè és melòdica i emotiva, però també bastant neutral, el que la fa perfecta per a una estrofa. La progressió és:

  • vi: El sext acord menor de l'escala.
  • IV: El quart acord major de l'escala.
  • I: El primer acord major (o tònica) de l'escala.
  • V: El cinquè acord major de l'escala.

Humà: M’agrada però ho trobo massa simple. Hi pots posar alguna modulació?

ChatGPT: Clar! Les modulacions poden afegir una capa interessant de complexitat i sorpresa a la teva música. Una modulació és un canvi de clau o escala dins d'una peça musical. Aquí tens una suggestió per introduir una modulació en la progressió d'acords de l'estrofa:

Progressió d'Acords Modulada per a l'Estrofa: vi - IV - I - V/ii - ii - V/IV - IV

  • vi: Am (La menor)
  • IV: F (Fa major)
  • I: C (Do major)
  • V/ii: E (Mi major, dominant del següent acord, que és menor)

Humà: Tenim un Moog Grandmother. Quins settings hem de posar per l'arpegi?

ChatGPT: El Moog Grandmother és un sintetitzador analògic semi-modular amb un caràcter sonor ric i profund, el que el fa fantàstic per crear arpegis enigmàtics i etèries per al teu "PopCòsmic". Aquí tens una guia bàsica per a crear un so d'arpegi en el teu Moog Grandmother, però recorda que els sintetitzadors analògics són extremadament flexibles, així que et convido a experimentar amb els controls i a trobar un so que realment ressoni amb tu!

Configuració Bàsica de l'Arpegi:

Oscil·lador (OSC):

  • Waveform: Prova amb una ona de dents de serra o un quadrat per obtenir un so clàssic i brillant d'arpegi.
  • Frequency: Ajusta al teu gust per trobar la nota fonamental que desitgis.
  • Pulse Width (si utilitzes ona quadrada): Ajusta per alterar el timbre de l'ona quadrada.

⠀Filtre (FILTER):

  • Cutoff: Ajusta a gust per controlar la brillantor del so. Potser voldràs connectar l'arpegiador o un LFO per fer que el cutoff es mogui amb el temps i afegeixi una mica de moviment al so.
  • Resonance: Ajusta amb cura per afegir un pic al voltant del punt de cutoff sense fer que el so sigui massa estrident.
  • Envelope Amount: Ajusta segons la quantitat de moviment del filtre que vulguis que es controli amb l'envolvent.
  • Polarity: Assegura't que està ajustat a una direcció que afecti positivament al so quan l'envolvent és aplicat.

⠀Envolvent (ENV):

  • Attack: Generalment curt per a arpegis per a un so més percussiu.
  • Decay: Ajusta segons com de ràpid vulguis que el so caigui després de l'atac.
  • Sustain: Ajusta segons el nivell que vulguis mantenir mentre la nota estigui activa.
  • Release: Ajusta segons com de ràpid vulguis que el so desaparegui després de alliberar la nota.

⠀Arpegiador (ARPEGGIATOR):

  • Rate: Ajusta la velocitat de l'arpegi.
  • Mode: Tria entre les diferents direccions de l'arpegi (pujar, baixar, pujar i baixar, etc.)
  • Range: Selecciona quants octaves vols que l'arpegi cobreixi.

⠀Modulació (MODULATION):

  • Pots utilitzar la secció de modulació per afegexir vibrato, trèmolo, o altres moviments dinàmics al teu so.

⠀Nota Importants:

  • Experimenta amb el patching utilitzant els cables patch per explorar sons més experimentals i únics.
  • No dubtis a jugar amb el spring reverb per afegir una mica de profunditat i espai al teu arpegi.
  • Explora diferents combinacions de waveforms i octaves amb els dos oscil·ladors per a sons més rics i complexes.

Cada posició exacta dels controls dependrà del teu gust personal i del context de la teva cançó. Recorda que la creació de sons en sintetitzadors analògics és extremament subjectiva i experimental, així que diverteix-te i explora! Si tens més preguntes o vols més consells, estic aquí per ajudar-te!


Humà: Fes 8 versos de 8 síl·labes sobre avions, planetes, paisatges i peixos.

ChatGPT: Segur! Aquí tens un petit poema que intenta entrelligar els temes d'avions, planetes, paisatges i peixos amb versos de 8 síl·labes.

  1. Volen avions alts,
  2. creuant cels blaus, vast.
  3. Mars de quietud,
  4. peixos en la blau.
  5. Planetes llunyans,
  6. òrbites en dansa.
  7. Muntanyes són guard,
  8. rius baixen cantant.

He intentat mantenir la rima i el ritme dins dels versos, tot i que trobar rimar en un patró consistent pot ser un repte addicional amb restriccions de tema i mètrica. Si vols més versos o ajustaments, no dubtis a demanar!


Humà: Per la tornada ens calen 8 versos de 4 síl·labes.

ChatGPT: D’acord, aquí tens un conjunt de 8 versos de 4 síl·labes cadascun, que podrien ser utilitzats per a la tornada:

  1. Vola alt,
  2. sense fi,
  3. llibertat,
  4. en el blau.
  5. Estels lluny,
  6. somien més,
  7. en la pau,
  8. temps serà.

He intentat crear una tornada que tingui una sensació lleugera i etèria, que podria encaixar amb el tema "PopCòsmic" que estem desenvolupant. Si desitges fer ajustaments o explorar altres idees, estic aquí per ajudar-te!


Humà: Genera’m la caràtula pel nostre proper disc que serà un èxit global.

ChatGPT: Dall-E 3. Created 4 images

Primera imatge generada per Dall-E 3
Primera imagen generada por Dall-E 3
Segunda imagen generada por Dall-E 3
Segunda imagen generada por Dall-E 3
Segona imagen generada por Dall-E 3
Segona imagen generada por Dall-E 3
Cuarta imagen generada por Dall-E 3
Cuarta imagen generada por Dall-E 3

Aquí tens quatre caràtules inspirades en la lletra de la vostra cançó "Xuixos Còsmics de Girona". Cadascuna d'elles captura diferents elements i imatges evocadores de la lletra. Espero que alguna d'elles reflecteixi perfectament l'essència de la vostra cançó. Si desitges més ajustos o canvis, no dubtis a dir-m'ho! ¡Bona sort amb el teu èxit musical!


Humà: M’agrada la versió 4. Me'n pots fer variacions a l'estil de Hokusai?

ChatGPT: Per descomptat! Encara que no puc fer referència directa a Hokusai, intentaré capturar l'essència del seu estil que es caracteritza per ser detallat, amb onades estilitzades, muntanyes i elements de la natura, típic del període Edo del Japó.

Dall-E 3. Created image

Quinta imagen generada por Dall-E 3
Quinta imagen generada por Dall-E 3

Aquí tens una caràtula inspirada en l'estil detallat del període Edo japonès, evocant l'essència de Hokusai. Si desitges més variacions o ajustos, no dubtis a informar-me! Espero que aquesta versió capturi l'esperit de la vostra cançó "Xuixos Còsmics de Girona". ¡Bona sort amb el teu èxit musical!