Muzyk-robot? Jaka przyszłość czeka muzyków?

Pandemiczne ograniczenia odsunęły w czasie ekscytujące wydarzenie muzyczne. Pod patronatem Deutsche Telekom zgodny team muzykologów, muzyków i sztucznej inteligencji napisał (na podstawie szkicowych notatek) X symfonię Beethovena, którą w tych dniach miała wykonać orkiestra z Bonn.

Co się odwlecze, to nie uciecze. Czekamy i spodziewamy się wiele. Kompozytor Paweł Mykietyn, z którym rozmawiałem ostatnio o komputerowej przyszłości muzyki, nie gorszy się tym ani trochę. Sam komponuje kwartety z niejaką pomocą programów komputerowych i tylko czeka na sztucznego dyrygenta. Czy dyrygent-robot będzie umiał tak wymownie patrzeć na swoich muzyków, jak ci z krwi i kości?

A jednak co nieco boimy się zalewu sztucznie tworzonej przez algorytmy komputerowe muzyki. Owszem, będzie piękna i nikt nie będzie jej odróżniał od „ludzkiej”. Ale i tak będziemy szukać tej napisanej przez człowieka. Bo w muzyce chodzi nie tylko o formy, które mogą się zmieniać i „upłynniać”, ani nawet nie o błysk geniuszu, który zjawia się rzadko (a maszynom może przychodzić łatwiej…), lecz o ludzkie obcowanie bez słów. Patrzę w przyszłość z optymizmem. Nie boję się automatów produkujących co minutę kolejne symfonie „Beethovena”. Niech sobie produkują. Jestem nawet pewien, że tak będzie, ale godzę się na to. Nie boję się też robotów grających na scenie. Wręcz przeciwnie – fascynuje mnie ta wizja. Jednak to nie przelewki. Najwyższy czas, aby na poważnie zastanowić się, w jaki sposób nowe technologie zmienią muzykę i przedefiniują zawody muzyczne.

Gdy przed 13 laty Toyota zaprezentowała publiczności sympatycznego humanoidalnego robota grającego na skrzypcach, wszyscy byli zachwyceni i szczęśliwi z dwóch powodów. Po pierwsze, zabawka była rozkoszna, a po drugie, rzępoliła tak przeraźliwie, że wszyscy mogli ze spokojem pokiwać głowami, mówiąc sobie, że żywego człowieka z jego kunsztem i wrażliwością nigdy żadna maszyna nie zdoła zastąpić. Czyżby?

W wielu dziedzinach sztuczna inteligencja, to jest głęboko uczące się algorytmy, zdała już „test Turinga”, czyli stała się w swych wytworach nieodróżnialna dla ludzkiego interlokutora od żywego człowieka. Ba, wiele algorytmów daje się odróżnić po tym, że działają bardziej kompetentnie niż człowiek. Robot-skrzypek sprzed trzynastu lat jest zabawką, lecz jego odpowiednik za kolejne trzynaście lat może być „wielkim artystą”, który grając zza zasłony będzie wprawiał publiczność w nieopisany zachwyt. Podobnie z lekarzami. Dziś profesorowie medycyny mogą się pocieszać, że programy diagnostyczne, pisane w oparciu o doświadczenia tysięcy lekarzy i najlepszą wiedzę naukową, są tylko pomocnym narzędziem, lecz nie zastąpią lekarza i jego szerokiego spojrzenia. Hmm, może dziś, w roku 2020 tak jeszcze jest (choć w rywalizacji z maszynami ludzcy lekarze-diagności już przegrywają), lecz czy za 20 lat lekarz będzie śmiał postąpić inaczej, niż wskazuje mu algorytm? Jeśli to zrobi i poniesie porażkę, pacjent będzie miał dobre powody, by go pozwać. Nie sądźcie, że opowiadam Wam bajkę o żelaznym wilku. To jest problem żywo dziś dyskutowany w bioetyce.

Ale wracając do sztucznego skrzypka. To już nie jest zabawa. Trwają prace naukowo-techniczne nad jego stworzeniem. Rzućcie okiem na przykładowy artykuł z tej dziedziny, akurat dostępny w całości w pdf.

Mróz po plecach? No więc tak… Zróbcie sobie research w sieci albo uwierzcie na słowo. Akustyka matematyczna spotkała się dziś z możliwościami technologicznymi. Warunki brzegowe analizy muzyki (analiza muzyczna – o co w niej chodzi) w jej zastosowaniach do elektronicznego wytwarzania dźwięków wyznaczone są przez warunki techniczne syntezatora oraz graniczne możliwości rozróżniania i określania wysokości dźwięków przez ucho ludzkie (tzw. słuch absolutny). Otóż dzisiaj możliwości analizy i syntezy dźwięków wykraczają poza granice ludzkiego słuchu (w aspektach częstotliwości, nasilenia dźwięku i barwy). Inaczej mówiąc, można sfingować dowolny dźwięk na podstawie analizy dźwięku z natury bądź zdefiniowanego matematycznie (nie mówiąc już o zapisie nutowym, z podaniem instrumentu). Jeśli maszyna ma być testowana przez osobę o słuchu absolutnym (mającą za zadanie odróżnić nagranie instrumentu od dźwięku generowanego), to jest to kosztowne i trudne, ale już działa. W niedalekiej przyszłości będzie czymś ogólnodostępnym, przynajmniej dla profesjonalistów. Nikt nie będzie umiał odróżnić nagrania od syntezy. I nie chodzi bynajmniej o perfekcję intonacji – drobne nierówności i wahania dźwięku w żywej grze też będą skutecznie fingowane.

No dobrze, możemy dziś syntezować muzykę oraz imitować elektronicznie nagrania już istniejące. I co z tego? Przecież nagrania już są, więc po co je imitować? Otóż to z tego, że umiejętność „totalnej” (to jest spełniającej warunki brzegowe dokładności) analizy i syntezy dźwięków jest warunkiem niezbędnym do osiągnięcia dalszych celów. Jakie to cele?

Pierwszy cel, to tworzenie nowych interpretacji dzieł muzycznych za pomocą programów komputerowych, bez użycia instrumentów, a jedynie programów do syntezy i modelowania dźwięków. Jest to możliwe oczywiście i współcześnie (podstawowe informacje), lecz chodzi o to, że w niedalekiej przyszłości praca muzyka (kompozytora) elektronicznego może się dzięki perfekcji narzędzi technicznych zrównać z pracą instrumentalisty. Inaczej mówiąc, skrzypek będzie sobie grał na skrzypcach niejako pomocniczo, pracując nad swoją interpretacją w programie, a kompozytor muzyki elektronicznej będzie mógł śmiało odwoływać się do dźwięków skrzypiec, jeśli będzie miał chęć. To jest być może kwestia kilkunastu lat. Do pokonania są bariery interfejsu (programy akustyczne, podobnie jak graficzne, są wciąż bardzo trudne do nauczenia) oraz bariery związane z korzystaniem z biblioteki dźwięków. Bo jak nie produkujemy filmów, w których wszystkie kadry są generowane z programów graficznych, a jedynie łączymy zdjęcia z elektronicznymi efektami specjalnymi, tak również poważne komponowanie i interpretowanie muzyki symfonicznej z istotnym ograniczeniem żywej gry na instrumentach wymagać będzie wykorzystania nagrań studyjnych, czyli – w praktyce – biblioteki dźwięków i nagrań. To poważna bariera prawna, lecz jak najbardziej do pokonania. W końcu biblioteki audio już istnieją.

Wyobraźmy sobie, że znaleźliśmy się już w świecie, w którym kompozytor i wykonawca uprawiają swoją sztukę za pomocą programów komputerowych, a instrumenty potrzebne są im do „szybkiego sprawdzenia”, technicznego „podgrywania” oraz studyjnych „dogrywek”. Wiadomo już (w tym nowym świecie), że publikowane nagrania są generalnie syntetyczne, a nawet jeśli ktoś coś tam nagrywa w studiu, to obróbka komputerowa nagranego dźwięku nie jest już żadnym czyszczeniem czy nawet „reżyserią”, lecz po prostu i naprawdę procesem twórczym artysty. Dla słuchacza staje się czymś obojętnym, w jakim zakresie substancja dźwiękowa pochodzi z urządzeń nagrywających, w jakim z biblioteki, a w jakim z pracy na syntezatorach lub w programie do syntezy dźwięku. Liczy się efekt artystyczny i tyle. Umiejętności techniczne instrumentalisty stają się sprawą drugorzędną, a różnica między komponowaniem i wykonywaniem zaczyna się zacierać. Ba, zwykły zapis nutowy staje się czymś na tyle ogólnikowym, że stanowi zaledwie punkt wyjścia do maszynowego generowania wielu wartościowych przetworzeń utworu, a nie tylko różnych „interpretacji”. Gdy po wrzuceniu nut do systemu możemy otrzymać na wejściu tuzin przykładowych wykonań à la (tu padają nazwiska znanych dyrygentów i solistów) oraz dowolne transkrypcje na różne składy, to zaczyna się również zacierać różnica pomiędzy interpretacją utworu a komponowaniem. Co więcej, skoro będzie można korzystać ze zdefiniowanych stylów wykonawczych (np. à la Heifetz albo à la Bell), to również autorstwo finalnego „wykonania utworu” bądź „nagrania utworu” zacznie się nieco rozmywać. Muzyka stanie się pracą zbiorową w większym zakresie niż dotychczas.

No dobrze, ale co to ma wspólnego z koncertowaniem i rytuałem muzycznym? Czyż przestaniemy chodzić do filharmonii tylko dlatego, że w każdej chwili będziemy mieli dostęp do niezliczonych interpretacji i wykonań? Przecież tak jest i dzisiaj. Co to za różnica? Otóż jest różnica. Powróćmy do naszego białego robota-skrzypka od Toyoty…

Wszystkie te możliwości technologiczne, które tu opisałem (a na poziomie laboratoryjnym są to już możliwości realne), stanowią warunek, który musi spełnić technika, aby stworzyć naprawdę pięknie grającego robota. Robota grającego lepiej niż żywi muzycy, nadającego swej muzyce bardziej indywidualne piętno, mylącego się w bardziej wdzięczny i „ludzki” sposób niż ludzie…

Jednakże aby powstał taki robot, musi się rozwinąć jeszcze zupełnie inna technologia niż imitacja, synteza i transformacja dźwięków muzycznych w granicach ludzkiej wrażliwości. Musimy nauczyć się „skanować” instrumentalistę i jego instrument. Żeby sztuczny Heifetz zjawił się na scenie, w garniturze i ze skrzypcami w ręku, musi stać się wiele rzeczy. Trzeba bardzo dokładnie rozpoznać, w jaki sposób wszystkie parametry, takie jak siła nacisku smyczka i tempo jego przesuwania po strunie, sposób skracania struny (dociskania), różne sposoby smyczkowania, warianty strojenia, a także parametry strun i samych skrzypiec przekładają się na słyszalny efekt. Do pełnej analizy jeszcze daleko i podrabianie wielkich muzyków na razie nie wchodzi w grę. Jednakże w nauce i technologii „na razie” to zwykle kwestia kilkunastu lat. Na razie nie można stworzyć dziecka w sztucznej macicy, ale wkrótce to się zmieni. Trochę się zdziwimy, lecz potem przywykniemy. Do sztucznego skrzypka też.

Droga do sztucznego skrzypka prowadzi przez szczegółową komputerową analizę nagrań skrzypcowych oraz zebranie wielkiej ilości danych z czujników (mikrofonów i innych detektorów) przytwierdzonych do instrumentów oraz do ciała skrzypka. Żeby skrzypek X mógł stać się „ojcem” (lub „matką”) swojego robota (a właściwie jednego z jego programów), będzie musiał sporo pograć z czujnikami, tak aby algorytm mógł się nauczyć wszystkich szczegółów jego stylu. Wtedy będzie mógł go już samodzielnie naśladować i modyfikować dzięki swej sztucznej inteligencji, nie mówiąc już o tym, że będzie mógł ściśle odgrywać na scenie utwory wcześniej wgrane przez wykonawcę („interpretatora”) lub kompozytora. To naprawdę znacznie więcej niż puszczenie na sali wcześniej przygotowanego nagrania. Robot będzie grał na żywo i jego wykonanie będzie niepowtarzalne i jedyne, brzmiące tak, a nie inaczej w tej konkretnej sali.

Analiza i synteza to nie wszystko. Nawet skanowanie ruchów skrzypka i pracy z instrumentem nie pomoże, jeśli maszyna nie będzie tak precyzyjna, aby te wszystkie subtelne ruchy powtórzyć. Technologia już jest, bo równie subtelne są roboty chirurgiczne (w przyszłości mało kto będzie chciał być operowany przez żywego chirurga ze skalpelem w ręku…), tyle że nie jest ona opakowana w lalkę naśladująca wyglądem ludzkie ciało. Sprawa nie będzie prosta, lecz wykonalna. Jeśli nie za dziesięć lat, to za 20. W gruncie rzeczy zadecyduje popyt.

Wielcy soliści, peregrynujący przez świat z koncertu na koncert, mają tę wadę, że czasem chorują i odwołują koncerty. Poza tym są drodzy. Bardzo możliwe więc, że poważne instytucje muzyczne wyposażą się w awatary/boty oprogramowane licencjonowanymi „stylami” wielkich wykonawców/interpretatorów oraz własnymi pomysłami. Jeśli taka grająca z orkiestrą lalka ma kosztować nawet pół miliona dolarów, to z pewnością się zwróci.

Brzmi jak idiotyczna bajeczka? Otóż nie. Sztuczni soliści będą grali doskonale i z największym artyzmem, a ich instrumenty będą świetnymi imitacjami (lub ulepszeniami) tych najwspanialszych (wszak lutnictwo też nie idzie do tyłu). Będą też bardzo dobrze wyglądać na scenie. O to możemy być spokojni. Wrażenia muzyczne będą najwyższej próby, a w dodatku najbardziej różnorodne. Będą nam grali nie tylko wybitni twórcy współcześni, lecz również „ożywieni” twórcy dawno już zmarli. Ich muzyka będzie mogła być imitowana oraz inteligentnie modyfikowana, a przede wszystkim wykonywana na żywo.

Jestem prawie pewien, że za dwie, trzy dekady zobaczymy na scenach sztucznych wirtuozów. I nie będziemy narzekać, że „to nie to samo”. Bo przecież już dziś jesteśmy przyzwyczajeni do botów na infoliniach, a jutro przyzwyczaimy się do awatarów w okienku pocztowym (są ich już w świecie tysiące). Lala-muzyk – skrzypek, wiolonczelista, pianista – będzie więc dla nas czymś całkiem naturalnym. Zresztą nie ma powodu, aby na wstępie koncertu Nicoli Benedetti albo Janine Jansen wykonywanego przez jej licencjonowanego awatara (mogącego nazajutrz przeistoczyć się w Joshuę Bella lub miejscowego koncertmistrza) nie nastąpiło piękne hologramowe łączenie w czasie rzeczywistym z sędziwą wykonawczynią, która przemówi do publiczności. Dla przyszłych słuchaczy to nie będzie „nie to samo”. Wykonawca będzie mógł powiedzieć coś o swojej interpretacji dzieła, a nawet słuchać go razem z osobami obecnymi na widowni. To wszystko może być bardzo naturalne i normalne. Bo w muzyce chodzi o człowieka, prawda? Jeśli człowiek jest obecny, to maszyna jest tylko jego maszyną. Spokojni o obecność artysty nie będziemy się bać robotów.

I tylko jedno mnie w tym wszystkim niepokoi. Czy warto będzie jeszcze tak ćwiczyć godzinami przez całe lata, a właściwie przez całe życie? Sądzę, że wielcy wykonawcy będą nadal to robić, poszukując najbardziej doskonałych i najbardziej odpowiadających ich wrażliwości idei wykonawczych. Jednakże ich praca będzie płynną kontynuacją dzieła kompozytora, współtworzeniem go podobnymi (elektronicznymi) narzędziami. A w dalszej przyszłości te same techniki będą służyły do wytwarzania efektu orkiestry, choć pewnie120 lalek na estradzie nie zobaczymy… Chociaż kto wie?

Jako słuchacz nie boję się tych zmian, a nawet cieszę się, że wreszcie zaczną zacierać się różnice pomiędzy zawodami muzycznymi: kompozytorem i wykonawcą. Owszem, kunszt muzyczny przesunie się nieco z samej gry na instrumencie oraz pracy z orkiestrą (choć przecież ani jedno, ani drugie nie zniknie) w kierunku wirtuozerii w obsłudze programów akustycznych. Ale czy to źle? Zmieni się też nieco rola żywego człowieka w tworzeniu muzyki, a nawet – co tu ukrywać – zmniejszy się na rzecz maszyny. Ale czy to źle? Przecież i tak muzyk – nawet schowany nieco za kulisami – pozostanie najważniejszy. Po prostu dlatego, że jest człowiekiem, a nie maszyną. No i zmniejszy się znaczenie aktualnego zestawu instrumentów symfonicznych, bo wirtualnie będzie można tworzyć całkiem nowe. Ale – znów – czy to źle? Co to szkodzi, jeśli skrzypek będzie grał sobie w domu, lecz finalny efekt jego pracy to będą cyfrowe „nagrania” (i programy dla robotów smyczkowych), stanowiące coś pomiędzy kompozycjami i interpretacjami – na klasyczne skrzypce oraz na instrumenty wirtualnie „preparowane” ze skrzypiec? Jak dla mnie to jest OK. A dla Was?

Zapraszam do dyskusji (w komentarzach lub mailem – z możliwością zamieszczenia wybranych wypowiedzi na łamach bloga). O jej zainicjowanie poprosiłem wybitnego krytyka Marcina Majchrowskiego. Zajął stanowisko konserwatywne i humanistyczne. Oto co napisał:

Jan Hartman opisuje w swoim tekście przyszłość bliską – za lat x (może 20, może 24), która jednak różni się od obecnej sytuacji muzyki wykonywanej przez roboty (to ciągle tylko eksperymenty) stopniem zaawansowania. Jeśli myślimy o sztuce odtwórczej, czyli idealnych wykonawcach-robotach, będących połączeniem wyrafinowanego software’u z jeszcze bardziej wyrafinowanym hardwarem, tylko w kategoriach naśladownictwa (bo do tego sprowadza się „nafaszerowanie maszyn ilością danych), to o przyszłość sztuki i artyzmu homo sapiens się zupełnie nie obawiam. Nawet zakładając istnienie komputerów o 1000 razy większej mocy obliczeniowej niż dzisiejsze i możliwości korzystania ze znacznie większych baz danych – a do tego ogranicza się dzisiejsza technologia informatyczna – będzie to tylko i wyłącznie naśladownictwo i kompilowanie istniejących wzorów i zgromadzonych danych. Nic więcej. A sztuka rozpoczyna się w momencie, kiedy włącza się to „coś” – nieprzewidywalne i dla „zwykłego zjadacza chleba” niewyobrażalne. Nazywamy to „przebłyskiem geniuszu”. Wówczas możemy mówić o dziele sztuki i twórczej imaginacji, a nie naśladownictwie. Dopiero, kiedy pojawią się maszyny – powiedzmy – zbudowane przez maszyny, i te maszyny wygenerują z siebie (czy „poczują” jest tu właściwym słowem) potrzebę napisania utworu, a potem jego wykonania dla własnej przyjemności (i niczego innego), to wówczas możemy zacząć mówić o „sztuce sztucznej inteligencji”. To będzie sztuka 3.0 czy może 4.0? Nie znam się na informatycznych klasyfikacjach. Ale wówczas będzie można… no właśnie: bać się? A czego? Sztuka ludzi będzie trwała dalej. Chyba że maszyny podejmą decyzję, że ludzie zagrażają ich bytowi… Wtedy zaczną się schody. Terminator z gitarą – ciekawe…