Sztuczna inteligencja, prawa autorskie i Quentin Tarantino

Ponieważ jak większość ludzi lubię piosenki, które już znam postanowiłem odświeżyć sobie ostatni (na dzień pisania notki) film Quentina Tarantino "Pewnego razu w Hollywood". "Lektura" ta skłoniła mnie do zastanowienia się nad cienką granicą, która oddziela inspirację od plagiatu w dobie AI / SI, czyli po polsku sztucznej inteligencji.

Nie chcę tutaj roztrząsać samego tematu rzekomej czy prawdziwej inteligencji zaklętej w waflach krzemowych. Chciałbym raczej pochylić się nad (niezbywalnym) w warunkach polskiego i (zdaje się unijno-europejskiego) prawodawstwa prawem, a mianowicie prawem do bycia nazywanym autorem dzieła, czyli prawem autorskim.

Co Quentin Tarantino ma wspólnego ze sztuczną inteligencją?

Tarantino znany jest z ogromnej wiedzy o filmach, nawet tych najbardziej niszowych. Wszystko to wzięło się z jego młodzieńczych zainteresowań - oglądał wszystko jak leciało. Jego pasja na pograniczu obsesji pomogła mu zdobyć pracę wypożyczalni kaset VHS (dla młodszych czytelników - to taki popularny w latach 70-90 XX stulecia nośnik danych, wykorzystywany w powszechnym użyciu jako medium dla filmów). Praca w wypożyczalni i morze pochłoniętych filmów stały się fundamentem jego późniejszych sukcesów jako scenarzysty i reżysera. W większości jego obrazów (jeśli nie we wszystkich) można znaleźć liczne nawiązania do dzieł z różnych epok kina.

Tarantino, podobnie jak niezliczeni ludzie przed nim, tworzył sztukę w wyniku tego, jak jego mózg przetwarzał podawane mu dane. Jak łączył kropki, które jego mózg odnajdywał w nieprzebranym uniwersum X muzy. Dane to rzeczy, których nauczył się i których doświadczył w ciągu życia. Co widział, kogo spotkał, na jakie inne dzieła sztuki się natknął.

Wytwory wyobraźni Tarantino, pomimo tych wszystkich obejrzanych filmów, przyswojonych wielu tekstów i innych dóbr kultury, mają jego nazwisko jako autora (reżysera, czy scenarzysty, czasem aktora).

A teraz przyjrzyjmy się jak ma się do tego sztuczna inteligencja. Załóżmy przez chwilę, że możemy nakarmić SI mnóstwem danych, tj. pokazać jej Kaplicę Sykstyńską, filmy braci Marx i zachowania wielu ludzi, aby przeanalizować, jak wyglądają, co noszą, jak chodzą, mówią, jak robią naczynia, czy wykuwają samurajskie miecze. Po całym tym treningu czy nauce nasza SI generuje film.

Na potrzeby artykułu przyjmijmy jeszcze jedno założenie - nie tylko nasz wygenerowany film da się oglądać, ale stanie się on wirusowym sukcesem na YouTube z milionami (miliardami?) wyświetleń.

Teraz więc czas zająć jak to mówią w krajach anglojęzycznych słoniem w pokoju, czyli niechętnie poruszanym problemem, którego wszyscy są świadomi:

Kto jest autorem / twórcą takiego filmu?

I bardziej praktyczna kwestia: kto ma prawa autorskie (zarówno osobiste jak i majątkowe)?

Dość łatwo jest powiedzieć, kto otrzymuje wyróżnienia za samą stworzenie samego modelu SI - ludzie, którzy stworzyli ten model i go wytrenowali. Ale czy mają oni również prawo domagać się autorstwa samego filmu?

Czy są tam jacyś "aktorzy", czy tylko wygenerowane twarze i ciała, które nie istnieją jak w przypadku projektu https://thispersondoesnotexist.com, gdzie AI generuje twarze ludzi, którzy nie istnieją jako istoty ludzkie?

Czy film wygenerowany przez AI jest po prostu inspirowany prawdziwymi wydarzeniami i ludźmi, jak w wielu historiach opowiadanych w Hollywood, ale "All characters appearing in this work are fictious" / "Wszelkie podobieństwo do prawdziwych osób, żyjących lub zmarłych, jest czysto przypadkowe"?

A może ten film jest formą plagiatu? Wiele jego części będzie miało swoje źródło w danych, którymi karmiliśmy SI. Może jest to jakiś rodzaj "dzieła pochodnego" w rozumieniu prawa autorskiego?

Jak się temu przyjrzeć, to jedyna różnica, jaka występuje pomiędzy Tarantino, a taką SI to fakt, że przypadku reżysera "Pulp Fiction", czy "Wściekłych psów" ich autor jest człowiekiem i postacie w jego obrazach są kreowane przez ludzi z krwi i kości.

Przyszłość jest teraz "stary człowieku" - problem praw autorskich mamy już dzisiaj w GPT-3/ChatGPT

OK, przyznaję - pierwsza część tego tekstu była jakiś czas temu opublikowana na znanym portalu z CVkami. Było to jeszcze przed niedawnym wypuszczeniem na świat najnowszego modelu ze stajni OpenAI, czyli GPT-3.

GPT-3, czyli Generative Pre-trained Transformer 3 to model językowy, który wykorzystuje głębokie uczenie do tworzenia tekstu podobnego do ludzkiego. Model pobiera wsad od użytkownika w postaci np. jednozdaniowej instrukcji, po czym wygeneruje tekst, który będzie kontynuował / rozwijał monit.

GPT-3 i jego konwersacyjny interfejs w postaci czatu - https://chat.openai.com/ zrobiły furorę w ostatnich miesiącach 2022 roku. Ludzie wykorzystują to narzędzie w przeróżnych, najdziwniejszych zastosowaniach:

  • generują kod źródłowy prostych programów komputerowych
  • piszą wiersze
  • generują wsad do prac naukowych
  • używają czatu jako alternatywy dla wyszukiwarki Google zadając i otrzymując odpowiedzi na pytania
  • tworzą ikony w SVG (tekstowej formie zapisu obrazów)
  • piszą nowe części szekspirowskich dramatów w języku staroangielskim

Zastosowań jest multum, ludzie wpadają w ekstazę, czasami może nadmierną, bo ChatGPT bardzo ładnie i przekonywująco potrafi sprzedać wierutną bzdurę (np. zapytane o to ile czasu zajmie 8 samochodom pokonanie odcinka drogi, jeśli czterem samochodom zajmuje to 2 godziny odpowiada, że 16 godzin i wyprowadza do tego wzory).

Oprócz tego, że na dzisiaj GPT dla wielu zastosowań nie będzie dobrym zamiennikiem dla pracy ludzkiej - jak na powyższym przykładzie - bez wiedzy nazwijmy ją umownie ekspercką, ciężko zweryfikować, czy GPT generuje coś sensownego czy bzdury, to mamy uważam poważniejszy problem, mianowicie jakie źródła były wykorzystane, by wytrenować ten model? I co z prawidłowym uznaniem praw autorskich do tych źródeł. O ile o Szekspira czepiać się nie będę, bo ogólnoświatowo mamy zdaje się zgodę, że jest to już domena publiczna, o tyle sporo treści odnośnie współczesnych zagadnień będzie generowane na podstawie wsadu, który wytworzyli ludzie.

OpenAI miało być w założeniu organizacją tworzącą otwarte rozwiązania z dziedziny sztucznej inteligencji. Ale niedawno Elon Musk, jeden z fundatorów tej organizacji / fundacji zapowiedział zaprzestanie "karmienia" modeli OpenAI danymi z Twittera, bo rzeczy, które wypuszcza fundacja już dawno nie są ani otwarte, ani darmowe (OpenAI ma w swojej ofercie płatne API, a modelu GPT-3 jak i innych nie chce wypuścić, bo jak to stwierdzili - "może być zbyt potężnym narzędziem w rękach osób o złym usposobieniu").

GPT-3 ma też braci / siostry (jak określić "pokrewieństwo" w przypadku algorytmów??) bardziej specjalizowanych. Przykładem jest narzędzie CoPilot od Github'a (właścicielem obecnie jest Microsoft), który pomaga programistom szybciej pisać kod źródłowy programów. To rozwiązanie i jego organizacja macierzysta już mierzą się z pozwem od grupy programistów publikujących swoje rozwiązania na licencjach open-source (darmowych, z uznaniem autorstwa i ew. innymi obostrzeniami narzucającymi publikowanie na tych samych zasadach dzieł pochodnych). Powodem pozwu było to, że CoPilot odpowiednio "podpuszczony" inicjalnym wsadem (początek funkcji, klasy, etc.) wygenerował kod kropka w kropkę przepisany z tych właśnie darmowych bibliotek.

Podsumowanie

Do czego to wszystko zmierza? W kwestii ew. zastąpienia ludzi przez maszyny będę jeszcze się wypowiadał w osobnej notce. W kwestii praw autorskich wydaje się, że albo szybko (he,he) jako ludzie (państwa, czy szerzej np. na poziomie UE) zareagujemy na tę dziurę w regulacjach, albo będziemy zmuszeni jako twórcy bardziej ograniczać dostęp do swoich dzieł, niezależnie czym one będą, by chronić się przed ich nieuprawnionym wykorzystaniem.


A może jeszcze jeden?