Czym jest text and data mining?
Współcześnie jesteśmy świadkami jednego z najbardziej intensywnych i złożonych procesów związanych z rozwojem i wykorzystanie sztucznej inteligencji. W dobie gwałtownego przyrostu informacji, umiejętność efektywnego „wydobywania” (z ang. mining) wiedzy z ogromnych zbiorów danych staje się jednym z kluczowych funkcjonalności AI. Text and data mining (TDM), czyli automatyczne analizowanie tekstów i danych w celu identyfikacji wzorców, tendencji i korelacji jest jednym
z rodzajów dozwolonego użytku na gruncie dyrektywy w sprawie praw autorskich na jednolitym rynku cyfrowym (DSM), jak i polskiej ustawy o prawie autorskim i prawach pokrewnych (pr. aut.).
TDM jest m.in. przetwarzaniem danych przez sztuczną inteligencję w celu wygenerowania nowych wytworów. W procesie „trenowania” AI dochodzi bowiem do absorpcji różnych, dostępnych materiałów (z czym łączy się ich zwielokrotnianie),
a następnie masowe przetwarzanie. Wiele z nich jest przedmiotem praw autorskich
i pokrewnych, stąd Unia Europejska dostrzegła potrzebę stworzenia nowej kategorii dozwolonego użytku, czyli pewnego rodzaju ograniczenia autorskich praw majątkowych twórców z uwagi na inne dobra takiej jak np. rozwój badań naukowych.
Ustawodawca polski dostrzegając co raz większe znaczenie dużych zbiorów danych – big data – generowanych w dotychczas niespotykanych ilościach, szybkim tempie
i pochodzących z wielorakich źródeł, oraz implementując unijną dyrektywę DSM, wprowadził do pr. aut. artykuły 262 oraz 263, które weszły w życie z dniem 20 września 2024 r.
TDM, określany w polskim prawie jako eksploracja tekstów i danych dzieli się odpowiednio na dozwolony użytek dla celów badawczych, non for profit (art. 262 pr. aut.) oraz dla innych celów (art. 263 pr. aut.).
W przypadku pierwszego z nich dozwolony użytek nie ma charakteru powszechnego – ograniczony jest do instytucji i podmiotów prowadzących działalność kulturalną
i naukową podejmowaną w interesie publicznym, a więc jest „zamknięty”. Instytucje dziedzictwa kulturalnego są zdefiniowanie w art. 6 ust. 1 pkt 21 pr. aut. Są to przede wszystkim muzea, biblioteki czy archiwa. W zakresie jednostek naukowych,
pr. aut. odsyła do regulacji z Prawa o szkolnictwie wyższym i nauce (m.in. uczelnie, federacje uczelni, instytuty naukowe i badawcze, Polska Akademia Umiejętności).
Dozwolony użytek odnosi się więc wyłącznie do badań naukowych, które nie są ukierunkowane na osiąganie zysku (rozumianego jako nadwyżka aktywów nad pasywami). Nie istnieje przy tym zakaz uzyskiwania, przy prowadzeniu badań, pewnych sum, o ile są one przeznaczane na pokrycie kosztów procesu eksploracji. Prowadzone badania mogą być ukierunkowane na pozyskanie nowej wiedzy o zjawiskach i faktach, jak i ich stosowaniu (aplikacji). Poza zakresem dozwolonego użytku przewidzianego w art. 262 pr. aut. znajdują się jednak prace rozwojowe (ukierunkowane zazwyczaj przemysłowo i produkcyjnie) oraz twórczość artystyczna.
Ustawodawca doceniając znaczenie rozwoju nauki w społeczeństwie przewidział, że dozwolony użytek przewidziany w art. 262 pr. aut. nie może zostać wyłączony – twórca czy organizacja zbiorowego zarządzenia nie mogą się sprzeciwić się eksploracji dla celów naukowych. Uprawnione podmioty muszą z kolei zachować odpowiedni stopień bezpieczeństwa, czyli określić i wdrożyć procedury użycia AI w ramach ich struktur. TDM mogą stosować upoważnione osoby takie jak: naukowcy, asystenci, laboranci itd., jak również programiści czy informatycy (kategoria „upoważnionych osób” wydaje się dość elastyczna i zmienna w zależności od charakteru jednostki kulturalnej / naukowej). Z kolei procedury uwierzytelniające nie muszą być wdrożone każdorazowe, aczkolwiek należy dobrać odpowiednie rozwiązania do konkretnych okoliczności (np. liczby osób mających dostęp do AI w danych czasie).
Możliwe jest nie tylko przejściowe i incydentalne zwielokrotnienia w ramach wykorzystywania AI, lecz również takie, które mają charakter długofalowy.
Dozwolony użytek z art. 262 pr. aut. znajduje zastosowanie do wszelkich kategorii utworów poza programami komputerowymi (zgodnie z wyłączeniem przewidzianym
w art. 77 ust. 1 pr. aut.).
Raz jeszcze warto podkreślić charakter non for profit powyższego dozwolonego użytku. Odmiennie prawodawca unijny i polski przewidział eksplorację dla innych niż naukowe celów.
Artykuł 263 pr. aut. przewiduje TDM o charakterze powszechnym, tzn. każdy może
z niego skorzystać (nie wyłączywszy jednostek uprawnionych również na mocy art. 262 pr. aut.) zarówno dla celów komercyjnych, jak i niekomercyjnych. Ma on zastosowanie do każdego rodzaju utworów zawierających tekst lub dane – w tym programów komputerowych. Nie przewidziano przy tym wymogu zastosowania szczególnych procedur czy wprowadzeniu odpowiednich zabezpieczeń. Nie ma również obowiązku niszczenia utworów zwielokrotnionych od razu po dokonaniu procesu eksploracji. Z uwagi na rozłożony w czasie proces trenowania (uczenia) AI ich gromadzenie jest zasadne i dopuszczalne tak długo, jak jest to konieczne do osiągnięcia tego celu.
Tak – wydawałoby się – liberalne podejście prawodawcy w zakresie dozwolonego użytku „dla każdego” jest jednak znacząco ograniczone poprzez stworzenie mechanizmu opt-out. Dozwolona eksploracja jest bowiem uzależniona od braku jednostronnego (negatywnego) oświadczenia woli uprawnionego (tj. podmiotu autorskich praw majątkowych lub majątkowych praw pokrewnych). W ramach przyjętej konstrukcji np. autor czy wydawca może „gospodarować” dozwolonym użytkiem, czyli np. go definitywnie wyłączyć spod zastosowania (w tym również następczo odwołać takie wyłączenie). Tak wyrażone stanowisko nie może być „złożone” w sposób dorozumiany – istnieje wymóg wyraźnego (niewątpliwego, jednoznacznego) sformułowania sprzeciwu. Nie wymaga ono jednak „przyjęcia”, aczkolwiek musi ono dotrzeć do zainteresowanych osób w odpowiedni sposób. Wymóg „odpowiedniości” łączy się z kolei z samym sposobem rozpowszechniania utworu (jeżeli np. publikacja książkowa została wydana drukiem papierowym, to powinna posiadać adnotację
w takiej wersji). W przypadku utworów rozpowszechnionych w Internecie, ustawodawca przewidział wymóg formatu przeznaczonego do odczytu maszynowego. Art. 263 pr. aut. odsyła do przepisów ustawy o otwartych danych i ponownym wykorzystywaniu informacji sektora publicznego. Zastrzeżenie opt-out może się więc znaleźć przede wszystkim w metadanych, plikach typu robots.txt.
Podsumowując, należy pamiętać, że bez formalnego zastrzeżenia generatywna sztuczna inteligencja może, zgodnie z obowiązującymi regulacjami, korzystać
z utworów dla celów komercyjnych bez uiszczania jakichkolwiek wynagrodzenia z tego tytułu. Oznacza to, że w celu zapewnienia ochrony interesów twórców (czyli przede wszystkim doprowadzenia do zawarcia umów licencyjnych) koniecznym jest skorzystania z opcji opt-out.





