跳到主要內容區塊
:::

創用CC授權資源投入AI訓練的法律議題

益思科技法律事務所  賴文智、廖純誼

一、前言

ChatGPT、Midjourney等生成式AI,因為貼近民眾日常生活,在跨語言的翻譯、摘要、圖像生成等領域已具有相當成熟的應用,成為當前最受矚目的人工智慧領域。但也正因為生成式AI大幅拉近人們與人工智慧的距離,除了生成式AI創作成果是否受著作權保護之外,開始有更多人在關注生成式AI預訓練的大量資料,若屬於受著作權法保護的著作,通常並未取得授權,事實上,可能也難有逐一取得授權的可能性。據報導目前美國也有許多與生成式AI訓練資料有關的著作權訴訟案件正在進行中。

然而,人工智慧的發展並非這兩年才開始。各種人工智慧的技術都需要各種資料的訓練,幾年前針對AI此類資訊科技發展對於資訊利用的需求,世界各國紛紛在立法給予某些程度的鬆綁。例如歐洲議會與理事會於2019年4月17日頒布之2019/790關於數位單一市場中的著作權和相關權利指令即針對文字與資料探勘(Text and Data Mining)的利用,擴大其例外限制至科學研究(Scientific Research)【註1】;英國於2014年即已於〈Copyright, Designs and Patents Act 1988〉第29A引入於非商業性的研究下文字與資料探勘(Text and Data Mining)的例外規定,現在更研擬要全面開放,不限於非商業目的【註2】;日本於2018年修改著作權法時,增加第30條第4項,規定除會對於著作權人之利益造成不當損害,在非為享受目的而利用的行為,得為技術的開發或是資料的分析等之利用,在必要的範圍內,以任何方式進行使用【註3】。

從以上各國的立法調整觀察,訓練AI之資料確實是棘手之問題,尤其是受著作權保護之資料。如法律未為例外規定,在未取得著作權人授權之前能否利用,只能透過個案是否符合合理使用的規定,由法院來判決,風險仍然相當高。Creative Commons(在臺灣以創用CC名義推廣),長期以開放授權的模式推動「保留部分權利」的著作流通、利用,使著作權人得以該等開放授權標示、條款,簡單、快速地分享其創作。在各種AI訓練皆需海量資料的情形,累積長達20年網路上大量採取創用CC授權的著作,能否合法使用於AI訓練,即成為社會各界亟欲了解之議題。

本文將先提出Creative Commons組織對於創用CC資源用於AI訓練之觀點,再逐一探討創用CC各項授權條件是否能適用於AI訓練,最後再以匯集臺灣文化數位著作的資料庫國家文化記憶庫(以下簡稱為「記憶庫」)為例,討論記憶庫之數位資源應如何應用於與AI的互動。記憶庫中之數位資源多以創用CC的方式公開,若能於AI領域中應用,應是相當良好之資源,值得探究。

二、Creative Commons組織之觀點

Creative Commons組織為美國著名法律學者Lawrence Lessig與其他具有相同理念之人所組成,組織的目標是追求「促進分享」,以「Some Right Reserved」之概念,提出CC授權模組,讓權利人透過簡易的授權,將作品分享給大眾。【註4】

Creative Commons組織在AI領域之觀點,也是以促進分享之概念為出發。Creative Commons組織目前非常積極參與當前各國之立法討論(例如歐盟的AI ACT),一方面肯定立法者,另一方面也監督立法,確保立法不會阻礙科技進步,例如倡議開放資料(open data)以及開源(open source),讓小的組織體也能夠發展AI,而非僅集中在大型商業經營者,Creative Commons組織認為這是能增加透明度、促進創新以及健全市場競爭之方式。【註5】【註6】

針對「能否以CC授權的著作訓練AI」議題的討論,Creative Commons組織採取較為開放的態度,認為CC授權模組在設計之時,已經有考量到因應科技發展的應用,因此只要是符合CC授權條件的利用,即使是投入於AI的訓練中,亦無不可,任何人可以在符合CC授權條件下,將CC授權的著作投入AI的訓練中。【註7】這樣的論點主要源於AI的訓練階段是屬於各該組織內部針對著作的利用,並非對外公開,故無創用CC相關條款所要求對外利用時須進行標示或非商業、改作、相同方式分享等條件限制的問題。此外,Creative Commons也對於將著作權之資料用於AI訓練是否得符合著作權之合理使用進行討論,以多方論點支持AI之發展。【註8】

然而,AI的訓練最終還是要對外利用,倘擬使用創用CC資源進行AI訓練,仍須考量後續對外利用時的風險。本文以下擬以創用CC不同的授權條件,細緻化進一步討論。

三、各項創用CC要素投入AI訓練之問題

創用CC授權模組共包含四種授權要素,分別是姓名標示(BY)、非商業性(NC)、禁止改作(ND)以及以相同方式分享(SA),再由前述四個授權要素,組成六種常用的授權方式,包括「姓名標示」(CC BY)、「姓名標示─非商業性」(CC BY-NC)、「姓名標示─非商業性─相同方式分享」(CC BY-NC-SA)、「姓名標示─禁止改作」(CC BY-ND)、「姓名標示─非商業性─禁止改作」(CC BY-NC-ND)、「姓名標示─相同方式分享」(CC BY-SA)。【註9】以下即以各項授權要素探討創用CC之資源是否適合作為AI訓練資料。

(一)姓名標示(BY)授權要素之資源

包含BY授權要素之資源,使用者必須按照著作人或是授權人指定之方式表彰其姓名,以及如使用者有對該著作進行改作時應為相關說明。在授權為CC BY之情形,使用者能夠為任何利用,包括商業使用,只要使用者有以著作人或是授權人指定的方式表彰其姓名。【同前註】而在六種常見的授權方式中,皆包含此授權要素,因此倘此授權要素用於訓練AI時無法被滿足,基本上所有創用CC資源均無法使用。

在散布或公開演播(於創用CC授權條款之定義,指以任何公開利用之方式)利用BY授權要素所產生之作品時,應依照授權條件進行姓名標示【註10】。將BY授權要素之資源投入AI訓練時,原則上姓名標示義務尚未產生,該義務將於AI訓練完成經公開利用產生。如未標示則屬違約之行為,以該資源訓練AI即屬未經授權之行為。是以,若從BY授權要素檢視將創用CC資源投入AI訓練後之利用議題,應該視不同AI的應用進行評估。

舉例而言,若屬於識別型的AI應用服務,像是識別圖像或錄影畫面中的貓、狗、物品、地形、地貌等,AI在經過訓練後,具有識別各類圖像所傳達各種資訊能力,因為對外提供服務時不需要重複使用訓練資料,也不會在服務提供時包含原始訓練資料,即無須遵守創用CC有關姓名標示之要求;但若屬於生成式AI,雖然生成式AI訓練的目的是期待AI產出與原始訓練資料不同的成果,但仍然無法排除會生成出與原始訓練資料近似的成果,此即會涉及將創用CC的著作對外公開利用,而生成式AI可能亦無法自行識別是否利用特定創用CC著作,要達成其標示姓名之要件並不容易。

目前歐盟現正規劃之《AI Act》,對於生成式AI之要求即是公開受著作權保護著作用於訓練AI之摘要資訊【註11】,某種程度上即屬於表彰該等訓練資料貢獻的方法。惟若依照現行BY授權要素之標示要求,須對每一著作之使用逐一標示,以摘要之方法仍然顯然未達要求,恐須Creative Commons組織未來修訂新版本的授權條款時,針對此等特殊利用需求增訂明確的條款處理。

(二)非商業性(NC)授權要素之資源

NC授權要素為非商業性,指不得主要為用於或針對商業利益或財務上的報酬而使用含該授權要素之著作【註12】,例如,為了商業委託案而使用NC授權著作。針對AI訓練的議題如前述說明,若僅單純訓練而未對外提供商品或服務,實際上無法判斷其究竟是否為前述商業使用,故內部訓練本身並不會有違反創用CC授權條款的問題。而對外利用時,除前述有關姓名標示議題外,若屬於可能會在提供AI應用服務時產出或利用到原始訓練資料,利用含NC授權要素之著作進行AI訓練,即應限於後續服務屬於研究或其他非商業利益之目的。若所訓練之AI可能會使用原始訓練資料作為服務的一部分或可能產出與訓練資料相似的成果,像是ChatGPT、Midjourney此等商業用途的生成式AI服務,利用含NC授權要素之資源進行訓練,對外提供服務時即與直接抓取網路上其他著作類似,都會面臨著作權侵害的風險。

(三)禁止改作(ND)授權要素之資源

ND授權要素為禁止改作,亦即只能完整使用著作,不能使用部分或更改著作內容而對外散布或公開利用。【同註9】在訓練AI時,若是將ND授權之著作完整重製作為訓練資料,並未違反ND授權要素之規範。惟如作為ChatGPT、Midjourney等生成式AI對外提供服務,因其訓練時所儲存之各種資訊、文字與圖形間之關聯性、前後文之關聯性等,可能因為使用者的Prompts、演算法、機率等,產出內容有可能與原始訓練素材相似的成果,而生成式AI必然會與原始訓練資料不同,如屬創用CC禁止改作的授權,即立刻會面臨違反ND授權的風險。

另一種可能不會違反ND授權要素的情形,可能要AI的業者自行設計規避。著作權法第10條之1規定,「依本法取得之著作權,其保護僅及於該著作之表達,而不及於其所表達之思想、程序、製程、系統、操作方法、概念、原理、發現。」如能夠確保該AI對外提供服務時,僅使用到訓練資料中抽象的「思想、程序、製程、系統、操作方法、概念、原理、發現」,而不使用到具體的「表達」,例如AI僅學習某些著作的風格、畫風,抽取其中「抽象」的部分,且限於產出與原始著作主題不同的作品,則因為其使用到的部分是屬於著作權法不保護的抽象思想、原理、原則,即非創用CC授權條款所稱之改作,不會構成創用CC禁止改作條款的違反。

(四)以相同方式分享(SA)授權要素之資源

SA授權要素包含兩個大原則,一是使用含SA授權要素之資源所完成的著作亦必須使用相同或相容的方式再為授權,二是在SA授權要素下,不能再添加其他限制條款,舉例而言原本沒有NC授權要素之著作,即不得再新著作添加NC授權要素。在使用SA授權要素之資源下,也要將自己的新著作授權出去,讓大眾可以利用,從自由分享的角度而言是優點,惟也有人批評SA授權要素為「感染式授權條款」。【註13】

將SA授權要素之資源用於AI訓練,是否表示整個訓練AI的資料庫都要以相同方式再為授權?依照Creative Commons組織之說明,SA授權要素只有在著作被修改且公開分享時才會適用。因此需要適用SA授權要素的仍然是該著作被修改且又被公開時,才需要以相同方式分享,如果僅是存在於資料庫中,並不會使整個資料庫變成須以相同方式分享。【註14】

AI訓練後所為之產出若有利用SA授權要素之資源且被公開分享,在利用時可能會經利用、修改,原則上在利用時會有以相同或相容方式再授權之義務。惟此義務在生成式AI的服務事實上難以遵守,因實際上生成式AI的服務提供者,無法知悉哪些產出須以相同方式分享,而使用者根本無法知道該等生成式AI產出的成果是利用哪一個創用CC相同方式分享授權的作品。例外情形與前述ND之情形類似,除產出之內容僅利用畫風、風格等不受著作權保護之部分,有機會不受該SA授權條款所限制。

(五)小結

檢視以上創用CC授權要素,將該些著作用於訓練AI之問題大抵不在投入之重製行為本身,而是在後續AI經發布、使用時,不容易符合創用CC授權要素之條件。雖Creative Commons組織認為CC授權模組在一開始設計時即有考量到未來之應用,惟逐一審視該些授權要素,針對後續AI的應用,可能識別型的AI服務,因為所產出的是分析資訊,與原始的訓練資料無涉,通常沒有特別的問題,任何一種創用CC授權著作都可以允許作為AI訓練使用;但若為目前最熱門的生成式AI,因為雖然是生成新的成果,但服務提供者及使用者均無法將該等成果與特定訓練資料連結,亦無法有效標示或遵守像是禁止改作、非商業利用或相同方式分享的授權要求,確實有其窒礙難行之處。若Creative Commons組織有意讓創用CC授權之資源作為訓練AI之素材,並可作為生成式AI的應用服務,會需要進行創用CC授權條款的特殊安排,不然,創用CC授權的著作就只能與其他一般著作相同,最終還是要回歸著作權法中關於合理使用的個案認定。

四、創用CC授權資源可能涉及之其他法律問題

創用CC授權係為讓權利人得以方便、簡單將其著作釋出讓大眾利用之授權模組,僅處理著作權之問題,若個別著作另涉及其他權利,例如肖像權、隱私權、個人資料、原住民族傳統智慧創作等,應再個別另行處理。舉例而言,若創用CC授權資源包含他人肖像,則原則上應取得他人同意才能用於AI訓練之中;創用CC授權資源倘包含個人資料,則所使用之資料必須符合個人資料保護所定關於蒐集、處理及利用之規範,須注意取得資料的來源以及利用是否符合蒐集之目的。

2019年即有IBM利用Flickr網站上標示CC授權的照片訓練人臉辨識AI所產生的爭議。【註15】亦即,IBM雖然使用的是CC授權資源,並僅作為識別型AI服務,並沒有違反CC授權條款的問題,惟其所使用的照片包含大量肖像即有涉及個人資料保護法違反之議題。由於創用CC授權條款僅處理著作授權事宜,有意利用創用CC授權作品進行AI訓練的業者,必須理解著作以外的法律議題,並非創用CC機制所能解決,並不是採取此類開放授權,就是放棄其他各種法律上保護的權利。

五、記憶庫資源應用於AI之方式

國家文化記憶庫(以下簡稱「記憶庫」)資源多採創用CC授權,讓其資源可以在符合創用CC授權規範下直接利用,無須逐一取得著作財產權人的授權。記憶庫之大量圖像、文字及標記的資源,是否適於訓練AI呢?承上所述,大部分之創用CC授權要素在投入訓練時基本上不會被觸發,針對AI訓練階段基本上是沒有問題的,但訓練完成後則視AI服務的類型而定。

目前記憶庫資源較具AI訓練價值或應用者,大致上可以分為下述幾類:

(一)圖像與文字資訊的連結

記憶庫資源在徵集時,提供單位必須填寫該等圖像資料相關的文字資訊,即相當於以人工識別並標記的高品質資源,若是屬於識別類的AI,例如:只要掃瞄特定圖像,即可辨識該等圖像拍攝的時空背景,或是用於生成與該特定圖像受保護部分無涉的成果,例如:AI學習大量1980年代的照片,為遊戲軟體生成該時代背景的過場動畫等,因為攝影著作保護的是構圖、光影變化等「具體表達」,而AI學習的是照片中的建築物外觀或場景,不會直接使用該照片的構圖、光影變化等,即不會構成對攝影著作的侵權。在記憶庫主要採取創用CC授權的情形,相較於在網際網路上其他授權不明的著作,記憶庫顯然是此類AI應用訓練安全且具權威標記的高品質訓練資料的來源。

1980年代斗南順安街,雲林縣政府新聞處,國家文化記憶庫,創用CC姓名標示 3.0 臺灣及其後版本(CC BY 3.0 TW +)。

1980年代初期褒忠老街,雲林縣政府新聞處,國家文化記憶庫,創用CC姓名標示 3.0 臺灣及其後版本(CC BY 3.0 TW +)。

(二)特定主題或風格的訓練資料

承前所述,著作權法第10條之1僅保護著作具體的表達,並不保護抽象的思想、概念、原理、原則、發現等。以記憶庫目前整體的一些主題資源,例如:礦工、原住民族的照片等,作為圖像型態的AI訓練,再用以生成不是照片形式的美術著作,並不會構成對於該等照片攝影著作的侵害;而特定年代的照片或美術作品,也可以讓AI學習並產出具有該等年代風格特色的照片或美術作品,只要在生成的演算法刻意排除與訓練資料相同主題即可大幅降低風險。

東慶煤礦的礦工,余重慶,國家文化記憶庫,創用CC姓名標示 3.0 臺灣及其後版本(CC BY 3.0 TW +)。


瑞三鑛業保安新村與敬業新村-2,周朝南,國家文化記憶庫,創用CC姓名標示 3.0 臺灣及其後版本(CC BY 3.0 TW +)。

(三)記憶庫資源作為使用者輸入AI服務應用的來源

創用CC作品作為AI通用性的訓練是一種利用,但面對AI時代另一種是使用者使用他人訓練好的AI服務。例如:使用者可以選擇記憶庫中創用CC BY-NC的圖像,輸入相關生成式AI的圖像來源,生成出屬於自己獨特的圖像,再依創用CC相關授權規範標示及利用,亦是記憶庫資源應用的方式之一。

(四)區別不同授權條件作為訓練資源

記憶庫資源有明確的創用CC不同授權模式的標示,AI服務相關業者可以依其未來對外提供服務的規劃,選擇適合的創用CC授權資源進行訓練,以降低未來提供服務的風險。例如:避免禁止改作、相同方式分享的授權著作,若屬商業服務,則也可提前預防避免使用非商業性的創用CC資源。

六、結語

以創用CC各項授權條件逐一檢視下,目前的創用CC條款針對單純的AI訓練,在未對外提供服務時,應屬合法;但若需要對外服務,則須依各種不同的AI服務逐一判斷,但以目前最熱門的生成式AI,因為無法確切掌握生成的成果與訓練資料間的關聯,似難以遵守相關姓名標示或其他授權條件,若直接使用於生成式AI訓練,除非可以確保生成的成果僅會利用抽象的思想、概念、原理、發現等,否則,只要涉及具體的表達全部或部分的使用,即使僅是因為關連性、使用者操作、機率等服務提供者難以控管的原因,因為確實有使用該等訓練資料,仍然會有侵權的疑慮。若要讓採用創用CC授權之資源能夠完全安全、合法作為AI服務使用,應再調整創用CC授權之條款。

臺灣著作權法目前並未參考部分國家訂有特別的資料探勘或資料分析的著作財產權限制條款,對於一般著作而言,單純作為AI訓練資料因為通常涉及著作的重製,必須要透過著作權法第65條第2項有關合理使用的規定個案處理。相對之下,採取創用CC授權的著作,在單純訓練階段,反而是相對合法(取得授權)又安全,值得作為臺灣有意踏入AI領域業者優先採用作為AI訓練資料來源;此外,作為客製化屬於臺灣特色版本的AI,也是已經經過適當標記的高品質資料。

此外,對於AI時代的使用者而言,其等亦可利用記憶庫大量的創用CC授權資源,選擇適當的授權條款,例如:若為商業使用,即不要選擇非商業性,若有改作需求,則不要選擇禁止改作,可以讓AI依使用者的指示進行創作,善用生成式AI降低創作門檻的特性,讓不會繪圖的使用者,可以輕易表達出心中所構思的創作,再由AI的使用者於利用時依照創用CC授權之條件進行標示即可。AI時代來臨,記憶庫在徵集階段即採取創用CC授權機制,未來在推廣記憶庫資源的應用時,無論是作為AI訓練之資源,或使用者尋找適當的表達素材,都是可以注意的方向。

資料提供者益思科技法律事務所 賴文智、廖純誼
資料授權資料授權: CC BY-NC

本網站使用Cookies收集資料用於量化統計與分析,以進行服務品質之改善。請點選"接受",若未做任何選擇,或將本視窗關閉,本站預設選擇拒絕。進一步Cookies資料之處理,請參閱本站之隱私權宣告