□ 李春暉
有關人工智能(AI)訓練用數據的著作權爭議尚未塵埃落定。當下學術研究似以一面倒的思路占優(yōu):將著作權保護無條件適用于AI訓練用數據,在此基礎上尋求包括合理使用和法定許可在內的權利限制。這可稱為“先進后出”路徑。亦有少數觀點“釜底抽薪”,從根本上質疑著作權法的可適用性。筆者擬強化“釜底抽薪”進路的論述,以平衡視聽。筆者并不排除規(guī)制AI訓練用數據的可能性,但須在現行著作權法之外重新進行利益衡量和價值選擇。
復制權是人工智能訓練用數據著作權問題的核心
著作權一般包括精神權利、復制權、傳播權和演繹權。AI訓練的結果是AI模型,不傳播原作品,不可能侵犯傳播權。諸項精神權利的被侵害也以作品的傳播為前提。因此,AI訓練著作權問題主要涉及準備訓練數據時不可避免的物理復制以及訓練時讀取數據過程中的臨時復制。有激進觀點將機器學習過程本身,也就是對數據的分析、挖掘、學習納入復制范疇。
另有觀點認為,對訓練數據的預處理還可能涉及演繹權中的翻譯權、改編權、匯編權等,如轉換數據的自然語言或將其轉換為機器語言、對訓練素材的改寫、標注、解釋、分類、整理、匯總等。不過,這些操作并非著作權法意義上面向讀者的演繹,而是為了機器學習,本質上仍是復制的一種,或以復制為前提。筆者將其視為廣義復制。
因此,在著作權法意義上,AI訓練使用數據的合法性之核心是復制權。當然,著作權法還規(guī)定了應由著作權人享有的其他權利,因此將“用于AI訓練”或文本數據挖掘(TDM)作為著作權的新權能的道路是暢通的。不過,若在既有權能之外求助于新權能,這仍屬于“釜底抽薪”進路。
人工智能訓練之技術、倫理本質與復制
AI模型之基本原理脫胎于早期的模式識別技術。神經網絡技術的變化,是從發(fā)現和構建特征維度的“小農經濟”方式,轉變?yōu)榇笠?guī)模計算反映數據之全方位聯系的參數。模型的構建和訓練不是對數據的復制,而是對數據作出統(tǒng)計學上的特征表達。生成式AI是決策式AI的特定形式的應用,底層技術沒有本質變化。
AI訓練從另一角度來看就是機器學習。AI志在替代人的智力。但AI要進行創(chuàng)造活動,必須預先學習掌握創(chuàng)造的素材和規(guī)則,這可與自然人學習過程相類比。人類學習時的記憶過程不構成對作品的著作權法意義上的復制,AI在學習過程中將學習素材存儲在可用位置類似于人類的記憶過程,同樣不構成著作權法意義上的復制。但這一結論若轉化為權利語言——“自然人有學習的權利,因而AI也有學習的權利”,卻面臨顯而易見的主體資格問題。
不過,民法上未出生的胎兒(甚至某些法域下的胚胎、受精卵)具有其倫理權利,但它們尚非具有主體意識的真正自然人主體。與之類比,若AI的目標是成長為“人”,其可否享受類似胎兒在其正式“出生”之前的包括學習權利在內的倫理權利?一方面,若AI的目的是具有似人的能力,則必須提供讓其獲取如此能力的環(huán)境;另一方面,AI與自然人構成人機聯合體,AI可視為自然人人格的延伸或其一部分,AI的學習就是人自身的學習。
訓練數據準備中的復制
AI線下訓練需預先準備訓練數據的拷貝于存儲集群中,這是否構成著作權法意義上的復制?復制權之表面文義覆蓋任何形式的物理復制。然而隨著技術的發(fā)展,越來越多傳播行為無需以復制為前提,同時越來越多的復制與傳播無關。在此過程中,著作權實踐的歷史發(fā)展已逐漸顯明,傳統(tǒng)著作權法中的復制權實非純粹針對復制的權利,而是針對構成傳播之前提的復制的權利。因此,AI訓練用數據的預處理即使涉及物理復制,由于并無傳播目的和效果而不被具有傳播含義的“復制權”所覆蓋。
另一視角是把訓練數據準備中的復制視為臨時復制。但AI訓練數據的大規(guī)模性導致訓練不可能短時間內完成,同時數據還需要預處理,數據復制狀態(tài)的存留不一定“短暫”,因此有人認為訓練數據準備中的復制為永久復制。但臨時復制的更準確表達當為“中間復制”,核心不是時間,而是復制的非最終性、非目的性。訓練數據準備中的復制正是如此。
數據中間商的存在令問題更復雜,有觀點認為其營利性證明了訓練數據準備中的復制有其獨立的經濟意義。但獨立的經濟意義并非指中間復制過程是否涉及對價,而是指公眾能否接觸、欣賞原作品的表達。同時,對AI開發(fā)者是否有復制和侵權行為而言,數據中間商的存在并非關鍵。反之,AI開發(fā)者行為的合法性反而會影響數據中間商行為的合法性,后者實為AI開發(fā)者的數據處理代工者,其所獲對價不過是代工的勞動報酬。若數據中間商取得數據還有其他用途,在一些情形下可能構成不正當競爭,但就提供給多家AI開發(fā)者使用的情形而言,與一對一供應數據沒有本質區(qū)別,只是AI訓練過程更廣泛、更精細的分工。
更寬廣的視野:知識產權權能碎片化之合理性審視
版權法上相對于傳播權獨立存在的復制權并非孤例,在商標法、專利法領域存在類似情形。如專利產品銷售、使用之前的制造行為。這是因為知識產權及其客體的特點,導致從復制/制造涉嫌侵權產品到權利人真正受損存在漫長的鏈條,知識產權立法將階段性行為視為獨立侵權行為,實為民事侵權理論中對侵權危險的提前排除,有其歷史合理性。
但在新的技術和市場環(huán)境下,知識產權實施/使用鏈條各環(huán)節(jié)獨立權能化已愈加表現出現實的不合理性。一是利益延伸原則不符合知識產權法定原則并導致利益失衡。知識產權保護范圍隨利益無限延伸會過度控制信息和技術的傳播,產生固化“技術階層”的效果。二是多環(huán)節(jié)獨立權能化與民事侵權理論相齟齬。例如,在復制不再等價于傳播時,繼續(xù)單獨規(guī)制復制行為不再符合民事侵權理論。三是多環(huán)節(jié)獨立權能化導致各種弊端,包括多重許可、選擇性訴訟等。因此,應回歸民事侵權理論,行為規(guī)制、責任承擔均須滿足侵權責任構成要件。受損害的市場利益必須直接來自法定知識產權本身,而非具有復合性的知識產權客體中的非法定知識產權層面。
結論與展望:置之死地而后生
AI訓練引發(fā)的熱烈討論和司法爭議,凸顯了革命性的技術需要革命性的制度。直截了當的辦法,是直接承認舊制度(著作權法)已不適應新生產力(AI)。但這并不意味著對AI訓練用數據問題撒手不管——若立法者和利益攸關方認為AI訓練用數據問題需要規(guī)制,則可進行充分的利益衡量,基于價值取舍而重新立法/修法。塵埃落定之前,不妨讓子彈多飛一會兒,給新技術、新業(yè)態(tài)足夠的空間和時間,才更有利于科技、經濟、社會、國家和人類的進步?;蛘呓忖忂€須系鈴人,將技術引發(fā)的問題留待持續(xù)發(fā)展的技術本身去解決,可能是更有效的治理方法。
(原文刊載于《華東政法大學學報》2025年第4期)
編輯:武卓立