來源:肖颯lawyer
上個月,意大利隱私監(jiān)管機構(gòu)Garante出具的調(diào)查結(jié)果認為,OpenAI公司存在一項或多項違反歐盟法規(guī)的行為,ChatGPT用于收集用戶數(shù)據(jù)的技術(shù)已經(jīng)違反了該國的隱私法。掀起生成式人工智能熱潮的ChatGPT再次陷入數(shù)據(jù)合規(guī)風波。
數(shù)據(jù)和算力是生成式人工智能的核心。數(shù)據(jù)安全是生成式人工智能合規(guī)的核心問題,在人工智能對數(shù)據(jù)日益增長的依賴性的背后,生成式人工智能秘密收集數(shù)據(jù),對“知情同意”原則和“最小必要”原則帶來了嚴重挑戰(zhàn)。與此同時,生成式人工智能在運行階段包含著巨大的數(shù)據(jù)泄露風險。這對個人信息的保護帶來了嚴重威脅。颯姐團隊今日就談談生成式人工智能對個人信息安全帶來的挑戰(zhàn)與合規(guī)要求。
根據(jù)數(shù)據(jù)來源,大致可將涉?zhèn)€人信息的數(shù)據(jù)分為涉及個人信息的語料庫數(shù)據(jù)以及涉?zhèn)€人信息數(shù)據(jù)的用戶上傳的數(shù)據(jù)。
生成式人工智能對數(shù)據(jù)具有高依賴性,需要大量的數(shù)據(jù)滿足訓練要求。這決定了,生成式人工智能往往會主動收集、處理公開和非公開的數(shù)據(jù),預訓練數(shù)據(jù)的規(guī)模通常可以達到數(shù)十億甚至上百億個參數(shù)量。若其中存在個人信息,根據(jù)《個人信息保護法》第27條的規(guī)定,“個人信息處理者可以在合理的范圍內(nèi)處理個人自行公開或者其他已經(jīng)合法公開的個人信息;個人明確拒絕的除外。個人信息處理者處理已公開的個人信息,對個人權(quán)益有重大影響的,應當依照本法規(guī)定取得個人同意。”《生成式人工智能暫行管理辦法》第7條也強調(diào),“生成式人工智能服務提供者(以下稱提供者)應當依法開展預訓練、優(yōu)化訓練等訓練數(shù)據(jù)處理活動,遵守以下規(guī)定:……(三)涉及個人信息的,應當取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形。”然而,由于數(shù)據(jù)庫數(shù)據(jù)規(guī)模過于龐大,逐一獲得信息主體的同意這一要求難以實現(xiàn)。
既然獲取信息主體的同意這一條路難以走通,那直接把數(shù)據(jù)庫中的個人信息刪掉可以嗎?這也存在困難。一方面,當前缺乏行之有效的個人信息清洗算法,存在一定的技術(shù)悖論;另一方面,數(shù)據(jù)庫規(guī)模之巨大導致人工清洗數(shù)據(jù)的成本極高,且存在個人信息二次泄露的風險。有研究指出,基于命名實體識別的數(shù)據(jù)清理技術(shù),對臨床健康數(shù)據(jù)的召回率為97%(姓名)和80%(護理單元編號)。換言之,在語料庫、數(shù)據(jù)庫中存在個人信息的情況下,在訓練階段,個人信息的清洗效果較差,科技公司存在合規(guī)風險。颯姐團隊提醒,科技公司在使用語料庫數(shù)據(jù)進行訓練時,應當盡量選擇不包含個人信息的數(shù)據(jù)集,同時盡可能提高識別算法的準確性,對識別的個人信息進行匿名或裁剪。在審核端采取機器過濾機制加人工審核機制,也是利大于弊的合規(guī)措施。
用戶上傳數(shù)據(jù)可分為“用戶積極投喂的數(shù)據(jù)”和“用戶消極投喂的數(shù)據(jù)”。所謂用戶積極投喂的數(shù)據(jù),系指用戶為獲得生成式人工智能的反饋而上傳的特定數(shù)據(jù)。所謂用戶消極投喂的數(shù)據(jù),系指用戶為使用含生成式人工智能算法的應用程序或設(shè)備的其他功能而上傳的數(shù)據(jù)。
生成式人工智能的運行通常需要用戶主動“投喂”一定的數(shù)據(jù),再基于算法進行分析、反饋。在這一過程中,人機交互數(shù)據(jù)將被加以記錄、存儲和分析,并可能成為模型算法更迭訓練的數(shù)據(jù)。但在服務提供者未盡提示義務、用戶缺乏安全意識等語境下,用戶投喂的數(shù)據(jù)中很可能包含用戶個人外貌、住址、聯(lián)系方式等個人信息。生成式人工智能復雜的服務模式與多元的應用場景加劇了這一風險。隨著數(shù)字技術(shù)的發(fā)展,用戶的身份與其聯(lián)系方式、人臉數(shù)據(jù)、指紋等深度綁定,而生成式人工智能常會收集到大量個人信息。例如,某AI公司的知名聊天機器人程序應用范圍涵蓋教學、科研、金融、傳媒和娛樂等眾多領(lǐng)域,用戶與其進行的聊天記錄中包含大量敏感信息,如個人身份、偏好、習慣等。這些數(shù)據(jù)若落入不法之手,將導致個人隱私遭到侵犯、身份盜用、金融欺詐等風險,對用戶造成直接損害。
此外,生成式人工智能的使用場景廣泛,常被嵌入各大應用程序乃至設(shè)備中。例如,今年1月,某瀏覽器已宣布引入3大生成式AI能力,某公司已推出全球首款搭載生成式人工智能技術(shù)的智能手機。即使未使用生成式人工智能技術(shù),用戶在使用相關(guān)應用程序乃至設(shè)備時,不可避免地會將產(chǎn)生、上傳數(shù)據(jù),而數(shù)據(jù)中很可能存在涉嫌個人信息的內(nèi)容。
《生成式人工智能暫行管理辦法》第十一條規(guī)定,“提供者對使用者的輸入信息和使用記錄應當依法履行保護義務,不得收集非必要個人信息,不得非法留存能夠識別使用者身份的輸入信息和使用記錄,不得非法向他人提供使用者的輸入信息和使用記錄。提供者應當依法及時受理和處理個人關(guān)于查閱、復制、更正、補充、刪除其個人信息等的請求。” 《個人信息保護法》《兒童個人信息網(wǎng)絡(luò)保護規(guī)定》等法律法規(guī)對數(shù)據(jù)存儲的期限制定了強制性規(guī)定。基于此,用戶主動投喂的涉嫌個人信息的這類信息是否可以被服務提供者記錄、存儲以及存儲的期限是有待商榷的。
同時,這類信息是否能被用于訓練算法也存在一定爭議。《生成式人工智能暫行管理辦法》第7條強調(diào),“生成式人工智能服務提供者(以下稱提供者)應當依法開展預訓練、優(yōu)化訓練等訓練數(shù)據(jù)處理活動,遵守以下規(guī)定:……(三)涉及個人信息的,應當取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形。”初次使用獲得的用戶授權(quán)不足以覆蓋算法訓練階段數(shù)據(jù)使用的要求,科技企業(yè)必須有更明確的使用授權(quán),或在符合法律法規(guī)的規(guī)定的其他情形的情況下,才能利用這類數(shù)據(jù),否則可能會觸犯民法、行政法甚至刑法的相關(guān)規(guī)定。但是,即使獲得了用戶的明確授權(quán),生成式人工智能的運行階段存在巨大的數(shù)據(jù)泄露風險,科技公司只有在確保數(shù)據(jù)的安全性的情況下,才可對涉?zhèn)€人信息數(shù)據(jù)加以利用。
為了提高生成質(zhì)量,許多科技公司會想盡辦法豐富數(shù)據(jù)保有量,提高數(shù)據(jù)聚集度。例如,某AI公司的《隱私政策》第2條標明,“我們可能會對個人信息進行匯總或去標識化處理,使其不再用于識別您的身份,并使用此類信息來分析我們服務的有效性、改進和添加我們服務的功能、進行研究和其他類似目的。”這是一種可行的方案,但是,根據(jù)“知情同意”原則,服務提供者承擔告知義務,即服務提供者需將被收集的數(shù)據(jù)對象、數(shù)據(jù)用途和可能存在的風險等提前向信息主體說明,并在取得信息主體同意后才能實施收集行為。同時,科技公司應當為用戶提供拒絕使用其個人信息的選項,而不應當將該條款變?yōu)榻┯驳摹娭菩缘耐ㄖ獥l款。此外,根據(jù)“最小必要”原則,科技公司收集的涉?zhèn)€人信息應當采取與實現(xiàn)目標相關(guān)的、影響最小的方式,明確、具體地收集用戶的個人信息。
與傳統(tǒng)人工智能相比,生成式人工智能往往有更強的信息收集主動性與更高的數(shù)據(jù)濫用風險。生成式人工智能需要持續(xù)地通過大規(guī)模的語料庫、數(shù)據(jù)集來強化上下文理解能力,以不斷升級和優(yōu)化自身,在包括數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)生成的生成式人工智能運行各階段內(nèi),不可避免地會涉及諸多個人信息、產(chǎn)生諸多法律與合規(guī)風險。而大數(shù)據(jù)時代個人信息的內(nèi)涵與邊界的模糊化、法律法規(guī)的滯后性與對技術(shù)成果的追求,也導致部分科技公司忽視了此類風險。颯姐團隊提醒,合規(guī)是行業(yè)健康發(fā)展的前提與保障,追求成功的同時切勿對法律紅線掉以輕心。