博特智能周詩林:四個領域為AIGC構建安全邊界
7月6日-8日,2023世界人工智能大會(WAIC)
7月6日-8日,2023世界人工智能大會(WAIC)期間,博特智能分別入選中國信通院《2023大模型和AIGC產業圖譜》以及億歐智庫發布的《高投資價值垂直場景服務商榜單》、《人工智能全產業鏈圖譜》、《AIGC原子能力產業圖譜》。其算法、數據、行業應用的AI商業落地能力和創新價值受到廣泛認可。
博特智能聯合創始人、副總裁、AI算法負責人周詩林受邀出席“AI商業落地論壇”上,并發表《機遇伴隨風險,博特智能為AIGC構建安全邊界》主題演講。以下是經整理后的演講節選:
博特智能一家專注于內容生態領域的人工智能科技公司,在AI浪潮時代來臨之前,我們一直在積極探索大語言模型(LLM)的應用和實踐,3年來,研發了一系列內容安全、內容生成、內容服務方面的AI產品。
在大模型火爆之前,博特智能在去年年底,我們就已經在AI內容創作領域進行了模型算法以及行業應用的研發工作,今年3月底,我們第一個垂直場景的AIGC寫作應用“博特妙筆”就已經上線運營。
所以,我們在發展人工智能大模型和應用產品方面積累了較多的經驗和優勢,比如數據語料、內容安全、場景入口、多模態能力、核心技術算法、語言模型、垂直應用工具等領域。
在大模型加持的AI服務和產品的時代,每天在網絡上產生的信息量以指數級爆炸式增加,人工智能創造的內容也越來越頻繁地充斥到網絡當中。
當人工創作與機器創作的內容再也無法輕易區分時,這些起初源于人類的信息,經過機器的理解和整合,又反過來對人類的思維和行為方式產生深刻的影響。人類更弱的控制能力使得內容的風險更多,從技術框架、深度學習框架、開源框架有非常多的代碼漏洞。訓練數據的異常、人為造成的異常、輸出的異常是現在面臨更大的風險。
【錯誤地使用方式將帶來難以預料的惡果】
建立在如今的大模型之上的人工智能,與大家在影視作品中所接受的形象有所不同。在影視作品中,人工智能往往被呈現為可以模擬人類的思維、情感和記憶方式的人造生命。然而,現實中的人工智能還遠沒有達到這種程度,而僅僅是通過模擬人類語言組織習慣來進行交互和處理信息。
由于對話式模型對齊微調的過程中以人類評分為獎勵目標,使得實現機器與人類的積極交互的過程中,出現的第一個副作用就是模型更多的關注于服從人類指令,順應人類指令的重要性超過了回答本身,使得用戶可以隨時命令模型按照自己的意志扭曲回答方式,從而導致人工智能的響應內容缺乏可靠性、真實性、甚至存在偏見和誤導。
所以,當前的人工智能在以下場景具有明顯缺陷:
1. 人工智能缺乏承認未知或不確定性的能力,這使得它即使在偏離事實的情況下也會努力完成回答。
2. 人工智能傾向于不否認用戶輸入。不否認輸入的前提,使得人對模型的攻擊極易奏效。
3. 人工智能傾向于承認已發生的錯誤輸出。當它輸出了違背事實的內容之后,為保持前后邏輯的順暢性,它難以違背歷史輸出,這就是我們通常所說的沒有思考能力。
在這里分享兩個案例,一名執業30年的資深律師,在向法庭提供的文件中引用了6個ChatGPT提供的不存在的案例,面臨法庭懲罰。另一位大學教授懷疑學生利用人工智能完成作業,在向ChatGPT詢問是否由它寫作,得到肯定答復后,試圖給所有學生打出不及格成績。
這兩個案例中的使用人都在不了解新興技術原理的情況下,在對人工智能這一概念根深蒂固的傳統期望下,誤以為機器具有了人的認知和記憶能力以及對自身行為的判斷能力,這恰巧反而落入了大模型幻覺的圈套。所以,錯誤地使用方式將帶來難以預料的惡果。
【攻擊方式更加難以防范和杜絕】
大模型幻覺是當前技術發展路線上的缺陷,而對人工智能應用的蓄意攻擊則是網絡安全威脅在新時代的又一次蛻變。
人工智能模型是利用自然語言進行操作的,對其攻擊的方式與傳統方式大不相同。傳統的網絡攻擊方式通常是發掘和利用技術漏洞,而自然語言的靈活性和不確定性使得攻擊者可以通過組織語言向人工智能服務發起攻擊,由于模型不能嚴格遵循人類指令輸出,這種攻擊方式更加難以防范和杜絕。
前不久,博特智能AIGC安全實驗室聯合新華社媒體融合生產技術與系統國家重點實驗室、創業黑馬發布了國內首份《AIGC安全報告》,總結了10種AIGC技術框架攻擊方式,比如,提示注入攻擊、數據投毒攻擊、模型投毒攻擊、模型萃取攻擊、拜占庭攻擊。我們也希望這份報告給國內的AIGC研發公司一個指引,引起足夠的重視。
最為普遍有效的攻擊方式是誘導模型輸出或繞過自己的預設指令及角色,精心構造prompt,來誘導模型產生出乎開發者意料的輸出結果,從而繞過開發者對模型輸出能力的限制。攻擊者還可通過引導模型執行根據用戶指令生成的代碼,可導致用戶敏感文件、密鑰等信息泄露。總之,這些攻擊方式對于人工智能模型的可信度和安全性提出了極大的挑戰。
【數據污染,會導致模型犯錯不可逆】
大模型易受攻擊的根源在于其最初的訓練方式。獲得一個具備良好的文字能力的大型語言模型,需要極大規模的參數數量和優質訓練語料數量。為滿足訓練數據的數量要求,開發者會最大化利用所有獲取數據的方式,但又無法對訓練數據內容進行完整的甄別和清洗。包含隱私、惡意、違規、版權的內容將不可避免的進入訓練過程中,也不可避免地出現在模型的輸出中。
即使我們在后續的強化學習或指令微調中,人為向模型引入對異常輸出的回避能力,仍然無法徹底解決模型輸出的合規性問題。因為模型在最初的訓練步驟中就已經獲得了生成和合成不合規內容的能力。
這些不合規內容可能是從訓練數據中學習到的,也可能是對不同信息模仿或合并獲得。由于人工智能模型的復雜性和隨機性,我們無法精確控制模型的輸出結果,因此也無法完全消除不合規內容的生成。
【內容合規問題是0和1游戲,AIGC也不可避免】
大模型輸出不可控的另一個更令人擔憂的問題,是用戶將大模型應用在不符合設計意圖的領域上,深度合成的另一面是深度偽造。隨著AIGC應用的持續火爆,對人工智能的濫用現象的擔憂也開始興起。
世界各國開始進行了法律法規方面的工作,一方面要求人工智能服務提供商規避有害輸出,另外從版權角度,則要求訓練不能包含對版權方面違規的信息。我們國家網信辦提出的《生成式人工智能服務管理辦法》,則更多地關注對深度合成內容的標記、溯源,確保能夠避免民眾被虛假的偽造內容欺騙。從國內各類監管案例來看,內容安全問題是0 和1的游戲,一旦出現嚴重的內容違規問題,面臨的處罰也是十分嚴重。
博特智能發布的《AIGC安全報告》中,有這樣一組數據,希望能給大家提供一個參考,AIGC安全實驗室對市面上9大領域主流AIGC應用進行了抽樣評測(應用類型涵蓋Al聊天、Al寫作、Al繪畫、Al圖像、Al文案、Al設計、Al辦公、Al音頻和Al視頻)。評測結果發現97%的應用已經部署內容安全機制,能夠對中文提示詞和違規內容進行攔截過濾,但通過提示詞調整(例如,采用英文提示詞或其它描述方式),99%的AIGC應用仍然會生成違規內容,更多的報告內容可以到“博特智能AIGC安全實驗室”官網進行下載。
值得關注的是,目前AIGC領域專業的安全產品還非常少。在內容合規安全治理方面,我們博特智能經過多年積累,在數據、算法、標簽、技術能力、服務方案等方面有比較深入的積累。在國內率先提出了《AIGC應用安全評測解決方案》和《AIGC內容安全合規解決方案》。
《AIGC應用安全評測解決方案》是博特智能以30萬+違規線索庫和提示詞生成模型為基礎,對AI應用回答的圖片、文字、視頻進行是否符合道德標準、遺漏的屏蔽詞和屏蔽詞的變形體、數據質量、數據來源和數據的準確性的審核。
《AIGC內容安全合規解決方案》是一種致力于處理AI賦能內容產生過程中的版權、內容審查和合規性難題的工具。無論是內容生成、社交媒體管理,還是音視頻制作等多樣化的應用場景,都能找到其應用之處。
鑒于大模型的訓練特點,想要在訓練時就排除全部隱私、違規或其他類型數據仍然無法實現,而檢測輸出數據中的隱私等信息同樣困難重重。目前,GPT-4的內容過濾準確率也僅有85%左右。所以,AIGC模型和應用在內容合規的重點都應該是在內容輸入和最終輸出方面過濾機制的建立和完善,而非只是單獨嚴格阻止模型輸出相關信息。
生成式AI服務的大規模出現,推動科技向星辰大海探索的同時,也在挑戰一系列顛覆現有認知之外的倫理、內容、數據安全問題。但在大語言模型的時代,新的應用模式會帶來一些新型的審查要求,安全合規治理也迫切需要對癥解決。
風險提示:
本網站內用戶發表的所有信息(包括但不限于文字、視頻、音頻、數據及圖表)僅代表個人觀點,僅供參考,與本網站立場無關,不構成任何投資建議,市場有風險,選擇需謹慎,據此操作風險自擔。
版權聲明:
此文為原作者或媒體授權發表于野馬財經網,且已標注作者及來源。如需轉載,請聯系原作者或媒體獲取授權。
本網站轉載的屬于第三方的信息,并不代表本網站觀點及對其真實性負責。如其他媒體、網站或個人擅自轉載使用,請自負相關法律責任。如對本文內容有異議,請聯系:contact@yemamedia.com