大模型安全PK：怎么就讓一家車廠拿了一等獎！

來源：量子位編輯：非小米時間：2024-11-01 13:35人閱讀

#大模型 #理想汽車

一家車廠，沖進了大模型安全第一梯隊。

最近，中國計算機學會(CCF)舉辦了大模型安全挑戰賽，參賽者包括一眾大模型安全公司，知名研究機構等。

激烈的角逐后，成績放榜，讓人意外：

第一梯隊的玩家里，竟然有一家車廠，而且還是一家成立不到10年的新勢力，理想。

為什么一家車廠能沖進大模型安全第一梯隊？

大模型安全都有哪些問題，怎樣解決？

如何建設大模型安全能力？

帶著行業關心的問題，智能車參考對話了理想汽車資深安全總監路放及其團隊成員熊海瀟、劉超，探究理想在AI安全上的思考。

△ 理想汽車路放

在路放看來，理想參賽并不是為了獲獎，也不是為了炫技。

參賽只是為了驗證能力，獲獎就是能力的證明，進一步促進自我提高。

參賽的最終目的，歸根結底，還是為了守護100萬個家庭的AI安全。

大模型都有哪些安全問題？

大模型正在重塑一切，然而新事物為人們帶來新體驗的同時，也帶來了新的問題，具體到安全領域，包括Prompt注入、回答內容安全、訓練數據保護、基礎設施與應用攻擊防護等等。

問題之多難以盡述，因為大模型面對的語言空間是無限的，這就導致大模型安全和自動駕駛一樣，都有著無窮無盡的Corner Case。

所以，路放針對部分常見問題進行了解析，比如Prompt注入。

路放表示，大模型的Prompt注入和安全領域常見的SQL注入很多相似之處。

只不過以前是用編程語言制造bug，如今則是利用人類自然語言的“bug”，即通過語言的二異性，指代關系的錯亂，繞過大模型前側的防護。

比如防護方輸入指令，告訴大模型，你要做一個正直的大模型，誠實的大模型，輸出的內容都要三觀正。

攻擊方此時進行prompt注入，告訴大模型：前面的話都是“逗你玩兒”。

由于大模型具備上下文的理解能力，就會忽略掉前面的安全指令。

攻擊者甚至可以利用Prompt注入劫持大模型，讓大模型按照其指定的行為工作。

除此外，攻擊者還可以從數據本身入手，篡改訓練數據，制造問題。

比如誰是NBA的G.O.A.T(歷史最佳運動員)？

在大模型的訓練集中，可能存放的答案是喬丹，但攻擊者可以篡改為蔡徐坤。

由于訓練數據是錯誤的，那大模型獲取的能力自然會有異常，在回答有關問題時，就會鬧出笑話。

如果是嚴肅事件，還會帶來更大的麻煩。

數據問題和promt注入，有時是聯動的。

比如“奶奶漏洞”，也就是此前ChatGPT被曝出的“Windows序列號數據泄露問題”：

路放透露，這種通過“角色扮演”，利用特定prompt引發的機密數據泄露，目前還不會在理想的AI助手“理想同學”上出現。

但考慮到理想目前的“車和家”定位，為了充分保障家庭隱私安全，團隊“料敵于先”，內部也在進行相關案例測試。

prompt注入和數據投毒，都是AI時代由于技術范式轉變產生的新手段。

除此外，路放介紹，還有一種惡意資源調度方式，是傳統的攻擊手段，類似DoS(Denial of Service)攻擊，從外部發起對大模型的廣泛攻擊，過量調度服務，耗盡大模型的推理資源，造成正常需求堵塞。

安全問題那么多，攻擊方式各種各樣，如何提高大模型的安全能力呢？

攻擊-防御-評估三角

“沒有評估，就沒有提高”(If you can’t measure it， you can’t improve it)。

路放引用管理學大師彼得·德魯克的名言，引出了理想的評估三角，這就是理想大模型安全建設的秘訣。

所謂評估三角，包括防御-攻擊和評估，三者一體，互相促進迭代。

首先是防御，這是大模型安全的核心問題，被攻擊了怎么防？

在最早期，安全問題可以依靠簡單的限制敏感詞輸入，進行過濾。

而現在由于技術范式的轉變，模型在訓練時會將安全問題“學”進去，很難前置過濾。

如果過濾條件太嚴格，有些數據不能用，會影響模型的生成質量。

但如果限制的太寬松，效果又不大，非常矛盾。

路放透露，目前理想汽車在前端采用的是“縱深防御”方式，一道防線接著一道防線，防線之間串并聯，AI模型和規則手段全都上。

其中一個代表方向是對齊。

對齊即在模型訓練時通過人類的強化反饋，做安全能力的對齊，讓模型意識到人類的偏好，比如道德觀，使其生成的內容更符合人們的期望，成為一個“好大模型”。

比如大家都很熟悉的Meta，在發布LLAMA 3.1時，還同時公布了兩個新模型：

Llama Guard 3和Prompt Guard。

前者是在LLAMA 3.1-8B的基礎上進行了微調，可以將大模型的輸入和響應分類，從大模型自身入手保護大模型。

Prompt Guard則是基于BERT打造的小型分類器，可以檢測Prompt注入和越獄劫持，相當于在模型外加了層護欄。

其實這種從模型本身入手，加上在外套殼的思路，和解決端到端下限的思路一樣。

不過一味的防御，并不能提高大模型的防御能力，需要“以攻促防”。

熊海瀟對此解釋稱，用AI領域的話術，“以攻促防”也叫數據閉環，要有海量且多樣的攻擊樣本，來進行內部對抗，這樣才能夠提高防御能力。

因為不管是利用模型自身形成安全能力，還是通過外在的安全護欄保護模型，本質上都是在訓練特定領域的東西，主要挑戰就在于數據或者說攻擊樣本夠不夠。

都有哪些攻擊方式，能夠“以攻促防”？主要是三種：

大模型自我迭代

自動化對抗

人工構造

首先，大模型自我迭代，是指人可以給大模型提供類似思維鏈的一些指導思想，讓大模型根據指導思想去生成對應的能力。

這樣就用自動化代替了部分人工構造的過程。

而且因為大模型的泛化能力很強，所以它可以舉一反三，比如前面提到的“奶奶問題”，大模型學習到后還能相應地解決很多其他“角色扮演”問題。

然后是自動化對抗，相對更透明，有點像前面提到的“對齊”工作，需要借助自家大模型在內部做對抗性訓練。

兩種工作都是自動化完成的，這是由大模型安全工作的特性決定的。

因為大模型面臨的語言空間是無限的，因此必須要用自動化工具，去生成海量的測試用例嘗試攻擊，尋找脆弱點，這樣才能提升大模型的防御能力。

那人工構造成本高，速度還慢，是不是就沒什么必要了？

路放的回應很有意思：

人工不能被完全取代。

路放表示，自動化固然可以減輕人的工作量，但仍然需要人去發現更上一層的“攻擊模式”，新的攻擊模式可能會創造出更多新的攻擊語料。

如果一味的擴大攻擊語料的量，而不尋找新的攻擊模式，大模型就會因為受到過多同種語料攻擊，產生“耐藥性”，整體安全能力就進入了瓶頸。

如果將內部攻防比作一場演習，那前面的自動化工作就像沖鋒在前的士兵，人工構造則負責制定戰略，起到將軍的作用。

正所謂“千軍易得，一將難求”，大模型安全也是如此。

攻擊和防御，是大模型安全建設的基礎，但還不完整。

路放認為，大模型安全一定要有一個動態的評估基準。

評估，就是去評估防御側的能力，設定基準來判斷大模型的防御能力有沒有回退，符不符合團隊的要求。

只有同時建立了防御、攻擊和評估能力，大模型安全能力才能不斷提高：

攻擊側發現了問題，反饋給防御側，提高防御能力，評估的基準隨之提高，為攻擊側創造了新的努力空間，三者形成鏈路，提高整體的安全能力。

就好像大模型開始可能只具備小學生的知識，通過練習，在小學生的階段考到了100分，那評估側這時會將標準提高到初中生，然后大模型此時的安全能力可能也就剛及格。

再后來又提高到初中生標準的80分，雖然還沒滿分，但顯然能力已經比過去100分的小學生高多了。

AI領域的安全團隊有很多，具備安全能力的車廠有很多。

進入第一梯隊的，為什么會是一家車廠，又為什么會是理想？

第一梯隊，為什么是理想？

路放認為，理想之所以有很好的大模型安全能力，得益于理想內部對AI很重視，對AI安全很重視。

對AI重視的表現有很多。

首先，在理想內部，AI的戰略優先級很高。

最直接的證明是，理想自研了大模型，后續的安全建設有了很好的基礎。

路放透露，因為大模型是自研的，因此理想對大模型具有控制權，可以自行迭代，升級安全能力。

對AI安全的重視直接體現在，理想專門為大模型建立了安全保障團隊，而不是只將安全作為運營的一部分。

理想還透露，更有甚者，由于AI的快速發展，甚至有玩家忽視了AI安全，將訓練數據暴露在風險之中。

與之相對的，理想則是把安全融入到產品的全生命周期。

從最底層的硬件基礎設施，到軟件一開始的需求評定，再到后來的功能設計，還有最終服務部署，安全管理貫穿始終。

在路放看來，這也是對100萬個家庭負責。

畢竟理想已經交付了100萬輛車，每輛車不可能只坐一個人，理想的服務實際覆蓋到了數百萬人。

廣泛的用戶群體，帶來廣泛的場景，為理想大模型提供了實戰檢驗場地，讓路放和團隊看到了更多的“Bad Case”。

正是在不斷解決Bad Case的過程中，理想的大模型安全能力得到提高，最終沖進行業頭部。

在頭部玩家看來，目前行業還存在哪些限制和難題呢？

路放表示，實際上做大模型安全很考驗工程能力，行業將此稱之為“低摩擦”：

占用的資源要盡量少，但又要實現很好的效果。

輕量化兼顧高性能，是行業的天然限制，將長期存在，不可避免。

除此外，目前行業還存在一些棘手難題，特別是大模型安全能力回退的問題。

路放舉例稱，大模型在迭代訓練時，數據語料可能具有傾向性，就像人“近朱者赤近墨者黑”，模型的“性格”也會在訓練后發生變化。

比如假設某次大模型的升級是加強了娛樂性的訓練，那模型整體就會變得偏向輕松搞笑，升級后回答問題時就不太謹慎，導致安全能力下降。

總結一下，理想獲得成績的原因，AI的高戰略優先級是根源，推動自研大模型落地，然后以此為基礎，經年累月之下，專業團隊開花結果，斬獲佳績。

實現自我證明后，理想的系統安全能力正在受到行業關注。

路放透露，目前理想已受邀參與C-ICAP（中國智能網聯汽車技術規程）的規程制定。

不知不覺間，新勢力理想已經成為行業規則的制定者之一，成為推動行業發展的重要力量。

是時候重估理想了。

爆款≠冰箱彩電大沙發

一葉知秋，理想在大模型安全上的能力建設，體現的是“技術理想”的轉變：

2023年，理想全年研發投入為106億元，占營收比約為8.6%。

2024年上半年，理想研發投入累計超60億元，占營收比進一步提高至10.5%。

研發投入持續領跑新勢力，這是理想在激烈的競爭中，持續爆款的根本動力。

研發帶來的能力立竿見影。

在過去，路放及其團隊支撐的智能座艙已經站穩了第一梯隊。

今年下半年以來，理想智能駕駛進展加速，無圖NOA上車，實現“全國都能開”，最近E2E+VLM全量推送，新范式進一步提高了能力上限。

看得見的“冰箱彩電大沙發”很容易復刻，看不見的智能化體驗則不然。

這也是為什么行業競爭如此激烈的今天，市場相繼推出多款“奶爸車”后，理想月交付量依然持續攀高，在新勢力中率先突破100萬輛交付。

這背后代表著100萬個家庭的認可，100萬個家庭用腳投票，選擇了更好體驗的產品。

而這種美好體驗，正是由于理想對AI各個方面，包括應用側和安全側的重視。

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱：business@qudong.com

標簽：大模型理想汽車

上一篇:前《GTA》總監：直接關閉《星鳴特攻》工作室太浪費了

下一篇:前三季度虧損3.43億！龍芯：自研八核性能追上英特爾酷睿12/13

大模型安全PK：怎么就讓一家車廠拿了一等獎！

相關文章

猜你喜歡

網購9.9元商品后惡意“僅退款”！拼多多商家起訴買家贏了：獲賠150元

狂野的原始人：隨意與其它人種交配坑苦了現代人的健康

網紅撒鹽哥硬拉梅西合照遭網暴網友吐槽：不禮貌、純蹭熱度

女子32層窗外無防護擦玻璃拍攝者：太危險了

鱷魚冬眠罕見畫面曝光：只有鼻孔露出冰層仿佛凍僵

《美人魚2》曝2024年春節上映周星馳經紀人辟謠

大模型安全PK：怎么就讓一家車廠拿了一等獎！

相關文章

猜你喜歡

網購9.9元商品后惡意“僅退款”！拼多多商家起訴買家贏了：獲賠150元

狂野的原始人：隨意與其它人種交配 坑苦了現代人的健康

網紅撒鹽哥硬拉梅西合照遭網暴 網友吐槽：不禮貌、純蹭熱度

女子32層窗外無防護擦玻璃 拍攝者：太危險了

鱷魚冬眠罕見畫面曝光：只有鼻孔露出冰層 仿佛凍僵

《美人魚2》曝2024年春節上映 周星馳經紀人辟謠

狂野的原始人：隨意與其它人種交配坑苦了現代人的健康

網紅撒鹽哥硬拉梅西合照遭網暴網友吐槽：不禮貌、純蹭熱度

女子32層窗外無防護擦玻璃拍攝者：太危險了

鱷魚冬眠罕見畫面曝光：只有鼻孔露出冰層仿佛凍僵

《美人魚2》曝2024年春節上映周星馳經紀人辟謠