亚州国产一线在线观看,亚洲国产精品路线一,亚洲国产原创Av在线,久久久77777在人天堂网站

清華大學與瑞萊智慧聯合團隊推出“安全增強版DeepSeek”——RealSafe-R1大模型

2025-02-25 09:59:39 來源：河北網絡廣播電視臺

　　2月23日，清華大學與瑞萊智慧聯合團隊推出大語言模型RealSafe-R1。該模型基于DeepSeek R1進行深度優(yōu)化與后訓練，在確保性能穩(wěn)定的基礎上，實現了安全性的顯著提升，表現優(yōu)于被認為安全性較好的閉源大模型Claude3.5、GPT-4o等，為開源大模型安全發(fā)展與風險治理提供了創(chuàng)新性解決方案。

　　連日來，國產開源大模型DeepSeek的優(yōu)異表現令人驚艷，其在自然語言處理和多任務推理方面的能力展現了強大的技術實力，尤其是在復雜問題解決和創(chuàng)造性任務中表現出色。然而，DeepSeek R1和V3在面對越獄攻擊等安全性挑戰(zhàn)時仍存在一定的局限性。例如，模型可能會被惡意設計的輸入誤導，生成不符合預期或不安全的響應。這一安全短板并非DeepSeek所獨有的難題，而是當前開源大模型的通病，其根本缺陷源于安全對齊機制的深度不足。

　　為此，清華瑞萊聯合團隊提出了基于模型自我提升的安全對齊方式，將安全對齊與內省推理相結合，使大語言模型能夠通過具有安全意識的思維鏈分析來檢查潛在風險，實現基礎模型自身能力的自主進化，可以應用于多種開源、閉源模型。

　　基于該方法，團隊對DeepSeek-R1系列模型進行后訓練，正式推出RealSafe-R1系列大模型。實驗數據表明，RealSafe-R1安全性提升顯著，在多個基準測試中有效增強了對各種越獄攻擊的抵抗力，并減輕了安全與性能之間“蹺蹺板”現象，表現優(yōu)于被認為安全性較好的閉源大模型Claude3.5、GPT-4o等，不僅為DeepSeek生態(tài)添磚加瓦，也為大語言模型樹立了新的安全標桿。

　　據悉，RealSafe-R1各尺寸模型及數據集，將于近期向全球開發(fā)者開源。“大模型的安全性瓶頸是本質的，只有通過持續(xù)投入和攻堅補齊短板弱項，人工智能產業(yè)才能真正實現高質量發(fā)展?！比鹑R智慧首席執(zhí)行官田天表示，這一創(chuàng)新成果將為開源大模型的安全性加固提供有力支持，也為政務、金融、醫(yī)療等嚴肅場景的應用提供更為可靠的堅實基座。

編輯：徐霞

審核：王明月

免責聲明：以上內容為本網站轉自其它媒體，相關信息僅為傳遞更多信息之目的，不代表本網觀點，亦不代表本網站贊同其觀點或證實其內容的真實性。如稿件版權單位或個人不想在本網發(fā)布，可與本網聯系，本網視情況可立即將其撤除。

微信
微博
手機中宏網