的闖入 人工智慧作為網路安全工具 Mozilla 與 Anthropic 在 Firefox 瀏覽器開發方面取得了重大突破。短短幾週內,人工智慧模型就發現了 Mozilla 開源瀏覽器中的多個漏洞,而這些漏洞通常需要數月的人工才能發現。
這項實驗對…產生了直接影響 西班牙和歐洲其他地區的Firefox用戶它用於衡量語言模型在審計真實程式碼方面如今能發揮多大的作用,以及它們在保護數億人每天使用的軟體方面能發揮什麼作用。
當人工智慧成為最佳安全審計員
在軟體安全領域,在攻擊者之前發現漏洞至關重要:這可能意味著截然不同的結果。 保護數百萬用戶還是揭露他們的數據在這種情況下,Mozilla 測試了一種不同尋常的方法:讓先進的人工智慧審查其瀏覽器的原始程式碼,以便在研究人員或網路犯罪分子之前發現漏洞。
在發布會開始前幾週 火狐148瀏覽器安全團隊收到了一份令人震驚的報告: 人類前沿紅隊 該公司內部的進攻研究小組聲稱,借助其克勞德模型,他們發現: 十幾個可驗證的安全漏洞 在Firefox的JavaScript引擎中。這些並非僅僅是懷疑,而是有確切證據支持的漏洞。
它與其他在該領域使用人工智慧的嘗試相比,最大的區別在於報告的品質。每個漏洞都有對應的佐證。 最小可複現測試案例這些程式碼片段很小,卻能確定性地觸發漏洞。這使得 Mozilla 的工程師能夠在數小時內驗證問題是否真的存在,並立即著手修復,而無需花費時間重現那些難以捉摸的場景。
在一個生態系統中,許多由自動化工具產生的警報最終都被丟棄,因為它們 誤報或不準確報告Anthropic 的方法大幅降低了噪音,並提供了有用的信號:數量較少,但結果經過驗證且可操作。

Anthropic 的 Frontier Red Team 是什麼?它如何與 Claude 合作?
電話 前線紅隊 這是Anthropic公司專門探索其人工智慧模式在攻防安全領域極限的部門。其目標不僅在於評估模型內部的風險,還在於調查… 如何利用人工智慧發現實際軟體中的漏洞? 在惡意行為者採取行動之前。
近幾個月來,該團隊已經證明,像這樣的模型 克勞德作品 4.6 可以運行 在受控環境下對複雜網路進行多階段攻擊這體現了他們的分析能力。同樣的能力已被以協調負責的方式重新分配,用於按照負責任的漏洞披露流程審查 Firefox 等開源專案。
以 Mozilla 瀏覽器為例,Anthropic 首先進行了測試練習:使用 Claude 來 重現史上的 Firefox 漏洞(CVE)我們檢查了該模型是否能夠識別舊版本代碼中已記錄的故障模式。結果顯示模型能夠識別,但需要注意一點:部分資訊可能已存在於模型的訓練資料中。
為了更進一步,Frontier Red Team 邁出了關鍵一步:讓 AI 定位 目前版本的Firefox存在新的漏洞。也就是說,這些漏洞尚未被列入任何公共資料庫或 Mozilla 的內部追蹤系統。
Firefox JavaScript 引擎漏洞是如何被發現的
起點是瀏覽器的 JavaScript 引擎,這是一個關鍵元件,因為它負責… 從網頁執行不受信任的外部程式碼這一層的任何錯誤,在最壞的情況下,都可能成為攻擊使用者係統的入口。
正如 Anthropico 和 Mozilla 所解釋的那樣, 克勞德在大約二十分鐘後發現了自己的第一個致命弱點。 從分析一開始,這就是一種類型的失敗。 釋放後使用,這是一種記憶體漏洞,如果與其他系統弱點結合使用,攻擊者可以利用這種漏洞用任意內容覆蓋資料。
在 Anthropico 的工程師使用最新瀏覽器版本的虛擬機器來驗證此初始警報的同時,人工智慧仍在並行運作。在此期間,該模型已經發出警報。 大約有 50 個額外的輸入資料有異常行為其中許多後來被轉換為測試案例,並發送給了 Mozilla。
這個過程並不限於 JavaScript 引擎。在大約兩週的時間裡,克勞德分析了… 近 6.000 個 C++ 檔案和數千個其他專案文件共產生 112 份獨立報告。經 Mozilla 安全團隊初步篩選後,確認以下報告屬實。 已註冊為 CVE 的 22 個漏洞, 其中 14例被歸類為高危險病例此外,還有近 90 起影響較小或只是邏輯錯誤的故障。
所有已發現的安全問題已在 Firefox 148 開發週期中修復。此版本現已開放給歐洲及世界其他地區的使用者。優先順序較低的錯誤也已修復,但部分調整將保留至後續版本,以避免在單一版本中引入過多變更。

偵測到超過100個漏洞,誤報率低於其他人工智慧系統。
在整個合作過程中,克勞德的分析得出了以下結論: 超過100個不同的火狐瀏覽器漏洞雖然並非所有漏洞都被證實是可利用的漏洞,但其數量表明,即使是像 Mozilla 瀏覽器這樣成熟且經過審計的項目,仍然可能隱藏大量漏洞。
為了讓大家了解其影響,Mozilla 的安全團隊解釋說,僅僅在這兩週的測試中,人工智慧就能夠… 找出相當於一年內瀏覽器中所有已修復關鍵漏洞總數的約 20% 的高風險漏洞數量。換句話說,人工智慧輔助審計將通常需要幾個月才能完成的任務壓縮到了幾天之內。
誤報率是關鍵因素之一。近年來,許多開源項目,包括歐洲的項目,都出現了誤報。 低品質人工智慧工具產生的大量報告這些報告通常由希望透過漏洞賞金計畫獲得獎勵的用戶提交。他們提交的報告要不是不存在的問題,就是描述不清的問題,給維護人員造成了極大的壓力。
Mozilla 意識到這種情況,最初對合作持謹慎態度。然而,Frontier Red Team 的做法卻截然不同: 只有附有確鑿證據的裁決才會提交複審。,能夠清晰地自動複製,並且在某些情況下,人工智慧會自行產生候選補丁建議,並由人類進行審核。
Mozilla 的工程師強調了他們認為信任基於人工智慧的報告所必需的三個要素: 最小測試案例、詳細的概念驗證和建議的補丁這種組合大大縮短了確認一項發現是否需要立即處理或可以推遲處理所需的時間。
人工智慧能否利用它發現的漏洞?
實驗中最棘手的問題之一是,要弄清楚克勞德是否不僅能夠… 查找漏洞但也要將它們變成 功能性漏洞利用也就是說,攻擊能夠對目標系統執行惡意操作。
Anthropic 決定在受控環境下測試該模型的這項能力。團隊向模型提供了已向 Mozilla 報告的漏洞信息,並要求其生成利用程式碼,目的是… 讀寫本地文件 在測試機上執行的操作,在實際場景中會導致系統嚴重受損。
為了實現這一目標,進行了數百次單獨的執行,並投入了約[金額缺失]。 價值 4.000 美元的 API 積分結果很微妙:克勞德最終只完成了 兩個簡單的漏洞利用方法即可奏效然而,這種情況只發生在現代瀏覽器中存在的幾項保護措施(例如沙盒和其他強化防禦措施)被故意停用的環境中。
Mozilla強調,在實際情況下,破解Firefox通常需要 將多個漏洞串聯起來,繞過多層防禦即使發現一個高風險漏洞,也很少足以控制使用者的系統,這目前限制了這些工具的直接攻擊潛力。
即便如此,Anthropic 認為,語言模型能夠做到這一點意義重大,即使只是在少數情況下,並且在簡化的條件下。 自動產生針對現代瀏覽器的漏洞程式該公司警告稱,隨著評估模型和方法的不斷改進,這種差距(即發現漏洞和利用漏洞之間的差異)可能會縮小。
Mozilla 將人工智慧整合到其安全協定中
合作取得成功之後, Mozilla 已確認將把人工智慧輔助分析整合到其常規安全工作流程中。 適用於 Firefox 瀏覽器。基金會的團隊已經開始在內部使用 Claude 對程式碼的關鍵區域進行錯誤分類、修補程式審查和漏洞模式檢測。
該組織在歐洲擁有強大的用戶和開發者群體,並將這項技術視為一種途徑… 加強隱私和安全保護這些都是構成Firefox專案核心價值的支柱。作為開源瀏覽器,其程式碼庫對獨立研究人員和自動化代理(例如Anthropic公司自主研發的人工智慧)均開放,可供其進行審計。
對 Mozilla 來說,關鍵在於保持… 自動化審核與人工審核之間的平衡儘管人工智慧模型可以加速錯誤檢測並提出修復方案,但該基金會堅持認為,任何修補程式——無論是人還是機器——在整合到歐洲和世界其他地區公民使用的瀏覽器中之前,都必須經過同等的技術審查。
這項經驗也為其他軟體專案提供了實用指導,包括在西班牙或歐盟境內開發的專案:如果希望基於人工智慧的報告被接受,建議提出要求。 可重複性的明確證據 並建立專門的管道進行此類披露,避免傳統錯誤追蹤系統超負荷運轉。
歐洲開發者和科技公司的經驗教訓
拋開圍繞Firefox的媒體熱潮,Anthropic和Mozilla之間的合作也得出了一些相關的結論。 新創企業、科技中小企業和大型歐洲公司 開發自己的軟體或數位服務。
其中最明確的一點是: 人工智慧輔助程式碼審計已具備經濟可行性。以前需要專家團隊花費數週時間才能完成的工作,現在只需幾個小時或幾天就能進行初步的自動化掃描,而且成本遠低於徹底的人工審查。
另一個教訓是… 檢測速度開始超過人類的矯正能力。像 Claude 這樣的工具可以快速發現數十個潛在漏洞,但瓶頸在於內部團隊是否能在不破壞系統其他部分的情況下驗證、確定優先順序並修復這些問題。
很明顯, 開源並不等於安全保障。然而,它確實提供了一個顯著的優勢:透明度。像 Firefox 這樣在歐洲因其註重隱私而廣受歡迎的項目,允許社群和自動化代理商持續審查程式碼,這在封閉的解決方案中是不可能實現的。
對於許多組織而言,將人工智慧整合到開發流程中——例如,透過將自動化分析整合到 CI/CD 階段——可能會變得非常困難。 在證明符合監管規定時,這是一個區分因素。隨著未來歐洲網路安全和關鍵軟體標準的應用,這一點變得越來越重要。
同時,案例也提醒我們,攻擊者同樣可以利用類似的技術。 目前看來,防守方似乎佔優勢。人工智慧更擅長發現和幫助糾正缺陷,而不是利用缺陷,但沒有人認為這種優勢會持續很多年。
在這種情況下,歐洲企業(從銀行到電子商務平台或數位公用事業公司)的安全經理開始將這些工具視為必要的安全措施,而不是實驗性的附加功能。 這是他們軟體保護策略的另一部分.
Firefox 和 Anthropic 的慘痛教訓表明,經過良好引導和監督的 AI 模型可以發揮頂級安全審計員的作用:它可以審查大型程式碼庫,檢測複雜錯誤,並快速提出解決方案。同時,這也清楚地表明,最終決策權仍然掌握在人類團隊手中,他們必須在軟體和威脅演進速度不斷加快的環境下,決定修補哪些漏洞、如何修補以及優先順序如何設定。