研究

數據、Benchmark 和誠實的限制。

ATR 公開發布 evasion test。我們告訴你我們抓不到什麼。

已發布論文

Pan, Y. (2026). Agent Threat Rules: A Community-Driven Detection Standard for AI Agent Security Threats.

Zenodo (published) →SSRN: Abstract ID 6457179 (pending review)

Benchmarks

用我們自己的語料庫和從未見過的外部 benchmark 測試。

PINT(外部對抗測試)
0%
Precision
0%
Recall
0
F1
850 samples
Self-Test(自有規則)
0%
Precision
0%
Recall
341
Samples

99.6% precision 和 61.2% recall 之間的差距是預期的。Regex 能抓到已知模式,但會漏掉重述和多語言攻擊。

生態系掃描數據

真實掃描真實的 MCP skill 註冊表。

Mega Scan (OpenClaw + Skills.sh)
0
skills scanned
0
CRITICAL
0
HIGH
0
Total flagged
ClawHub Registry Scan
0
skills crawled
0
CRITICAL
0
HIGH
0
With source code

ATR 無法偵測什麼

我們發布這個章節,因為誠實的限制比虛假的自信更能建立信任。

重述攻擊

任何 regex 規則都可以被語義等價的重述繞過。「Ignore previous instructions」會被偵測;「please set aside the guidance you were given earlier」不會。

多語言攻擊

所有模式都是英文的。用西班牙語、中文、阿拉伯語或任何其他語言寫的注入攻擊會完全繞過。

上下文相關攻擊

「Delete all records」可能是合法或惡意的。Regex 匹配模式但不理解授權上下文。

協議層攻擊

ATR 檢查內容,不檢查傳輸。Message replay、schema manipulation、MCP 傳輸層 MITM 是不可見的。

多輪行為模式

20 輪對話中的漸進式信任升級,單一訊息無法偵測,ATR 不會關聯。ATR 獨立評估每個事件。

新型攻擊

根據定義,regex 無法偵測還不存在的攻擊模式。新技術需要新規則。