AI學習地圖 09：可靠上線（評估、安全、監控）

很多團隊第一版 AI 功能都「能 demo」，但一上線就遇到三件事：

回答品質不穩（今天可以、明天不行）
風險控制不足（洩漏、越權、誤導）
出問題時看不到根因（不知道是模型、提示詞、工具還是資料）

這篇主題很明確：AI Production 的核心是 Evals（評估）+ Guardrails（安全護欄）+ Observability（可觀測性）。
我先查了官方與主流框架後，再整理成你可以直接落地的版本。

先懂的 5 個名詞（白話版）

Evals：用固定題庫與標準答案，定期測 AI 表現。它的目的不是追求完美，而是避免每次改版都退步。
Guardrails：限制 AI 能做和不能做的事。像是敏感內容過濾、工具權限限制、人工審批。
Observability：讓你看得到每次請求的路徑與結果。包含延遲、錯誤率、token、成本、工具呼叫成功率。
Rollback：新版品質下降時，能快速退回前一版。沒有 rollback，上線風險會被放大。
Human-in-the-loop：高風險動作由人最後確認。不是 AI 不夠強，而是責任邊界要清楚。

為什麼這篇是「上線分水嶺」

只做 Prompt 優化，你得到的是「看起來比較好」；
做了 Evals + 安全 + 監控，你得到的是「可以長期運營」。

這也是 NIST AI RMF 和 OWASP LLM Top 10 在強調的方向：
先定義風險與治理，再擴大流量與功能。

可靠上線的最小架構（一張圖看懂）

AI 生產上線飛輪

可直接複製的結構化 Prompt（治理方案版）

角色：你是 AI 平台 SRE。
目標：為「客服 AI」建立可上線治理方案，要求可量測、可回滾、可審計。

背景：
- 目前使用 LLM + RAG 回答客戶問題
- 可能會呼叫查訂單工具
- 風險：答錯政策、誤導退款條件、越權查詢

輸出：
1) Evals 設計（離線/線上指標、資料集來源、回歸測試頻率）
2) 安全護欄（輸入防護、工具權限、輸出審核、人工接管條件）
3) 監控告警（延遲、錯誤率、工具失敗率、成本異常、高風險事件）
4) 回滾與降級策略（模型、Prompt、RAG、工具）
5) 30 天執行計畫（每週可交付）

限制：
- 每項都要能被量測（有指標）
- 每項都要能被驗證（有測試方法）
- 不可只給原則，必須給可執行步驟

第一部分：Evals（評估）怎麼做才有用

你至少要有 3 種指標

任務品質：是否答對、是否有用、格式是否合格
風險品質：不當內容觸發率、拒答是否合理、越權是否被擋下
系統品質：延遲、失敗率、工具呼叫成功率、單次成本

最小資料集建議

100 題核心任務（高頻場景）
30 題邊界案例（模糊、衝突、資料不足）
20 題對抗案例（注入、越權、誘導外洩）

什麼時候一定要重跑 eval

換模型
改 system prompt
改 RAG 檢索策略
新增/修改工具權限

第二部分：Guardrails（安全護欄）怎麼落地

風險分級（建議）

低風險：內容摘要、一般說明，可自動回覆
中風險：涉及政策判斷，需二次驗證
高風險：金流、個資、法律/醫療建議，必須人工確認

4 層防護

輸入層：防 prompt injection、敏感資料偵測
推理層：限制工具可用範圍（最小權限）
輸出層：敏感資訊遮罩、禁止不當承諾
流程層：高風險操作要求人工審批

第三部分：Observability（可觀測性）看什麼

儀表板至少要有

請求量、P95 延遲、錯誤率
模型 token 使用量與成本趨勢
工具呼叫成功率、超時率、重試率
安全事件：越權阻擋次數、人工接管次數

出事時要能回答 5 個問題

哪一版模型/Prompt 在跑？
哪個步驟失敗（檢索、工具、輸出）？
失敗是否集中在某類題型？
影響多少使用者？
現在可否立即降級或回滾？

真實場景例子（客服 AI）

事件

新版上線後，退款問題回答正確率從 92% 掉到 78%。

正確處理

告警觸發：品質指標跌破門檻
立即降級：切回前一版 prompt + 關閉高風險工具
根因分析：發現新檢索規則把舊政策權重拉高
修正後回歸測試：100 題核心 + 20 題對抗全跑一次
小流量重放：確認恢復後再全量

常見誤解（至少 3 點）

「只要模型夠新，品質自然會更好。」
實務上模型升級常伴隨行為改變，沒有回歸 eval 就等於盲飛。
「安全靠一個關鍵字黑名單就好。」
真正風險在流程與權限，尤其是工具呼叫與資料存取。
「有監控就等於有可觀測性。」
可觀測性重點是可追溯：要能把問題對應到版本、請求、工具、資料來源。

30 天落地計畫（給團隊直接用）

第 1 週：定義成功指標 + 收斂 150 題基準題庫
第 2 週：接入安全護欄（輸入、權限、輸出、人工接管）
第 3 週：完成儀表板與告警，建立回滾腳本
第 4 週：做一次演練（故障注入 + 回滾 + 事後檢討）

這篇的重點結論

沒有 Evals，你不知道品質有沒有退步
沒有 Guardrails，你無法把風險關在邊界內
沒有 Observability，你出事時只能猜

參考（本篇重寫依據）

OpenAI Evals（官方 Cookbook）：https://cookbook.openai.com/topic/evals
OpenAI Model Spec（行為與安全邊界）：https://model-spec.openai.com/
Anthropic Test & Evaluate（成功標準定義）：https://docs.anthropic.com/en/docs/test-and-evaluate/define-success
NIST AI Risk Management Framework：https://www.nist.gov/itl/ai-risk-management-framework
OWASP Top 10 for LLM Applications：https://genai.owasp.org/