養龍蝦(OpenClaw)選哪個模型好?18 款模型實戰評測

  • 大數軟體
快速摘要

local_agentic_llm 是大數軟體發布的開源 AI Agent 基準測試框架,透過 OpenRouter API 評估 18 款語言模型(15 款開源)在 Agentic Coding 與 OpenClaw 技能建構情境下的實際表現,各提供 write_file、read_file、run_command、list_files 四種標準工具,兩組各滿分 30、平均各 22.8 分。綜合排名:第 1 名 qwen3-coder-flash(55/60,每分 $0.005);第 2 名 qwen3.5-27b(51/60);並列第 3 名 GLM-5、qwen3.5-122b、Kimi-K2.5(各 50/60)。qwen3.5 家族四個變體在 OpenClaw G2 並列前 4,得分 26-27 分。性價比最高為 gpt-oss-120b($0.0004/分,整輪僅 $0.02);Gemini 3 Flash 與 qwen3.5-27b 是冠軍區首選($0.09-0.10/次,G1 均達 25 分);Claude Haiku 4.5 雖得 48 分,每分高達 $0.178。六大任務通過率:Web 前端 89%、資料處理 84%、工具使用 83%、CLI 62%、REST API 52%、WebSocket 40%。

怎麼選龍蝦(OpenClaw)模型?

現在像 OpenClaw 這類工具越來越紅,大家都開始想要打造屬於自己的個人私人助理。這種私人助理不只是拿來聊天而已,甚至還可以幫忙處理辦公流程、寫程式,成為真正能協助工作的 AI 助手。

不過問題也很直接:到底該選哪一種模型?如果直接使用 API,成本通常會比較高。像是 OpenAI、Anthropic 的 Claude,或是 Google 的 Gemini,雖然能力強,但如果長期拿來當個人助理或開發用途,整體費用其實不一定划算。

所以大家真正需要的,往往不是「最貴」的模型,而是「夠便宜、又夠可靠」的模型。也因為這樣,大數軟體做了一套自動化評測流程 local_agentic_llm,去實際比較近期幾個主流模型的表現,看看誰比較抗打,誰的 CP 值更高。

在第一輪測試中,使用 Agentic Coding 進行評估;第二輪則改用 OpenClaw 的相關 workflow 來測試。框架提供四種標準工具:write_fileread_filerun_commandlist_files,透過 OpenRouter API 統一接入,讓 18 款模型(其中 15 款開源)在同等條件下一較高下。未來若你想測試其他模型或加入不同測試方式,歡迎到 GitHub 發 issue


為什麼要自製 Agent Harness?

第一輪測試原本使用 OpenCode 作為評測工具,但實測後發現一個問題:OpenCode 對某些模型存在相容性偏差,導致像 Gemini FlashClaude Haiku 這類模型的失敗率異常偏高,結果不具可比性。

為了讓測試公平,大數軟體自製了一個非常陽春、簡單的 Agent Harness,只負責一件事:把任務描述丟給模型,讓它透過四個標準工具自己完成任務。沒有多餘的框架封裝,也沒有對特定模型的優化,所有模型在完全相同的條件下競爭。

評估 Agent 如何運作?

系統架構圖

任務描述
models.txt & 自然語言 Prompt
Agent Harness
agent_harness.py 控制測試流程
OpenRouter API
統一接入 18 款 LLM
LLM 模型
Qwen3 / Kimi
Haiku / GLM / Gemini
四種標準工具
write_file
read_file
run_command
list_files
可運行程式
自動化驗證
得分 / 30
每組 10 項測試
Token 成本
$/pt 效益分析
Group 1
Python 基礎寫程式
10 項測試 / 滿分 30
Group 2
OpenClaw Agent 技能
10 項測試 / 滿分 30

整體流程如下:Agent Harness 讀取 models.txt 中的模型清單,為每款模型建立獨立的測試環境,透過 OpenRouter API 傳送模糊任務描述,LLM 透過工具呼叫(tool-call)完成程式撰寫、執行與驗證,最後計算得分與 token 成本,產出可比較的排行榜。


核心發現

實測結果顯示,兩組難度幾乎持平:Group 1 平均 22.8/30,Group 2 平均同樣為 22.8/30。主要結論如下:

  1. qwen3-coder-flash 綜合領先(55/60) — 寫程式滿分 30/30,OpenClaw 技能 25/30
  2. qwen3.5-27b 第 2(51/60) — Dense 27B 架構,G2 達 26/30,最強通用模型
  3. qwen3.5 家族稱霸 OpenClaw(G2) — 四個變體(122b、35b、27b、397b)全部進入 G2 前 4 名,得分 26-27/30
  4. 開源主導 — 18 款中 15 款開源;僅 qwen3-coder-flash、Claude Haiku、Gemini Flash 為閉源
  5. 性價比最佳 — Gemini 3 Flash($0.09/次)與 qwen3.5-27b($0.10/次)在 G1 拿下 25/30,是綜合分數與費用最划算的選擇

「對企業而言,最貴的模型不等於最划算。qwen3.5-27b 和 Gemini 3 Flash 在兩組測試中均表現穩定,費用卻只有 Claude Haiku 4.5 的 1/28,是實際部署 AI Agent 的首選切入點。」


完整排行榜:18 款模型綜合得分(滿分 60 分)

以下圖表呈現 18 款模型的綜合得分分佈(Group 1 寫程式 + Group 2 OpenClaw 技能,各滿分 30):

local_agentic_llm 綜合得分排行榜 18 款模型 Coding + OpenClaw 技能(滿分 60)

▲ 綜合得分:寫程式 + OpenClaw 技能(滿分 60)。Q3-CF(qwen3-coder-flash)以 55 分領先,qwen3.5-27b 第 2(51 分)。

local_agentic_llm 18款模型完整排行榜 含G1 G2分數 架構 費用

▲ 完整排行榜:18 款模型含 G1/G2 分數、架構、參數規模與費用。

# 模型 G1 G2 綜合 $/分 類型
1 qwen3-coder-flash 30 / 30 ★ 25 / 30 55 / 60 $0.005 閉源
2 qwen3.5-27b 25 / 30 26 / 30 51 / 60 $0.005 開源
3 GLM-5 26 / 30 24 / 30 50 / 60 $0.013 開源
3 qwen3.5-122b 23 / 30 27 / 30 ★ 50 / 60 $0.008 開源
3 Kimi-K2.5 27 / 30 23 / 30 50 / 60 $0.009 開源
6 qwen3.5-35b 22 / 30 27 / 30 ★ 49 / 60 $0.003 開源
6 qwen3-coder-30b 26 / 30 23 / 30 49 / 60 $0.003 開源
8 qwen3-coder (480B) 24 / 30 24 / 30 48 / 60 $0.004 開源
8 Claude Haiku 4.5 27 / 30 21 / 30 48 / 60 $0.178 閉源
10 GLM-4.7 23 / 30 23 / 30 46 / 60 $0.014 開源
10 qwen3.5-397b 20 / 30 26 / 30 46 / 60 $0.010 開源
12 gpt-oss-120b 22 / 30 23 / 30 45 / 60 $0.0004 開源
12 Gemini 3 Flash 25 / 30 20 / 30 45 / 60 $0.004 閉源
14 qwen3-coder-next 20 / 30 24 / 30 44 / 60 $0.004 開源
15 minimax-m2.1 24 / 30 19 / 30 43 / 60 $0.007 開源
16 minimax-m2.5 19 / 30 19 / 30 38 / 60 $0.006 開源
17 gpt-oss-20b 14 / 30 23 / 30 37 / 60 $0.001 開源
18 Kimi-K2 14 / 30 13 / 30 27 / 60 $0.044 開源

資料來源:local_agentic_llm GitHub 開源專案,2026 年 3 月。★ 滿分或並列最高分。費用估算基於 OpenRouter 定價 × 實際 Token 消耗。


分數 vs 費用:誰在冠軍區?

除了得分,成本效益是企業選型的關鍵。下圖為第一組寫程式任務的「分數 vs 費用」四象限分析:

AI Agent 模型分數 vs 費用四象限分析 local_agentic_llm Group 1 寫程式任務

▲ 右上角「冠軍區」為最佳選擇:高分且低成本。Q3-Coder-Flash、Gemini 3 Flash、qwen3.5-27b 均落在冠軍區;Claude Haiku 雖高分但位於「高分但貴」象限(貴 28 倍卻只多 2 分)。

四象限解讀:

  • 冠軍區(右上):Q3-Coder-Flash(30/30,$0.18/次)、Gemini 3 Flash(25/30,$0.09/次)、qwen3.5-27b(25/30,$0.10/次)— 高分且低成本,最推薦
  • 高分但貴(左上):Claude Haiku 4.5(27/30,$2.58/次)— 表現強但比 Gemini Flash 貴 28 倍,卻只多 2 分
  • 預算之選(右下):GPT-OSS-120B(22/30,$0.01/次)— 成本極低,整輪測試僅需 $0.02,適合大量批次任務
  • 又貴又弱(左下):Kimi-K2 費用高但得分低,不推薦

六大任務類別通過率:哪些任務最難?

任務類別 通過率 難度評估
Web 前端 89% 簡單 模型普遍熟悉 HTML/CSS/JS
資料處理 84% 簡單 pandas / 資料清洗為訓練資料大宗
工具使用 83% 中等 需正確理解 tool-call 流程
腳本 & CLI 62% 中難 環境變數與路徑問題易出錯
REST API 52% 困難 需處理認證、錯誤回應、非同步
WebSocket / 即時通訊 40% 最難 長連線、狀態管理超出多數模型能力

值得注意的是,REST API 類任務(含 URL Shortener、Expense API)整體通過率僅 52%,WebSocket 即時通訊更只有 40%。其中最能區分模型能力的是 Test 10(Smart Home Controller)大多數模型這題都卡關。


對企業的實務建議

  1. 優先使用 agentic 場景評測,而非純程式碼生成測試:同一模型在寫程式與 Agent 框架任務上的表現可能差異顯著,單看程式碼生成分數不足以代表真實部署能力。
  2. 中低成本開源模型已足夠處理八成任務:Web 前端(89%)、資料處理(84%)、工具調用(83%)均可交由開源模型自動化。
  3. REST API 與 WebSocket 整合仍需人工監督:通過率各只有 52% 與 40%,全自動化風險仍高。
  4. 以每分成本評估,而非絕對分數:gpt-oss-120b 每分成本約 $0.0004(整輪測試僅需 $0.02);Claude Haiku 4.5 每分高達 $0.178,比同分開源方案貴 40 倍以上。
  5. Token 用量要納入成本估算:Claude Haiku 4.5 消耗最多(1,955K tokens,72.4K tokens/pt);Gemini 3 Flash 最省(107K tokens,4.3K tokens/pt)。帳面 API 費率之外,token 用量會大幅拉高實際成本。

大數軟體的 RAGi 企業 AI 決策平台QubicX 地端 AI 部署方案均支援彈性整合開源 LLM,協助企業根據任務類型選用最適模型,避免過度投入高成本 API。


開源專案連結

GitHub ywchiu/local_agentic_llm