養龍蝦(OpenClaw)選哪個模型好？18 款模型實戰評測

大數軟體
March 20, 2026, 2:14 p.m.

快速摘要

local_agentic_llm 是大數軟體發布的開源 AI Agent 基準測試框架，透過 OpenRouter API 評估 18 款語言模型（15 款開源）在 Agentic Coding 與 OpenClaw 技能建構情境下的實際表現，各提供 write_file、read_file、run_command、list_files 四種標準工具，兩組各滿分 30、平均各 22.8 分。綜合排名：第 1 名 qwen3-coder-flash（55/60，每分 $0.005）；第 2 名 qwen3.5-27b（51/60）；並列第 3 名 GLM-5、qwen3.5-122b、Kimi-K2.5（各 50/60）。qwen3.5 家族四個變體在 OpenClaw G2 並列前 4，得分 26-27 分。性價比最高為 gpt-oss-120b（$0.0004/分，整輪僅 $0.02）；Gemini 3 Flash 與 qwen3.5-27b 是冠軍區首選（$0.09-0.10/次，G1 均達 25 分）；Claude Haiku 4.5 雖得 48 分，每分高達 $0.178。六大任務通過率：Web 前端 89%、資料處理 84%、工具使用 83%、CLI 62%、REST API 52%、WebSocket 40%。

怎麼選龍蝦(OpenClaw)模型？

現在像 OpenClaw 這類工具越來越紅，大家都開始想要打造屬於自己的個人私人助理。這種私人助理不只是拿來聊天而已，甚至還可以幫忙處理辦公流程、寫程式，成為真正能協助工作的 AI 助手。

不過問題也很直接：到底該選哪一種模型？如果直接使用 API，成本通常會比較高。像是 OpenAI、Anthropic 的 Claude，或是 Google 的 Gemini，雖然能力強，但如果長期拿來當個人助理或開發用途，整體費用其實不一定划算。

所以大家真正需要的，往往不是「最貴」的模型，而是「夠便宜、又夠可靠」的模型。也因為這樣，大數軟體做了一套自動化評測流程 local_agentic_llm，去實際比較近期幾個主流模型的表現，看看誰比較抗打，誰的 CP 值更高。

在第一輪測試中，使用 Agentic Coding 進行評估；第二輪則改用 OpenClaw 的相關 workflow 來測試。框架提供四種標準工具：write_file、read_file、run_command、list_files，透過 OpenRouter API 統一接入，讓 18 款模型（其中 15 款開源）在同等條件下一較高下。未來若你想測試其他模型或加入不同測試方式，歡迎到 GitHub 發 issue。

為什麼要自製 Agent Harness？

第一輪測試原本使用 OpenCode 作為評測工具，但實測後發現一個問題：OpenCode 對某些模型存在相容性偏差，導致像 Gemini Flash 和 Claude Haiku 這類模型的失敗率異常偏高，結果不具可比性。

為了讓測試公平，大數軟體自製了一個非常陽春、簡單的 Agent Harness，只負責一件事：把任務描述丟給模型，讓它透過四個標準工具自己完成任務。沒有多餘的框架封裝，也沒有對特定模型的優化，所有模型在完全相同的條件下競爭。

評估 Agent 如何運作？

系統架構圖

任務描述

models.txt & 自然語言 Prompt

Agent Harness

agent_harness.py 控制測試流程

OpenRouter API

統一接入 18 款 LLM

LLM 模型

Qwen3 / Kimi
Haiku / GLM / Gemini

四種標準工具

write_file
read_file
run_command
list_files

可運行程式

自動化驗證

得分 / 30

每組 10 項測試

Token 成本

$/pt 效益分析

Group 1

Python 基礎寫程式
10 項測試 / 滿分 30

Group 2

OpenClaw Agent 技能
10 項測試 / 滿分 30

整體流程如下：Agent Harness 讀取 models.txt 中的模型清單，為每款模型建立獨立的測試環境，透過 OpenRouter API 傳送模糊任務描述，LLM 透過工具呼叫（tool-call）完成程式撰寫、執行與驗證，最後計算得分與 token 成本，產出可比較的排行榜。

核心發現

實測結果顯示，兩組難度幾乎持平：Group 1 平均 22.8/30，Group 2 平均同樣為 22.8/30。主要結論如下：

qwen3-coder-flash 綜合領先（55/60） — 寫程式滿分 30/30，OpenClaw 技能 25/30
qwen3.5-27b 第 2（51/60） — Dense 27B 架構，G2 達 26/30，最強通用模型
qwen3.5 家族稱霸 OpenClaw（G2） — 四個變體（122b、35b、27b、397b）全部進入 G2 前 4 名，得分 26-27/30
開源主導 — 18 款中 15 款開源；僅 qwen3-coder-flash、Claude Haiku、Gemini Flash 為閉源
性價比最佳 — Gemini 3 Flash（$0.09/次）與 qwen3.5-27b（$0.10/次）在 G1 拿下 25/30，是綜合分數與費用最划算的選擇

「對企業而言，最貴的模型不等於最划算。qwen3.5-27b 和 Gemini 3 Flash 在兩組測試中均表現穩定，費用卻只有 Claude Haiku 4.5 的 1/28，是實際部署 AI Agent 的首選切入點。」

完整排行榜：18 款模型綜合得分（滿分 60 分）

以下圖表呈現 18 款模型的綜合得分分佈（Group 1 寫程式 + Group 2 OpenClaw 技能，各滿分 30）：

local_agentic_llm 綜合得分排行榜 18 款模型 Coding + OpenClaw 技能（滿分 60）

▲ 綜合得分：寫程式 + OpenClaw 技能（滿分 60）。Q3-CF（qwen3-coder-flash）以 55 分領先，qwen3.5-27b 第 2（51 分）。

local_agentic_llm 18款模型完整排行榜含G1 G2分數架構費用

▲ 完整排行榜：18 款模型含 G1/G2 分數、架構、參數規模與費用。

#	模型	G1	G2	綜合	$/分	類型
1	qwen3-coder-flash	30 / 30 ★	25 / 30	55 / 60	$0.005	閉源
2	qwen3.5-27b	25 / 30	26 / 30	51 / 60	$0.005	開源
3	GLM-5	26 / 30	24 / 30	50 / 60	$0.013	開源
3	qwen3.5-122b	23 / 30	27 / 30 ★	50 / 60	$0.008	開源
3	Kimi-K2.5	27 / 30	23 / 30	50 / 60	$0.009	開源
6	qwen3.5-35b	22 / 30	27 / 30 ★	49 / 60	$0.003	開源
6	qwen3-coder-30b	26 / 30	23 / 30	49 / 60	$0.003	開源
8	qwen3-coder (480B)	24 / 30	24 / 30	48 / 60	$0.004	開源
8	Claude Haiku 4.5	27 / 30	21 / 30	48 / 60	$0.178	閉源
10	GLM-4.7	23 / 30	23 / 30	46 / 60	$0.014	開源
10	qwen3.5-397b	20 / 30	26 / 30	46 / 60	$0.010	開源
12	gpt-oss-120b	22 / 30	23 / 30	45 / 60	$0.0004	開源
12	Gemini 3 Flash	25 / 30	20 / 30	45 / 60	$0.004	閉源
14	qwen3-coder-next	20 / 30	24 / 30	44 / 60	$0.004	開源
15	minimax-m2.1	24 / 30	19 / 30	43 / 60	$0.007	開源
16	minimax-m2.5	19 / 30	19 / 30	38 / 60	$0.006	開源
17	gpt-oss-20b	14 / 30	23 / 30	37 / 60	$0.001	開源
18	Kimi-K2	14 / 30	13 / 30	27 / 60	$0.044	開源

資料來源：local_agentic_llm GitHub 開源專案，2026 年 3 月。★ 滿分或並列最高分。費用估算基於 OpenRouter 定價 × 實際 Token 消耗。

分數 vs 費用：誰在冠軍區？

除了得分，成本效益是企業選型的關鍵。下圖為第一組寫程式任務的「分數 vs 費用」四象限分析：

AI Agent 模型分數 vs 費用四象限分析 local_agentic_llm Group 1 寫程式任務

▲ 右上角「冠軍區」為最佳選擇：高分且低成本。Q3-Coder-Flash、Gemini 3 Flash、qwen3.5-27b 均落在冠軍區；Claude Haiku 雖高分但位於「高分但貴」象限（貴 28 倍卻只多 2 分）。

四象限解讀：

冠軍區（右上）：Q3-Coder-Flash（30/30，$0.18/次）、Gemini 3 Flash（25/30，$0.09/次）、qwen3.5-27b（25/30，$0.10/次）— 高分且低成本，最推薦
高分但貴（左上）：Claude Haiku 4.5（27/30，$2.58/次）— 表現強但比 Gemini Flash 貴 28 倍，卻只多 2 分
預算之選（右下）：GPT-OSS-120B（22/30，$0.01/次）— 成本極低，整輪測試僅需 $0.02，適合大量批次任務
又貴又弱（左下）：Kimi-K2 費用高但得分低，不推薦

六大任務類別通過率：哪些任務最難？

任務類別	通過率	難度評估
Web 前端	89%	簡單模型普遍熟悉 HTML/CSS/JS
資料處理	84%	簡單 pandas / 資料清洗為訓練資料大宗
工具使用	83%	中等需正確理解 tool-call 流程
腳本 & CLI	62%	中難環境變數與路徑問題易出錯
REST API	52%	困難需處理認證、錯誤回應、非同步
WebSocket / 即時通訊	40%	最難長連線、狀態管理超出多數模型能力

值得注意的是，REST API 類任務（含 URL Shortener、Expense API）整體通過率僅 52%，WebSocket 即時通訊更只有 40%。其中最能區分模型能力的是 Test 10（Smart Home Controller）大多數模型這題都卡關。

對企業的實務建議

優先使用 agentic 場景評測，而非純程式碼生成測試：同一模型在寫程式與 Agent 框架任務上的表現可能差異顯著，單看程式碼生成分數不足以代表真實部署能力。
中低成本開源模型已足夠處理八成任務：Web 前端（89%）、資料處理（84%）、工具調用（83%）均可交由開源模型自動化。
REST API 與 WebSocket 整合仍需人工監督：通過率各只有 52% 與 40%，全自動化風險仍高。
以每分成本評估，而非絕對分數：gpt-oss-120b 每分成本約 $0.0004（整輪測試僅需 $0.02）；Claude Haiku 4.5 每分高達 $0.178，比同分開源方案貴 40 倍以上。
Token 用量要納入成本估算：Claude Haiku 4.5 消耗最多（1,955K tokens，72.4K tokens/pt）；Gemini 3 Flash 最省（107K tokens，4.3K tokens/pt）。帳面 API 費率之外，token 用量會大幅拉高實際成本。

大數軟體的 RAGi 企業 AI 決策平台與 QubicX 地端 AI 部署方案均支援彈性整合開源 LLM，協助企業根據任務類型選用最適模型，避免過度投入高成本 API。

開源專案連結

GitHub ywchiu/local_agentic_llm