MLX 推論框架基準測試：Apple Silicon M5 Max 跑 35B LLM 實測比較

LargitData
May 10, 2026, 2:43 p.m.

原始基準測試資料來源： github.com/ywchiu/mlx_benchmark_lab
完整 JSONL 結果、繪圖腳本與雙語報告皆於此 Repository 開源公開。

MLX 是 Apple 為自家 Silicon 晶片設計的機器學習框架，能在 Mac 上以統一記憶體（Unified Memory）直接執行大型語言模型（LLM）推論，無需 NVIDIA GPU。隨著 rapid-mlx、omlx、dflash-mlx、mlx-vlm 四大推論引擎陸續推出，企業在地端 AI（On-Premise AI）部署上多了 Apple Silicon 這個極具吸引力的選項。本文以 ywchiu/mlx_benchmark_lab 公開基準測試（Apple M5 Max、64 GB 統一記憶體、35B 參數 MoE 量化模型）為依據，深入解析四大框架在不同上下文長度下的效能與穩定度，並提供企業地端 AI 選型建議。

什麼是 MLX？Apple Silicon 上的 LLM 推論框架

MLX 是 Apple 機器學習研究團隊在 2023 年底開源的數值運算框架，其核心特色是針對 Apple Silicon（M1/M2/M3/M4/M5 系列晶片）的統一記憶體架構深度優化。與必須在 CPU 與 GPU 之間搬移張量資料的傳統 CUDA 流程不同，MLX 的張量可在 CPU、GPU、Neural Engine 之間零拷貝（Zero-Copy）共享，大幅降低記憶體頻寬瓶頸。這項架構優勢讓配備 64 GB 以上統一記憶體的 Mac Studio 與 MacBook Pro，成為地端執行 30B–70B 參數 LLM 的可行平台。

在 MLX 之上，社群陸續發展出多款專注於 LLM 推論的引擎，每款皆針對不同的應用場景做了取捨。本次基準測試涵蓋的四款主流框架包括：rapid-mlx（功能彈性、支援分頁 KV Cache 與多 Token 預測）、omlx（長文脈穩定度與整體效能均衡）、dflash-mlx（採用推測式解碼 Speculative Decoding，短文脈速度最快）、以及 mlx-vlm（唯一支援圖像、影片、語音多模態輸入的框架）。

基準測試方法與硬體環境

本次測試使用 Apple M5 Max 晶片搭配 64 GB 統一記憶體，模型為 mlx-community/Qwen3.6-35B-A3B-4bit——這是 35B 總參數、3B 啟動參數的 4-bit 量化混合專家（MoE）模型。為確保結果可比較，所有框架都透過 OpenAI 相容 API 啟動本地伺服器，並明確關閉 Prefix Cache（前綴快取），以量測真實的冷啟動 Prefill 效能。每個上下文長度執行 5 次重複測試，計算中位數、平均數、標準差。測試的上下文長度涵蓋 7 個區間：64、512、2,048、4,096、8,192、16,384、32,768 tokens。

測試結果：解碼速度與長文脈表現

MLX 推論框架 Decode TPS 比較圖 — 圖一：四大 MLX 推論框架在七個上下文長度下的解碼速度（tokens/sec）比較。

上下文長度	rapid-mlx	omlx	dflash-mlx	mlx-vlm
64 tokens	124.9	123.7	167.3	95.5
512 tokens	119.5	119.4	122.9	94.8
2,048 tokens	102.5	121.1	160.1	88.5
4,096 tokens	97.6	120.4	104.5	91.4
8,192 tokens	90.3	118.0	96.3	87.2
16,384 tokens	83.2	105.3	84.1	83.1
32,768 tokens	72.3	82.1	12.6 ⚠️	67.7

單位：tokens/sec（中位數），數字越高越好。資料來源：ywchiu/mlx_benchmark_lab，2026-05-09。

關鍵觀察一：dflash-mlx 在短文脈（≤ 2K）展現約 35% 的解碼速度優勢，這歸功於推測式解碼技術；但在 32K 長文脈下發生災難性衰退至 12.6 tps，比其他框架慢約 6 倍，顯示其架構難以擴展至長上下文。

關鍵觀察二：omlx 是長文脈場景的全能冠軍，從 4K tokens 開始全面領先，在 16K 仍能維持 100 tps 以上，32K 達 82.1 tps，且標準差最小，是穩定度最高的框架。

關鍵觀察三：所有框架在從 64 到 32,768 tokens 的擴展過程中皆出現顯著衰退，但衰退程度從 omlx 的 34% 到 dflash-mlx 的 92% 相差極大。TTFT（首 Token 延遲）方面差異更大，跨越近三個數量級——dflash-mlx 在 32K 上下文下飆升至 31 秒，超過其他框架的兩倍。

MLX 推論框架 Decode 速度分佈盒鬚圖 — 圖二：解碼速度分佈盒鬚圖（box plot），可看出每個框架的中位數、四分位距與離群值。omlx 分佈最緊密，dflash-mlx 在長文脈下出現極端離群值。

MLX 推論框架長文脈衰退曲線 — 圖五：以 64-token 為基準的解碼速度衰退百分比。omlx 衰退僅 34%，dflash-mlx 衰退 92%，差距懸殊。

MLX 推論框架 TTFT 首 Token 延遲比較 — 圖四：TTFT（首 Token 延遲）隨上下文長度變化，跨越近三個數量級。dflash-mlx 在 32K 飆升至 31 秒，為其他框架的兩倍以上。

MLX 推論框架 Decode 標準差比較 — 圖三：解碼速度標準差隨上下文長度變化。omlx 標準差最低，代表延遲最可預測；rapid-mlx 在短文脈下出現 TTFT 抖動。

MLX 推論框架 Prefill TPS 比較 — 圖六：Prefill 速度（tokens/sec）比較。Prefill 為輸入處理階段，影響首字輸出延遲。

如何選擇適合應用場景的 MLX 框架

omlx — 長文脈與企業生產系統首選：從 4K tokens 起全面領先，且具備四大框架中最低的標準差，是企業 RAG、文件摘要、長篇法律或財報分析的最佳選擇。穩定度高代表 SLA 容易達標，可預測的延遲表現也讓容量規劃更為直觀。

dflash-mlx — 短文脈高吞吐專用：在 64-token 上下文達到 167.3 tps 的爆發力，適合輸入長度可預測且明確控制在 2K tokens 以下的應用，例如結構化資料分類、SQL 生成、簡短客服回覆。但須嚴格避免長上下文場景。

rapid-mlx — 功能彈性的中間選擇：在任何上下文長度都不是最快，但表現相對穩定，且具備分頁 KV Cache、Prefix Cache、多 Token 預測等彈性功能。適合需要這些進階特性的研發團隊。

mlx-vlm — 多模態輸入唯一選項：純文字工作負載慢約 25–30%，但是四大框架中唯一支援圖像、影片、語音輸入的框架。如果應用需要 OCR 後影像理解、視訊摘要、或多模態客服機器人，是當前唯一選擇。

對企業地端 AI 部署的啟示

企業地端 AI 部署的關鍵啟示是：硬體與軟體必須整體評估，不能只看 GPU 規格表面上的 TFLOPS 數字。Apple Silicon 在統一記憶體架構下，搭配正確的 MLX 框架，能以更低的硬體成本（單台 Mac Studio 約 USD 4,000）跑得動 35B 參數的量化模型，並達到 80–120 tokens/sec 的解碼速度——這對許多企業內部的 RAG 或智慧客服場景已經足夠。

相較於 NVIDIA H100 動輒 USD 30,000 以上的單卡成本，Apple Silicon 為中小企業與分散式部署提供了極具吸引力的另一條路徑。但企業若要將 Apple Silicon 納入正式生產環境，必須建立框架選型、版本管理、健康檢查、效能監控的完整 MLOps 流程。

LargitData 的 QubicX 地端 AI 平台支援多種硬體後端（NVIDIA GPU、AMD GPU、Apple Silicon），並內建框架抽象層，能依據用戶提交的上下文長度自動選擇最適合的推論引擎，避免企業 IT 團隊需要自行判斷與切換。對於追求資料主權、低延遲、可預測成本的台灣企業，這類自動化的地端 AI 編排能力，是從基準測試走向生產部署的關鍵橋樑。

完整原始 JSONL 結果、繪圖腳本（plot_results.py）、雙語報告皆已開源公開，歡迎在自家 Mac 上重現驗證： github.com/ywchiu/mlx_benchmark_lab