地端 AI 部署完整指南:企業自建 AI 基礎設施的規劃與實作
隨著大型語言模型(LLM)技術日趨成熟,越來越多的企業開始評估在自有環境中部署 AI 基礎設施。地端 AI 部署能確保資料不外流、降低長期使用成本、並提供最大程度的客製化彈性。本指南從硬體選型到軟體架構,再到安全防護與維運管理,提供企業 IT 決策者與架構師完整的地端 AI 部署規劃參考。
地端 AI 部署的核心優勢與適用場景
地端 AI(On-Premise AI)是指企業將 AI 模型與推論服務部署在自有或租用的實體機房中,所有資料的處理、儲存與模型推論均在企業可控的物理邊界內進行。與雲端 AI 服務相比,地端部署在資料主權、法規合規、延遲效能與長期成本上具有明顯優勢。
核心優勢之一是資料主權。企業機密文件、客戶個資、財務報表等敏感資料無需離開企業網路,完全消除雲端服務的資料外洩風險,也符合台灣個人資料保護法及各行業主管機關的資料在地化規定。金融業受金管會法規約束、政府機關須遵守資通安全管理法、醫療機構須保護病患健康資訊,這些場景均需要地端部署的保障。
第二個核心優勢是穩定的低延遲效能。LLM 推論服務若透過外部 API 呼叫,每次請求需要經過網際網路往返,在高並發或大批量推論情境下延遲明顯。地端部署將推論服務直接放在企業內網,平均回應時間可縮短至雲端 API 的數分之一,對於即時問答系統、客服機器人、語音辨識等對延遲敏感的應用特別重要。
第三是長期成本優化。雲端 AI API 採按量計費模式,使用量增加後費用線性成長。以中型企業每月數百萬 tokens 的使用量試算,三年的雲端 API 費用往往已超過自購 GPU 伺服器的成本。地端硬體屬於資本支出,折舊後邊際成本極低,是長期高使用量場景的更佳選擇。
適合考慮地端 AI 部署的場景包括:金融機構的內部知識庫與文件智能處理、政府機關的公文自動化與輔助決策、醫療機構的病歷分析與醫療輔助、製造業的品管知識管理與設備維護輔助、以及需要在無網路或低網路品質環境中運作 AI 的場景。
硬體選型指南:GPU 伺服器規格解析
GPU 是地端 AI 推論的核心運算單元。NVIDIA 是目前企業級 AI 加速卡的主要供應商,產品線從入門級到旗艦級覆蓋不同預算與效能需求。以下整理主要規格供決策參考。
| GPU 型號 | 顯存(VRAM) | FP16 算力(TFLOPS) | 適合模型規模 | 概估採購成本(單卡) | 適用場景 |
|---|---|---|---|---|---|
| NVIDIA RTX 4090 | 24 GB GDDR6X | 165.2 | 7B~13B 量化模型 | 約 NT$6~9 萬 | 小型企業、PoC 驗證、開發測試 |
| NVIDIA RTX 6000 Ada | 48 GB GDDR6 | 91.1 | 13B~34B 量化模型 | 約 NT$20~25 萬 | 中型企業推論、工作站部署 |
| NVIDIA A100 (SXM/PCIe) | 80 GB HBM2e | 312 (FP16) | 70B 模型、大規模並發 | 約 NT$90~130 萬 | 大型企業、高並發推論服務 |
| NVIDIA H100 (SXM5) | 80 GB HBM3 | 1,979 (FP8) | 70B 以上、訓練/微調 | 約 NT$150~250 萬 | 旗艦推論/訓練、AI 研發中心 |
| NVIDIA L40S | 48 GB GDDR6 | 733 (FP8) | 34B~70B 模型 | 約 NT$50~70 萬 | 兼顧效能與成本的主流企業選擇 |
除了 GPU,完整的 AI 伺服器硬體清單還包括:高頻率、大容量的 CPU(如 AMD EPYC 或 Intel Xeon,至少 32 核心)、充足的系統記憶體(建議 256GB 以上,確保模型載入不成為瓶頸)、高速 NVMe SSD 儲存(模型檔案讀取速度直接影響啟動時間)、以及高頻寬網路卡(100GbE 或以上,支援多節點叢集通訊)。
規劃伺服器數量時,建議預留 20~30% 的運算餘裕以應對使用量高峰,並評估是否需要備援伺服器。對於可用性要求高的生產環境,建議至少兩台伺服器互為主備,確保硬體故障時服務不中斷。
軟體堆疊架構設計
地端 AI 的軟體堆疊從作業系統到應用層有完整的架構設計。正確的軟體選型能大幅降低維運複雜度,提升系統穩定性。
作業系統層
Ubuntu Server 22.04 LTS 是目前最主流的 AI 伺服器作業系統選擇,具有廣泛的硬體驅動支援和活躍的社群。需安裝 NVIDIA GPU 驅動(建議 535.x 以上版本)以及 CUDA Toolkit(12.x 系列)。部分企業安全政策要求使用 RHEL(Red Hat Enterprise Linux)或其相容版本(如 Rocky Linux、AlmaLinux),這些也完全支援 NVIDIA GPU 和主流 AI 框架。
容器化層(Container)
Docker 是標準的容器化工具,搭配 NVIDIA Container Toolkit(nvidia-docker2)可讓容器直接存取 GPU 資源。容器化的優勢在於環境隔離和快速部署——不同的 AI 模型或服務可以在獨立的容器中運行,互不干擾。容器映像(Image)也方便在多台伺服器間快速複製部署環境。
容器編排層(Kubernetes)
若部署規模達到多節點或需要高可用性,Kubernetes(K8s)是容器編排的事實標準。NVIDIA GPU Operator 可以自動化管理 K8s 叢集中的 GPU 資源分配。對於規模較小或初期部署,直接使用 Docker Compose 管理多容器服務是更簡單的選擇,待業務需求成長後再遷移至 K8s。
模型服務層
模型服務層負責接收推論請求、進行模型推論、並回傳結果,是 AI 系統的核心元件。主流的開源模型服務框架包括 Ollama(適合快速部署和本地開發)、vLLM(以 PagedAttention 技術著稱,高並發效能卓越)、以及 Hugging Face TGI(Text Generation Inference,完整支援各類 Transformer 模型)。
應用整合層
API 閘道(如 Nginx 或 Kong)負責處理認證、限流、負載均衡等橫切關注點,讓應用程式可以透過統一的 REST API 或 OpenAI 相容 API 介面呼叫地端 AI 服務。這個設計使得原本使用 OpenAI API 的應用程式可以零改動地切換到地端服務。
LLM 模型地端運行方案比較
選擇合適的 LLM 推論框架是地端部署成敗的關鍵之一。以下比較三個主流方案的特性:
| 框架 | 主要特點 | 並發效能 | 支援模型格式 | 適合對象 |
|---|---|---|---|---|
| Ollama | 安裝極簡,一行指令啟動,支援 GGUF 量化格式 | 低至中(單一請求處理) | GGUF, Safetensors | 個人開發、小規模測試、快速 PoC |
| vLLM | PagedAttention 高並發、連續批次處理,OpenAI API 相容 | 高(支援數十至數百並發) | Safetensors, AWQ, GPTQ | 企業生產環境、高並發推論服務 |
| TGI (Text Generation Inference) | Hugging Face 官方框架,完整支援最新模型架構 | 中至高(Flash Attention 優化) | 最廣泛的 HF 格式支援 | 需要最新模型支援的研發環境 |
在模型選擇上,目前主流的開源地端 LLM 包括 Meta 的 Llama 3.x 系列(8B/70B/405B)、Google 的 Gemma 2 系列(2B/9B/27B)、以及 Alibaba 的 Qwen 2.5 系列(對繁體中文支援較佳)。針對繁體中文場景,建議優先評估 Qwen 2.5 系列或 TAIDE(台灣 AI 對話引擎),這些模型在繁體中文理解和生成上表現優於純英文訓練的模型。
量化技術可在效能損失有限的前提下大幅降低 VRAM 需求。常見的量化格式包括 GGUF(Ollama 使用,支援 Q4_K_M 等精度等級)和 AWQ/GPTQ(適用於 vLLM)。以 70B 模型為例,FP16 全精度需要約 140GB VRAM,而 Q4 量化後僅需約 40GB,可以使用兩張 A100-80G 或四張 RTX 6000 Ada 完成部署。
安全防護與存取控制設計
地端 AI 系統雖然消除了資料外傳風險,但仍需要完善的內部安全架構。以下是關鍵的安全設計原則:
網路隔離與分段
AI 推論伺服器建議置於獨立的 VLAN 或網段,與一般辦公網路隔離。對外只開放必要的 API 端口(如 8080、443),並透過防火牆嚴格控制存取來源。若 AI 系統需要存取企業知識庫或文件系統,應透過專用的資料存取介面,避免直接暴露資料庫端口。
身份驗證與授權
企業 AI 服務應整合企業現有的身份驗證系統,如 Active Directory/LDAP 或 SAML/SSO 單點登入。API 存取應要求有效的 API 金鑰或 JWT Token,並根據使用者角色或部門實施細粒度的存取控制——例如,人資部門只能使用人資相關的知識庫,研發部門才能存取技術文件庫。
傳輸加密
所有 API 通訊應強制使用 HTTPS(TLS 1.2 以上),即使是在企業內網中也不應使用明文傳輸。若涉及特別敏感的應用,可進一步考慮端對端加密或零信任網路架構(Zero Trust Network Access, ZTNA)。
稽核日誌
完整的稽核日誌是合規要求的核心。應記錄每次 AI 服務呼叫的來源 IP、使用者帳號、請求時間、輸入摘要(避免記錄完整敏感內容)、以及回應狀態。日誌應集中存儲在獨立的日誌系統中(如 ELK Stack),並設定適當的保存期限(通常至少 180 天)。
維運管理與持續優化
地端 AI 系統的維運是長期工作,需要建立完善的監控、更新、和容量規劃機制。
效能監控
GPU 利用率、VRAM 使用量、推論延遲(P50/P95/P99)、請求吞吐量(TPS)是核心監控指標。建議使用 Prometheus + Grafana 建立監控儀表板,並設定告警閾值。NVIDIA DCGM(Data Center GPU Manager)可提供詳細的 GPU 健康狀態監控,及早發現硬體問題。
模型更新策略
模型版本管理需要建立標準化流程:新模型先在測試環境驗證效果(包括效能基準測試和業務場景測試),確認無誤後才進行生產環境的藍綠部署(Blue-Green Deployment),在不中斷服務的情況下切換到新版本。若新版本出現問題,可以立即回滾到舊版本。
容量規劃
每季度檢視使用量趨勢,預測未來 12 個月的成長率,提前規劃硬體擴充。GPU 伺服器的採購通常需要 4~8 週的交期,必須提前規劃避免資源不足影響業務。同時也要考慮機房的電力和散熱容量——高階 GPU 的 TDP(熱設計功耗)從 300W 到 700W 不等,8 卡伺服器的滿載功耗可能達到 6~10 kW,需要確保機房的電力和散熱設施足夠。
知識庫維護
若地端 AI 系統包含 RAG 知識庫,需要建立定期更新機制——確保知識庫中的文件是最新版本,避免 AI 根據過時資訊提供錯誤回應。同時建立回饋機制,讓使用者標記不正確的回應,協助維運團隊識別需要更新的知識內容。
関連記事
よくある質問
参考文献
- NVIDIA Corporation (2024). "NVIDIA H100 Tensor Core GPU Architecture." NVIDIA Technical Blog. nvidia.com
- Kwon, W. et al. (2023). "Efficient Memory Management for Large Language Model Serving with PagedAttention." SOSP 2023. DOI: 10.1145/3600006.3613165
- 行政院資通安全處 (2024).「資通安全責任等級分級辦法」. moda.gov.tw
- Touvron, H. et al. (2023). "Llama 2: Open Foundation and Fine-Tuned Chat Models." arXiv:2307.09288. arXiv