LargitData — Enterprise Intelligence & Risk AI Platform

Last updated:

地端 AI 部署完整指南:企業自建 AI 基礎設施的規劃與實作

隨著大型語言模型(LLM)技術日趨成熟,越來越多的企業開始評估在自有環境中部署 AI 基礎設施。地端 AI 部署能確保資料不外流、降低長期使用成本、並提供最大程度的客製化彈性。本指南從硬體選型到軟體架構,再到安全防護與維運管理,提供企業 IT 決策者與架構師完整的地端 AI 部署規劃參考。

地端 AI 部署的核心優勢與適用場景

地端 AI(On-Premise AI)是指企業將 AI 模型與推論服務部署在自有或租用的實體機房中,所有資料的處理、儲存與模型推論均在企業可控的物理邊界內進行。與雲端 AI 服務相比,地端部署在資料主權、法規合規、延遲效能與長期成本上具有明顯優勢。

核心優勢之一是資料主權。企業機密文件、客戶個資、財務報表等敏感資料無需離開企業網路,完全消除雲端服務的資料外洩風險,也符合台灣個人資料保護法及各行業主管機關的資料在地化規定。金融業受金管會法規約束、政府機關須遵守資通安全管理法、醫療機構須保護病患健康資訊,這些場景均需要地端部署的保障。

第二個核心優勢是穩定的低延遲效能。LLM 推論服務若透過外部 API 呼叫,每次請求需要經過網際網路往返,在高並發或大批量推論情境下延遲明顯。地端部署將推論服務直接放在企業內網,平均回應時間可縮短至雲端 API 的數分之一,對於即時問答系統、客服機器人、語音辨識等對延遲敏感的應用特別重要。

第三是長期成本優化。雲端 AI API 採按量計費模式,使用量增加後費用線性成長。以中型企業每月數百萬 tokens 的使用量試算,三年的雲端 API 費用往往已超過自購 GPU 伺服器的成本。地端硬體屬於資本支出,折舊後邊際成本極低,是長期高使用量場景的更佳選擇。

適合考慮地端 AI 部署的場景包括:金融機構的內部知識庫與文件智能處理、政府機關的公文自動化與輔助決策、醫療機構的病歷分析與醫療輔助、製造業的品管知識管理與設備維護輔助、以及需要在無網路或低網路品質環境中運作 AI 的場景。

硬體選型指南:GPU 伺服器規格解析

GPU 是地端 AI 推論的核心運算單元。NVIDIA 是目前企業級 AI 加速卡的主要供應商,產品線從入門級到旗艦級覆蓋不同預算與效能需求。以下整理主要規格供決策參考。

GPU 型號 顯存(VRAM) FP16 算力(TFLOPS) 適合模型規模 概估採購成本(單卡) 適用場景
NVIDIA RTX 4090 24 GB GDDR6X 165.2 7B~13B 量化模型 約 NT$6~9 萬 小型企業、PoC 驗證、開發測試
NVIDIA RTX 6000 Ada 48 GB GDDR6 91.1 13B~34B 量化模型 約 NT$20~25 萬 中型企業推論、工作站部署
NVIDIA A100 (SXM/PCIe) 80 GB HBM2e 312 (FP16) 70B 模型、大規模並發 約 NT$90~130 萬 大型企業、高並發推論服務
NVIDIA H100 (SXM5) 80 GB HBM3 1,979 (FP8) 70B 以上、訓練/微調 約 NT$150~250 萬 旗艦推論/訓練、AI 研發中心
NVIDIA L40S 48 GB GDDR6 733 (FP8) 34B~70B 模型 約 NT$50~70 萬 兼顧效能與成本的主流企業選擇

除了 GPU,完整的 AI 伺服器硬體清單還包括:高頻率、大容量的 CPU(如 AMD EPYC 或 Intel Xeon,至少 32 核心)、充足的系統記憶體(建議 256GB 以上,確保模型載入不成為瓶頸)、高速 NVMe SSD 儲存(模型檔案讀取速度直接影響啟動時間)、以及高頻寬網路卡(100GbE 或以上,支援多節點叢集通訊)。

規劃伺服器數量時,建議預留 20~30% 的運算餘裕以應對使用量高峰,並評估是否需要備援伺服器。對於可用性要求高的生產環境,建議至少兩台伺服器互為主備,確保硬體故障時服務不中斷。

軟體堆疊架構設計

地端 AI 的軟體堆疊從作業系統到應用層有完整的架構設計。正確的軟體選型能大幅降低維運複雜度,提升系統穩定性。

作業系統層

Ubuntu Server 22.04 LTS 是目前最主流的 AI 伺服器作業系統選擇,具有廣泛的硬體驅動支援和活躍的社群。需安裝 NVIDIA GPU 驅動(建議 535.x 以上版本)以及 CUDA Toolkit(12.x 系列)。部分企業安全政策要求使用 RHEL(Red Hat Enterprise Linux)或其相容版本(如 Rocky Linux、AlmaLinux),這些也完全支援 NVIDIA GPU 和主流 AI 框架。

容器化層(Container)

Docker 是標準的容器化工具,搭配 NVIDIA Container Toolkit(nvidia-docker2)可讓容器直接存取 GPU 資源。容器化的優勢在於環境隔離和快速部署——不同的 AI 模型或服務可以在獨立的容器中運行,互不干擾。容器映像(Image)也方便在多台伺服器間快速複製部署環境。

容器編排層(Kubernetes)

若部署規模達到多節點或需要高可用性,Kubernetes(K8s)是容器編排的事實標準。NVIDIA GPU Operator 可以自動化管理 K8s 叢集中的 GPU 資源分配。對於規模較小或初期部署,直接使用 Docker Compose 管理多容器服務是更簡單的選擇,待業務需求成長後再遷移至 K8s。

模型服務層

模型服務層負責接收推論請求、進行模型推論、並回傳結果,是 AI 系統的核心元件。主流的開源模型服務框架包括 Ollama(適合快速部署和本地開發)、vLLM(以 PagedAttention 技術著稱,高並發效能卓越)、以及 Hugging Face TGI(Text Generation Inference,完整支援各類 Transformer 模型)。

應用整合層

API 閘道(如 Nginx 或 Kong)負責處理認證、限流、負載均衡等橫切關注點,讓應用程式可以透過統一的 REST API 或 OpenAI 相容 API 介面呼叫地端 AI 服務。這個設計使得原本使用 OpenAI API 的應用程式可以零改動地切換到地端服務。

LLM 模型地端運行方案比較

選擇合適的 LLM 推論框架是地端部署成敗的關鍵之一。以下比較三個主流方案的特性:

框架 主要特點 並發效能 支援模型格式 適合對象
Ollama 安裝極簡,一行指令啟動,支援 GGUF 量化格式 低至中(單一請求處理) GGUF, Safetensors 個人開發、小規模測試、快速 PoC
vLLM PagedAttention 高並發、連續批次處理,OpenAI API 相容 高(支援數十至數百並發) Safetensors, AWQ, GPTQ 企業生產環境、高並發推論服務
TGI (Text Generation Inference) Hugging Face 官方框架,完整支援最新模型架構 中至高(Flash Attention 優化) 最廣泛的 HF 格式支援 需要最新模型支援的研發環境

在模型選擇上,目前主流的開源地端 LLM 包括 Meta 的 Llama 3.x 系列(8B/70B/405B)、Google 的 Gemma 2 系列(2B/9B/27B)、以及 Alibaba 的 Qwen 2.5 系列(對繁體中文支援較佳)。針對繁體中文場景,建議優先評估 Qwen 2.5 系列或 TAIDE(台灣 AI 對話引擎),這些模型在繁體中文理解和生成上表現優於純英文訓練的模型。

量化技術可在效能損失有限的前提下大幅降低 VRAM 需求。常見的量化格式包括 GGUF(Ollama 使用,支援 Q4_K_M 等精度等級)和 AWQ/GPTQ(適用於 vLLM)。以 70B 模型為例,FP16 全精度需要約 140GB VRAM,而 Q4 量化後僅需約 40GB,可以使用兩張 A100-80G 或四張 RTX 6000 Ada 完成部署。

安全防護與存取控制設計

地端 AI 系統雖然消除了資料外傳風險,但仍需要完善的內部安全架構。以下是關鍵的安全設計原則:

網路隔離與分段

AI 推論伺服器建議置於獨立的 VLAN 或網段,與一般辦公網路隔離。對外只開放必要的 API 端口(如 8080、443),並透過防火牆嚴格控制存取來源。若 AI 系統需要存取企業知識庫或文件系統,應透過專用的資料存取介面,避免直接暴露資料庫端口。

身份驗證與授權

企業 AI 服務應整合企業現有的身份驗證系統,如 Active Directory/LDAP 或 SAML/SSO 單點登入。API 存取應要求有效的 API 金鑰或 JWT Token,並根據使用者角色或部門實施細粒度的存取控制——例如,人資部門只能使用人資相關的知識庫,研發部門才能存取技術文件庫。

傳輸加密

所有 API 通訊應強制使用 HTTPS(TLS 1.2 以上),即使是在企業內網中也不應使用明文傳輸。若涉及特別敏感的應用,可進一步考慮端對端加密或零信任網路架構(Zero Trust Network Access, ZTNA)。

稽核日誌

完整的稽核日誌是合規要求的核心。應記錄每次 AI 服務呼叫的來源 IP、使用者帳號、請求時間、輸入摘要(避免記錄完整敏感內容)、以及回應狀態。日誌應集中存儲在獨立的日誌系統中(如 ELK Stack),並設定適當的保存期限(通常至少 180 天)。

維運管理與持續優化

地端 AI 系統的維運是長期工作,需要建立完善的監控、更新、和容量規劃機制。

效能監控

GPU 利用率、VRAM 使用量、推論延遲(P50/P95/P99)、請求吞吐量(TPS)是核心監控指標。建議使用 Prometheus + Grafana 建立監控儀表板,並設定告警閾值。NVIDIA DCGM(Data Center GPU Manager)可提供詳細的 GPU 健康狀態監控,及早發現硬體問題。

模型更新策略

模型版本管理需要建立標準化流程:新模型先在測試環境驗證效果(包括效能基準測試和業務場景測試),確認無誤後才進行生產環境的藍綠部署(Blue-Green Deployment),在不中斷服務的情況下切換到新版本。若新版本出現問題,可以立即回滾到舊版本。

容量規劃

每季度檢視使用量趨勢,預測未來 12 個月的成長率,提前規劃硬體擴充。GPU 伺服器的採購通常需要 4~8 週的交期,必須提前規劃避免資源不足影響業務。同時也要考慮機房的電力和散熱容量——高階 GPU 的 TDP(熱設計功耗)從 300W 到 700W 不等,8 卡伺服器的滿載功耗可能達到 6~10 kW,需要確保機房的電力和散熱設施足夠。

知識庫維護

若地端 AI 系統包含 RAG 知識庫,需要建立定期更新機制——確保知識庫中的文件是最新版本,避免 AI 根據過時資訊提供錯誤回應。同時建立回饋機制,讓使用者標記不正確的回應,協助維運團隊識別需要更新的知識內容。

Further Reading

FAQ

最少可以用一張 GPU 開始地端 AI 部署。例如,一張 RTX 4090(24GB VRAM)已可運行 7B 參數的量化 LLM,適合概念驗證或小規模使用。生產環境建議至少 2~4 張 GPU,以支援多模型並行、高並發推論和備援需求。大型企業的完整部署通常使用 4 卡或 8 卡的 GPU 伺服器,搭配多台伺服器組成叢集以確保高可用性。
近兩年開源模型的中文能力有顯著提升。Qwen 2.5-72B 在繁體中文的理解和生成上已達到相當高的水準,能夠處理複雜的繁體中文問答、文件摘要和知識推理。對於企業的專業領域應用(如法律、金融、醫療),透過 RAG 技術整合企業專業知識庫後,地端系統的回答準確性通常優於通用型雲端模型,因為地端模型能夠存取企業的最新、最完整的內部知識。
選用一站式地端 AI 平台(如 QubicX)的情況下,日常維運工作量相對有限。系統建置完成後,主要的維運工作包括:監控系統健康狀態(自動化告警可大幅降低人工巡檢需求)、定期模型更新(每季或每半年一次)、使用者帳號管理、以及知識庫內容更新。對於大多數中型企業,由 1~2 名兼任的 IT 工程師負責維運即可,不需要專職的 AI 基礎設施工程師。
企業級 GPU 伺服器(如採用 NVIDIA A100 或 H100)通常設計壽命為 5 年,部分企業使用至 7 年。在財務規劃上,硬體折舊通常按 5 年計算。值得注意的是,AI 技術的發展速度很快,5 年後的開源模型效能和今日的差距可能相當大。建議採用模組化設計,使 GPU 卡可以在不更換整台伺服器的情況下升級,延長整體系統的使用價值。
可以。透過容器化和 Kubernetes 編排,地端 AI 基礎設施可以同時服務多個部門的不同應用,並透過命名空間(Namespace)和資源配額(Resource Quota)隔離各部門的使用,確保一個部門的高峰使用不影響其他部門。例如,同一套 GPU 叢集可以同時運行人資部門的 HR 知識助理、法務部門的合約審查系統和客服部門的智能客服機器人。

References

  1. NVIDIA Corporation (2024). "NVIDIA H100 Tensor Core GPU Architecture." NVIDIA Technical Blog. nvidia.com
  2. Kwon, W. et al. (2023). "Efficient Memory Management for Large Language Model Serving with PagedAttention." SOSP 2023. DOI: 10.1145/3600006.3613165
  3. 行政院資通安全處 (2024).「資通安全責任等級分級辦法」. moda.gov.tw
  4. Touvron, H. et al. (2023). "Llama 2: Open Foundation and Fine-Tuned Chat Models." arXiv:2307.09288. arXiv

準備好開始規劃地端 AI 基礎設施了嗎?

聯絡 LargitData 的解決方案顧問,我們將根據您的企業規模、資料敏感度和使用場景,提供量身訂製的地端 AI 部署規劃建議。

Contact Us