如何使用 Cloudflare 免費部署 700 億參數的 Llama 3.3 模型

想體驗大模型卻受限於電腦性能？

在本地部署像 Llama 等模型時，通常只能運行較小規模的模型，如 1.5B（15 億參數）、7B（70 億參數）或 14B（140 億參數），因為更大的模型對硬體要求極高。

現在，您可以利用 Cloudflare Workers AI 在線部署 700 億參數的 Llama 3.3 大模型，並通過公開網址訪問。該服務的 API 接口相容於 OpenAI，讓您像使用 OpenAI API 一樣便捷。如果有興趣，不妨試試看！

目前實作的簡易版本只處理 /v1/chat/completions 的 Prompt, 可以用在僅沉浸式翻譯等簡單的 API 調用，

目前並不支援複雜的 Chat 模式。

透過 CURL 使用

$curl -X POST https://my.aitwg.com/v1/chat/completions \ -H “Content-Type: application/json” \ -H “Authorization: Bearer YOURKEY” \ -d ‘{ “model”: “llama-3.3”, “prompt”: “請推薦台北美食”, “max_tokens”: 200 }’

在沉浸式翻譯使用

準備工作：註冊 Cloudflare 並綁定功能變數名稱

如果尚未擁有 Cloudflare 帳號，您可以免費註冊。

打開 Cloudflare 官方網站。

註冊並登入您的帳號。

步驟一：創建 Workers AI

進入 Workers AI 管理頁面：
- 在 Cloudflare 控制台左側選單中，找到 AI -> Workers AI，點擊 從 Worker 範本創建。
創建 Worker：
- 點擊 創建 Worker，輸入一個英文字母組成的名稱，這名稱將成為您的 Worker 預設功能變數名稱。
部署 Worker：
- 點擊右下角部署按鈕，完成 Worker 的基礎創建。

步驟二：修改代碼，部署 Llama 3.3 70B 模型

進入代碼編輯器：
- 創建 Worker 後，進入代碼編輯頁面，點擊 編輯代碼。
清空預設代碼：
- 刪除代碼編輯器中所有預設內容。
貼上以下代碼：
- 以下代碼基於 Llama-3.3-70B-Instruct-FP8-Fast 模型，這是目前效果最佳的 700 億參數模型之一：

部署代碼：
- 貼上代碼後，點擊部署按鈕完成發布。

步驟三：綁定自定網域名稱

返回 Worker 設定頁面，進入設置 -> 網域和路由。
點擊 添加域，選擇 自定義網域，輸入已在 Cloudflare 綁定網域名稱。

步驟四：在相容 OpenAI 的工具中使用

API Key:
使用代碼中設置的 API_KEY（默認為 <YOUR_KEY>）。
API 位址:
- https://<YourDomain>/v1/chat/completions
在任何支持 OpenAI API 的工具中，設置您的 API 位址和密鑰，即可開始使用。
- (目前只支援 Prompt, 無法使用 Chat)

注意事項

免費額度：
Cloudflare Workers AI 每天提供 10,000 個免費 Token 用量，超出部分會收費。
費用詳情：
請參考 Cloudflare 官方定價頁面。

透過 Cloudflare 強大的 GPU 資源，您將能流暢地體驗大模型的魅力