想體驗大模型卻受限於電腦性能?
在本地部署像 Llama 等模型時,通常只能運行較小規模的模型,如 1.5B(15 億參數)、7B(70 億參數)或 14B(140 億參數),因為更大的模型對硬體要求極高。
現在,您可以利用 Cloudflare Workers AI 在線部署 700 億參數的 Llama 3.3 大模型,並通過公開網址訪問。該服務的 API 接口相容於 OpenAI,讓您像使用 OpenAI API 一樣便捷。如果有興趣,不妨試試看!
目前實作的簡易版本只處理 /v1/chat/completions 的 Prompt, 可以用在僅沉浸式翻譯等簡單的 API 調用,
目前並不支援複雜的 Chat 模式。
透過 CURL 使用
$curl -X POST https://my.aitwg.com/v1/chat/completions \ -H “Content-Type: application/json” \ -H “Authorization: Bearer YOURKEY” \ -d ‘{ “model”: “llama-3.3”, “prompt”: “請推薦台北美食”, “max_tokens”: 200 }’ |
在沉浸式翻譯使用



準備工作:註冊 Cloudflare 並綁定功能變數名稱
如果尚未擁有 Cloudflare 帳號,您可以免費註冊。
打開 Cloudflare 官方網站。
- 註冊並登入您的帳號。
步驟一:創建 Workers AI
- 進入 Workers AI 管理頁面:
- 在 Cloudflare 控制台左側選單中,找到 AI -> Workers AI,點擊 從 Worker 範本創建。
- 創建 Worker:
- 點擊 創建 Worker,輸入一個英文字母組成的名稱,這名稱將成為您的 Worker 預設功能變數名稱。
- 部署 Worker:
步驟二:修改代碼,部署 Llama 3.3 70B 模型
- 進入代碼編輯器:
- 創建 Worker 後,進入代碼編輯頁面,點擊 編輯代碼。
- 清空預設代碼:
- 刪除代碼編輯器中所有預設內容。
- 貼上以下代碼:
- 以下代碼基於 Llama-3.3-70B-Instruct-FP8-Fast 模型,這是目前效果最佳的 700 億參數模型之一:
const API_KEY='<YOUR_KEY>’;export default { async fetch(request, env) { const tasks = []; let url = new URL(request.url); const path = url.pathname; const authHeader = request.headers.get(“authorization”) || request.headers.get(“x-api-key”); const apiKey = authHeader?.startsWith(“Bearer “) ? authHeader.slice(7) : null; if (API_KEY && apiKey !== API_KEY) { return new Response(JSON.stringify({ error: { message: “Invalid API key. Use ‘Authorization: Bearer your-api-key’ header”, type: “invalid_request_error”, param: null, code: “invalid_api_key” } }), { status: 401, headers: { “Content-Type”: “application/json”, } }); } if (path === “/v1/chat/completions”) { const requestBody = await request.json(); // messages – chat style input let chat = { messages: requestBody }; let response = await env.AI.run(‘@cf/meta/llama-3.3-70b-instruct-fp8-fast’, requestBody); let resdata={ choices:[{“message”:{“content”:response.response}}] } return Response.json(resdata); } if (path === “/v1/completions”) { const requestBody = await request.json(); // messages – chat style input let chat = { messages: requestBody }; let response = await env.AI.run(‘@cf/meta/llama-3.3-70b-instruct-fp8-fast’, requestBody); let resdata={ choices:[{“message”:{“content”:response.response}}] } return Response.json(resdata); } }}; |
- 部署代碼:
- 貼上代碼後,點擊 部署 按鈕完成發布。
步驟三:綁定自定網域名稱
- 返回 Worker 設定頁面,進入 設置 -> 網域和路由。
- 點擊 添加域,選擇 自定義網域,輸入已在 Cloudflare 綁定網域名稱。
步驟四:在相容 OpenAI 的工具中使用
- API Key:
使用代碼中設置的 API_KEY(默認為 <YOUR_KEY>)。 - API 位址:
- https://<YourDomain>/v1/chat/completions
- 在任何支持 OpenAI API 的工具中,設置您的 API 位址和密鑰,即可開始使用。
- (目前只支援 Prompt, 無法使用 Chat)
注意事項
- 免費額度:
Cloudflare Workers AI 每天提供 10,000 個免費 Token 用量,超出部分會收費。 - 費用詳情:
請參考 Cloudflare 官方定價頁面。
透過 Cloudflare 強大的 GPU 資源,您將能流暢地體驗大模型的魅力