Skip to content

如何使用 Cloudflare 免費部署 700 億參數的 Llama 3.3 模型

  • by
想體驗大模型卻受限於電腦性能?
在本地部署像 Llama 等模型時,通常只能運行較小規模的模型,如 1.5B(15 億參數)、7B(70 億參數)或 14B(140 億參數),因為更大的模型對硬體要求極高。
現在,您可以利用 Cloudflare Workers AI 在線部署 700 億參數的 Llama 3.3 大模型,並通過公開網址訪問。該服務的 API 接口相容於 OpenAI,讓您像使用 OpenAI API 一樣便捷。如果有興趣,不妨試試看!
目前實作的簡易版本只處理 /v1/chat/completions 的 Prompt, 可以用在僅沉浸式翻譯等簡單的 API 調用,
目前並不支援複雜的 Chat 模式。

透過 CURL 使用

$curl -X POST https://my.aitwg.com/v1/chat/completions  \                                    -H “Content-Type: application/json” \                                    -H “Authorization: Bearer YOURKEY” \                                    -d ‘{                                  “model”: “llama-3.3”,                                  “prompt”: “請推薦台北美食”,                                  “max_tokens”: 200                                }’

在沉浸式翻譯使用


準備工作:註冊 Cloudflare 並綁定功能變數名稱

如果尚未擁有 Cloudflare 帳號,您可以免費註冊。

打開 Cloudflare 官方網站

  1. 註冊並登入您的帳號。

步驟一:創建 Workers AI

  1. 進入 Workers AI 管理頁面:
    • 在 Cloudflare 控制台左側選單中,找到 AI -> Workers AI,點擊 從 Worker 範本創建
  2. 創建 Worker:
    • 點擊 創建 Worker,輸入一個英文字母組成的名稱,這名稱將成為您的 Worker 預設功能變數名稱。
  3. 部署 Worker:
    • 點擊右下角 部署 按鈕,完成 Worker 的基礎創建。


步驟二:修改代碼,部署 Llama 3.3 70B 模型

  1. 進入代碼編輯器:
    • 創建 Worker 後,進入代碼編輯頁面,點擊 編輯代碼
  2. 清空預設代碼:
    • 刪除代碼編輯器中所有預設內容。
  3. 貼上以下代碼:
    • 以下代碼基於 Llama-3.3-70B-Instruct-FP8-Fast 模型,這是目前效果最佳的 700 億參數模型之一:
const API_KEY='<YOUR_KEY>’;export default {  async fetch(request, env) {    const tasks = [];    let url = new URL(request.url);    const path = url.pathname;
    const authHeader = request.headers.get(“authorization”) || request.headers.get(“x-api-key”);    const apiKey = authHeader?.startsWith(“Bearer “)  ? authHeader.slice(7)  : null;
    if (API_KEY && apiKey !== API_KEY) {
      return new Response(JSON.stringify({        error: {            message: “Invalid API key. Use ‘Authorization: Bearer your-api-key’ header”,            type: “invalid_request_error”,            param: null,            code: “invalid_api_key”        }      }), {          status: 401,          headers: {              “Content-Type”: “application/json”,          }      });    }
    if (path === “/v1/chat/completions”) {      const requestBody = await request.json();       // messages – chat style input      let chat = {        messages: requestBody      };            let response = await env.AI.run(‘@cf/meta/llama-3.3-70b-instruct-fp8-fast’, requestBody);
      let resdata={        choices:[{“message”:{“content”:response.response}}]      }          return Response.json(resdata);    }
    if (path === “/v1/completions”) {      const requestBody = await request.json();       // messages – chat style input      let chat = {        messages: requestBody      };      let response = await env.AI.run(‘@cf/meta/llama-3.3-70b-instruct-fp8-fast’, requestBody);
      let resdata={        choices:[{“message”:{“content”:response.response}}]      }          return Response.json(resdata);    }  }};
  1. 部署代碼:
    • 貼上代碼後,點擊 部署 按鈕完成發布。

步驟三:綁定自定網域名稱

  1. 返回 Worker 設定頁面,進入 設置 -> 網域和路由
  2. 點擊 添加域,選擇 自定義網域,輸入已在 Cloudflare 綁定網域名稱。

步驟四:在相容 OpenAI 的工具中使用

  1. API Key:
    使用代碼中設置的 API_KEY(默認為 <YOUR_KEY>)。
  2. API 位址:
    • https://<YourDomain>/v1/chat/completions
  3. 在任何支持 OpenAI API 的工具中,設置您的 API 位址和密鑰,即可開始使用。
    • (目前只支援 Prompt, 無法使用 Chat)

注意事項

  1. 免費額度:
    Cloudflare Workers AI 每天提供 10,000 個免費 Token 用量,超出部分會收費。
  2. 費用詳情:
    請參考 Cloudflare 官方定價頁面

透過 Cloudflare 強大的 GPU 資源,您將能流暢地體驗大模型的魅力

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *