如何为Orca-2-13B创建一个与OpenAI兼容的API服务呢？-电子发烧友网

Orca-2-13B[1] 是微软最新发布的 Orca 2 系列中的一款模型，Orca 2 另外还提供 7B 版本。Orca 2系列模型是由 LLAMA 2 基础模型中微调而来。Orca 2系列模型擅长推理、文本总结、数学问题解决和理解任务，是在原始 13B Orca 模型的基础上进一步发展而来，模仿更强大的 AI 系统推理过程从而提高小型模型在复杂任务中的能力。

本文将以 Orca-2-13B 为例，将介绍：

如何在你自己的设备上运行 Orca-2-13B

如何为 Orca-2-13B 创建一个与 OpenAI 兼容的 API 服务

你也可以使用同样的方式运行 Orca-2-7B 模型，只需要替换 Orca-2-7B模型的 GGUF 格式的下载链接。

我们将用 Rust + Wasm 技术栈来开发和部署这个模型的应用程序。无需安装复杂的 Python 包或 C++ 工具链！了解我们为什么选择 Rust+Wasm 技术栈[2]。

在自己的设备上运行 Orca-2-13B

步骤 1：通过以下命令行安装 WasmEdge[3]。

curl-sSfhttps://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install.sh|bash-s----pluginwasi_nn-ggml

步骤 2：下载模型 GGUF 文件[4]。由于模型文件有几 GB，所以可能需要很长时间。

curl-LOhttps://huggingface.co/second-state/Orca-2-13B-GGUF/resolve/main/Orca-2-13b-ggml-model-q4_0.gguf

步骤 3：下载一个跨平台的可移植 Wasm 文件，用于聊天应用。该应用能让你用命令行与模型进行交流。戳这里[5]查看该应用的 Rust 源代码。

curl-LOhttps://github.com/second-state/llama-utils/raw/main/chat/llama-chat.wasm

就这样。接下来，可以通过输入以下命令在终端与模型进行聊天。

wasmedge--dir.:.--nn-preloaddefaultAUTO:Orca-2-13b-ggml-model-q4_0.ggufllama-chat.wasm-pchatml-s'YouareOrca,anAIlanguagemodelcreatedbyMicrosoft.Youareacautiousassistant.Youcarefullyfollowinstructions.Youarehelpfulandharmlessandyoufollowethicalguidelinesandpromotepositivebehavior.'--stream-stdout

这个可移植的 Wasm 应用会自动利用你设备上的硬件加速器（如 GPU）。

在我的 Mac M1 32G 内存设备上，它的速度约为每秒 9.15 个token。

[USER]:What isanOrca?

[ASSISTANT]:
Anorca,orkillerwhale,isalargetoothedpredatorbelongingtotheoceanicdolphinfamily.Theyarehighlyintelligentandsocialanimals,knownfortheircuriosityandplayfulness.

[USER]:

为 Orca-2-13B 创建一个与 OpenAI 兼容的 API 服务

一个与 OpenAI 兼容的网络 API 能让 Orca-2-13B 与大量的 LLM 工具和代理框架（如 flows.network、LangChain 和 LlamaIndex）一起工作。

首先，先下载一个 API 服务器应用。它也是一个可以在许多 CPU 和 GPU 设备上运行的跨平台可移植 Wasm 应用。

curl-LOhttps://github.com/second-state/llama-utils/raw/main/api-server/llama-api-server.wasm

然后，使用以下命令行启动模型的 API 服务器。

wasmedge--dir.:.--nn-preloaddefaultAUTO:Orca-2-13B.Q5_K_M.ggufllama-api-server.wasm-pchatml

从另一个终端，你可以使用 curl 与 API 服务器进行交互。

curl-XPOSThttp://0.0.0.0:8080/v1/chat/completions-H'accept:application/json'-H'Content-Type:application/json'-d'{"messages":[{"role":"system","content":"YouareahelpfulAIassistant"},{"role":"user","content":"WhatisthecapitalofFrance?"}],"model":"Orca-2-13B"}'

就这样。WasmEdge 是运行 Orca-2-13B 大模型应用程序最简单、最快、最安全的方式[6]。试试看吧！

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

C++语言

C++语言

+关注

关注
0

文章
147

浏览量
6986
python

python

+关注

关注
56

文章
4792

浏览量
84621
硬件加速器

硬件加速器

+关注

关注
0

文章
42

浏览量
12763
Rust

Rust

+关注

关注
1

文章
228

浏览量
6598
OpenAI

OpenAI

+关注

关注
9

文章
1078

浏览量
6479

原文标题：跨设备运行微软最新大语言模型 Orca-2-13B，只需4个命令行

文章出处：【微信号：Rust语言中文社区，微信公众号：Rust语言中文社区】欢迎添加关注！文章转载请注明出处。

OpenAI断供API，国产大模型替代方案低成本迁移

访问API服务的国家和地区列表中总计188个国家和地区，不包括中国内地与中国香港。这意味着，OpenAI宣布终止对中国开发者提供API

发表于 06-27 09:04 •3382次阅读

OpenAI暂不推出Sora视频生成模型API

OpenAI近日宣布，目前暂无推出其视频生成模型Sora的应用程序接口(API)的计划。Sora模型能够基于文本和图像生成视频，引发了广泛关注。然而，由于访问量远超预期，OpenAI此前不得不紧急

发表于 12-20 14:23 •55次阅读

OpenAI发布o1模型API，成本大幅下降60%

下降。据OpenAI介绍，o1模型API的思考成本相较于预览版本降低了60%，同时附带了高级视觉功能，为用户提供了更加丰富和多样化的使用体验。此外，GPT-4o的音频成本也实现了60%的降低，而mini版本的价格更是暴降了10倍，这对于广大用户来说无疑是

发表于 12-19 10:31 •161次阅读

api驱动的云服务是什么意思？

API驱动的云服务是指利用API技术来驱动和提供云服务的模式。在这种模式下，云服务提供商会公开一

发表于 11-14 10:06 •170次阅读

微软终止中国大陆个人Azure OpenAI服务，为国内大模型带来机遇

2024年10月17日，微软公司宣布将在中国大陆地区停止面向个人用户的Azure OpenAI服务。这一决定紧随OpenAI于2024年7月宣布终止对中国大陆提供

发表于 10-28 14:17 •695次阅读

华纳云：使用 WireMock 在开发和测试中模拟 API 服务

是 WireMock 发挥作用的地方。 WireMock 是一个开源工具，可以帮助开发人员创建模拟真实 API 行为的模拟服务器，为开发和测

发表于 10-25 16:46 •339次阅读

esp32上使用chatGPT做一些有意思的事情

ChatGPT获得响应，我们需要进行以下步骤：1、在OpenAI网站上注册，并在ESP32上安装必要的库。 2、在OpenAI API上创建

发表于 10-18 10:04 •345次阅读

OpenAI api key获取并可调用GPT-4.0、GPT-4o、GPT-4omini

OpenAI账户验证电子邮件申请API访问获取API Key 配置和使用API Key 1. 注册OpenAI账户首先，你需要

发表于 08-06 15:16 •2994次阅读

如何使用espconn api实现一个Web服务器？

我正在尝试使用 espconn api 实现一个 Web 服务器。在一些请求之后，我收到将此错误（err1，超过最大时间值）写入 uar

发表于 07-18 07:46

OpenAI将终止对中国提供API服务

近日，人工智能领域的领军企业OpenAI通过官方渠道向全球用户发布了一则重要通知，引起了业界的广泛关注。自6月24日晚间起，不少中国用户收到了来自OpenAI的邮件，邮件内容明确指出了其服务

发表于 06-26 18:18 •946次阅读

OpenAI发出警告信：多国开发者面临API封锁 OpenAI API解决方案

事件背景 2024年7月9日，OpenAI宣布将封锁对不支持国家的API访问，许多开发者因此收到了警告信。这一决定引起了广泛的关注和讨论，尤其是在那些受影响的国家和地区。警告信的内容 Ope

发表于 06-26 11:29 •1224次阅读

OpenAI API Key获取：开发人员申请GPT-4 API Key教程

OpenAI的GPT-4模型因其卓越的自然语言理解和生成能力，成为了许多开发者的首选工具。获取GPT-4 API Key并将其应用于项目，如开发一个ChatGPT聊天应用，不仅是实

发表于 06-24 17:40 •2333次阅读

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

当地时间5月13日OpenAI推出ChatGPT-4o，代表了人工智能向前迈出的一大步。在GPT-4turbo的强大基础上，这种迭代拥有显著的改进。在发布会的演示中，OpenAI展示

发表于 05-27 15:43

OpenAI API Key获取与充值教程：助开发者解锁GPT-4.0 API

OpenAI 的 API Key，以及如何使用这个 Key 来调用 GPT-4.0 API。第一步：获取 OpenAI

发表于 04-28 16:35 •1w次阅读

优于10倍参数模型！微软发布Orca 2 LLM

微软发布 Orca 2 LLM，这是 Llama 2 的一个调优版本，性能与包含 10 倍参数的模型相当，甚至更好。

发表于 12-26 14:23 •624次阅读

搜索历史

如何为Orca-2-13B创建一个与OpenAI兼容的API服务呢？

评论

OpenAI断供API，国产大模型替代方案低成本迁移

OpenAI暂不推出Sora视频生成模型API

OpenAI发布o1模型API，成本大幅下降60%

api驱动的云服务是什么意思？

微软终止中国大陆个人Azure OpenAI服务，为国内大模型带来机遇

华纳云：使用 WireMock 在开发和测试中模拟 API 服务

esp32上使用chatGPT做一些有意思的事情

OpenAI api key获取并可调用GPT-4.0、GPT-4o、GPT-4omini

如何使用espconn api实现一个Web服务器？

OpenAI将终止对中国提供API服务

OpenAI发出警告信：多国开发者面临API封锁 OpenAI API解决方案

OpenAI API Key获取：开发人员申请GPT-4 API Key教程

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

OpenAI API Key获取与充值教程：助开发者解锁GPT-4.0 API

优于10倍参数模型！微软发布Orca 2 LLM