0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenStack硬件管理加速利器详解

电子设计 来源:电子设计 作者:电子设计 2020-12-26 02:26 次阅读

随着5G商用的渐近,通信行业也迎来了5G的机遇与挑战。大规模机器类通信、超可靠、低延迟通信需求场景(智能家居、智慧城市、增强现实、工业自动化自动驾驶等)的兴起,对未来网络的计算和流量转发能力提出了更高的要求。通用CPU设备已经无法满足处理海量数据、图片、流量的需求。

根据不同业务场景和自身优势,通讯厂商引入GPUFPGA等进行加速,推出了各种加速硬件方案。对于异构加速硬件,要运行在各种CloudOS上,再被上层厂家的VNF调用,假如没有一个统一的标准来管理这些加速卡,没有统一的接口来让上层网元调用,将会造成比较严重的问题。

为了实现NFV异构加速硬件的统一管理, ETSI制定了NFV加速硬件统一管理软件框架标准。此后,该标准被拓展至更多场景,并在OpenStack孵化出了Cyborg项目。

Cyborg,目前唯一的开源硬件加速管理软件项目

Cyborg的主要功能包括硬件资源的发现、上报、挂载卸载等资源管理。用户可以通过Cyborg列出计算节点上已经被发现和上报的加速器、并创建带加速器的实例。对于一些特殊硬件的特殊功能或配置(如:FPGA的编程),也将在cyborg实现。

Cyborg采用经典架构,由cyborg-api、cyborg-conductor、cyborg-agent、 cyborg-db几个模块组成。其中Cyborg-agent位于计算节点,用于监控加速器;cyborg-conductor位于控制节点,管理整个系统和操作数据库。cyborg-api和cyborg-db分别为接口和数据库,均位于控制节点。

下面通过Cyborg的两个流程来介绍其主要功能:资源发现和上报流程、创建带加速硬件的实例流程。

加速资源发现和上报流程:

1. 各设备的driver为加速设备构造Cyborg中用于描述设备的数据结构,等待cyborg-agent轮询取走设备数据;

2. cyborg-agent周期性扫描计算节点enabled的driver;

3. cyborg-agent获取到driver上报来的数据信息后,通过cyborg-conductor将资源信息写入placement(更新Resource Provider(RP), Resource Class(RC),traits)和cyborg-db(更新devices, deployables, attach_handles, attributes, controlpath_ids)

创建带加速硬件的实例流程:

1. User在cyborg创建一个加速资源模板device_profile(类似于nova flavor);

2. User创建flavor,并在extra-spec属性中设置device_profile的name;

3. User 使用已创建的flavor 发送boot虚机请求;

4. Nova-api接受到请求以后, 向cyborg发起请求获取device_profile信息,并将device_profile信息合入request_spec,用于调度;

5. 调度过程中nova-scheduler向placement请求获取符合request_spec中要求的硬件加速资源,placement返回满足要求的主机列表,之后主机列表再通过nova-scheduler其他Filter的过滤,排序后选定某个主机;

6. Nova-compute在选定的主机上部署实例,并向cyborg请求加速资源的挂载操作:

Nova-compute根据device_profile向cyborg请求创建加速器请求(Accelerator Request, ARQ),并为每个ARQ匹配硬件资源Resource Provider(RP)。 需要说明的是:ARQ包含instance_uuid、 resource_provider_id、host_name、 device_profile_id等字段信息。一个ARQ对应一个device_profile_group, 一个device_profile_group对应request spec中的一个request group。

Nova-compute向cyborg发送绑定设备(bind_ARQ)的请求。Cyborg根据ARQ信息绑定instance、host、device,绑定结束后更新ARQ的状态,并通知nova当前ARQ绑定操作是否成功;

Nova-compute接到ARQ绑定操作结束的通知后,从ARQ获取设备信息,并将设备BDF信息写入instance的XML文件。

中兴通讯持续社区贡献

社区T版本的主要工作在于实现S版本重新定义的加速硬件数据结构、基本发现、上报、挂载流程,目前社区已实现基本的管理功能,与placement交互基本完成,与nova组件的交互尚在推进中,有待成熟。另一方面社区在提升Cyborg代码规范、及产品可用性方面也投入了大量精力:T版本引入集成测试、并全面引入flak8测试提升源代码的规范、python3支持。Driver的支持方面,cyborg社区T版本新增了AICHIP ASCEND Driver。

我司从Queens版本开始投入Cyborg,历经四个版本,见证了Cyborg功能的逐步实现和完善。总体来说,中兴通讯的贡献主要在三方面: 第一、Cyborg与Nova交互的集成测试以促进Cyborg的商用进程 (包括了加速硬件需求的接口测试,?设备调度和挂载测试,设备上报数据库,Tempest CI及测试);第二、对现有Driver 的维护、支持更多的Driver (eg. ZTE自研高精度时钟卡Driver);第三、提升源代码规范和质量(全面改善flake8测试)、完善接口文档。

在OpenStack Train Release中,中兴通讯在项目的commits和reviews均排名第二。中兴通讯在项目拥有两位Core Reviewer。在未来,中兴通讯将持续投入在Cyborg中,为Cyborg项目的发展做出贡献。

审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 中兴
    +关注

    关注

    6

    文章

    1994

    浏览量

    65939
  • 5G
    5G
    +关注

    关注

    1353

    文章

    48340

    浏览量

    563140
  • OpenStack
    +关注

    关注

    1

    文章

    69

    浏览量

    18892
收藏 人收藏

    评论

    相关推荐

    基于DPU的OpenStack裸金属服务快速部署及存储解决方案

    Openstack作为开源云计算领域的领军项目,凭借其强大的功能、灵活的架构以及活跃的社区支持,在全球范围内得到了广泛的采用。通过Openstack,企业和云服务提供商可以更加高效地管理和利用计算资源、存储资源和网络资源,实现业
    的头像 发表于 09-29 14:24 280次阅读
    基于DPU的<b class='flag-5'>OpenStack</b>裸金属服务快速部署及存储解决方案

    华纳云:OpenStack是虚拟化管理平台吗?其工作原理是什么?

    OpenStack 就是一个虚拟化管理平台吗?这样说并不准确。它们存在很多相似性,但并非完全相同。的确,OpenStack 和虚拟化管理平台都位于虚拟化资源层之上,都可以帮助用户发现、
    的头像 发表于 09-23 14:20 202次阅读

    Jtti:云服务器OpenStack的优势分析

    云服务器在现代IT基础设施中扮演着至关重要的角色,而OpenStack作为领先的开源云计算平台,为企业提供了强大的云解决方案。OpenStack具备灵活性、可扩展性和经济效益,使其在公共云、私有云和
    的头像 发表于 08-07 16:29 255次阅读

    基于DPU的云原生计算资源共池管理解决方案

    1. 方案背景和挑战 在传统的云环境中,通常存在着不同的技术栈,支撑多样化的计算服务,具体如下: ① OpenStack环境与虚拟化云主机及裸金属服务 OpenStack是一个开源的云计算管理平台
    的头像 发表于 07-09 11:52 1038次阅读
    基于DPU的云原生计算资源共池<b class='flag-5'>管理</b>解决方案

    PSoC 6 MCUBoot和mbedTLS是否支持加密硬件加速

    。 使用 MCUBoot 验证两个应用程序时,运行时间大约需要五秒钟。 在 README.md 的 \"安全 \"一栏中写道 与软件实现相比,硬件加速加密技术将启动时间缩短了四倍多
    发表于 05-29 08:17

    电池管理系统(BMS)软硬件介绍

    电子发烧友网站提供《电池管理系统(BMS)软硬件介绍.pdf》资料免费下载
    发表于 03-27 09:20 9次下载

    音视频解码器硬件加速:实现更流畅的播放效果

    随着多媒体内容的日益丰富和高清化,传统的软件解码已经难以满足人们对流畅播放体验的需求。因此,音视频解码器硬件加速技术的出现,为提升播放效果带来了革命性的改变。 硬件加速的原理 硬件加速的核心
    的头像 发表于 02-21 14:40 891次阅读
    音视频解码器<b class='flag-5'>硬件加速</b>:实现更流畅的播放效果

    CDN加速原理详解

    一、CDN加速是什么意思 CDN是Content Delivery Network)英文首字母的缩写,中文翻译为内容分发网络,由于CDN是为加快网络访问速度而被优化的网络覆盖层,因此被形象地称为
    的头像 发表于 01-12 16:06 978次阅读
    CDN<b class='flag-5'>加速</b>原理<b class='flag-5'>详解</b>

    KubeCASH:基于软硬件融合的容器管理平台

    Kubernetes(K8S)虽然强大,但也有劣势,劣势在于K8S主要基于CPU平台。有的朋友可能会说,不是有CDI吗,可以实现硬件加速器的支持。但其实CDI能做的事情非常有限,CRI、CNI
    的头像 发表于 01-08 10:16 1167次阅读
    KubeCASH:基于软<b class='flag-5'>硬件</b>融合的容器<b class='flag-5'>管理</b>平台

    面向系统级芯片验证的硬件平台介绍

    当设计的规模动辄几十亿门,系统验证时间不断的增加,硬件验证系统几乎是验证工程师不可或缺的利器,因此对高性能硬件验证系统提出了更多的需求。
    的头像 发表于 01-05 10:06 767次阅读

    hbs密码锁管理模式详解

    hbs密码锁管理模式详解  HBS密码锁是一种智能化电子锁具,通过密码、指纹、密码+指纹等认证方式来实现门禁的控制。它集成了现代化技术,具有便捷、安全、智能等特点,广泛应用于家庭、办公场所、酒店等
    的头像 发表于 12-29 14:01 4274次阅读

    五轴按键测试机:精准评估按键性能的利器

    五轴按键测试机:精准评估按键性能的利器
    的头像 发表于 12-26 09:15 514次阅读
    五轴按键测试机:精准评估按键性能的<b class='flag-5'>利器</b>

    探秘四轴按键测试机:提高生产效率的利器

    探秘四轴按键测试机:提高生产效率的利器?|深圳磐石
    的头像 发表于 12-25 09:11 569次阅读
    探秘四轴按键测试机:提高生产效率的<b class='flag-5'>利器</b>

    窥探材料性能的利器:平行挤压测试仪解析

    窥探材料性能的利器:平行挤压测试仪解析
    的头像 发表于 12-11 09:09 463次阅读
    窥探材料性能的<b class='flag-5'>利器</b>:平行挤压测试仪解析

    硬件工程师经典面试题详解

    硬件工程师经典面试题详解
    的头像 发表于 11-20 15:08 1353次阅读
    <b class='flag-5'>硬件</b>工程师经典面试题<b class='flag-5'>详解</b>