0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Merlin HugeCTR V3.4.1版本新增内容介绍

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-03-10 10:15 次阅读

Merlin HugeCTR(以下简称 HugeCTR)是 GPU 加速的推荐程序框架,旨在在多个 GPU 和节点之间分配训练并估计点击率(Click-through rate)。

此次v3.4更新涉及的模块主要为:

HugeCTR 分级参数服务器

HugeCTR Python API

相关介绍:

HugeCTR 分级参数服务器介绍

V3.4.1 版本新增内容

调整了整个代码库中日志消息的日志级别。

现已支持对具有多个标签的数据集进行推理:

“Softmax” 层现在已支持 FP16,并且支持混合精度以进行多标签推理。

支持多 GPU 离线推理:

我们通过 Python 接口支持多 GPU 离线推理,它可以利用Hierarchical Parameter Server并在多个设备上实现并发执行。更多信息请参考推理 API和多 GPU 离线推理笔记本。

HPS 已构建为独立库:

我们重构了代码库并将分层参数服务器构建为一个独立的库,以后会进一步封装。

metadata.json 简介:

添加了有关 Parquet data 中 _metadata.json 的详细信息。

增加了用于估计每个 GPU 的词汇量大小的文档和工具:

我们添加了一个工具来计算每个 GPU 的不同嵌入类型的词汇量大小,在此基础上,workspace_size_per_gpu_in_mb 可以根据嵌入向量大小和优化器类型评估更多信息请参考脚本。

训练中支持 HDFS :

a. 现在支持从 HDFS 加载和存储模型和优化器状态。

b. 增加了编译选项使 HDFS 的支持更加灵活。

c. 添加了一个笔记本来展示如何将 HugeCTR 与 HDFS 一起使用:

增加了一个演示如何分析模型文件的 Python 脚本和笔记本

错误修复:

修复了SOK 中的镜像策略错误

修复了无法在nvcr.io/nvidia/merlin/merlin-tensorflow-training:22.02中导入稀疏操作工具包的问题。

HugeCTR 参数服务器:修复了在未配置 RocksDB 时,可能会在初始化期间发生的访问冲突问题。

已知问题

HugeCTR 使用 NCCL 在 rank 之间共享数据,并且 NCCL 可能需要共享系统内存用于 IPC 和固定(页面锁定)系统内存资源。在容器内使用 NCCL 时,建议您通过发出以下命令(-shm-size=1g -ulimit memlock=-1) 来增加这些资源。

另见 NCCL 的 已知问题

还有 GitHub 问题

目前即使目标 Kafka broker 无响应,KafkaProducers 启动也会成功。为了避免与来自 Kafka 的流模型更新相关的数据丢失,您必须确保有足够数量的 Kafka brokers 启动、正常工作并且可以从运行 HugeCTR 的节点访问。

文件列表中的数据文件数量应不小于数据读取器的数量。否则,不同的 worker 将被映射到同一个文件,从而导致数据加载不会按预期进行。

正则化器暂不支持联合损失训练。

原文标题:Merlin HugeCTR v3.4.1 发布说明

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4752

    浏览量

    129057
  • 节点
    +关注

    关注

    0

    文章

    220

    浏览量

    24452
  • 服务器
    +关注

    关注

    12

    文章

    9231

    浏览量

    85626

原文标题:Merlin HugeCTR v3.4.1 发布说明

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    OurBMC 24.12版本正式上线

    日前,经过社区开发者的共同努力,OurBMC 全新升级,24.12版本正式上线。
    的头像 发表于 01-07 13:45 95次阅读

    特斯拉FSD V13.2版本正式发布

    的又一次重要突破。 FSD V13.2版本的发布对特斯拉而言具有重要意义。该版本在技术和功能上进行了全面升级,旨在提供更加稳定、高效的自动驾驶体验。特斯拉表示,如果新版本在初期测试中未
    的头像 发表于 12-03 11:01 695次阅读

    马斯克宣布FSD V13版本将很快发布

    今年9月份,特斯拉的AI团队就曾在马斯克的X平台上发帖,表示目标是在10月底发布FSD V13版本。然而,这一时间点并未如愿实现。到了10月下旬,特斯拉AI团队再次表示,他们的目标是在感恩节之前推出最新的FSD V13
    的头像 发表于 11-26 11:15 477次阅读

    浅谈Xpedition 2409版本的新功能

    在《创新不止|Xpedition 2409版本新功能揭秘(上)》一文中,我们了解了Xpedition 2409版本的部分改进部分。今天,我们继续看Xpedition 2409新版本给我们带来了什么样的全新用户体验。
    的头像 发表于 10-31 15:33 958次阅读

    实时网络的仿真和配置工具RTaW Pegase v4.6版本更新

    随着嵌入式系统日益复杂,高效可靠的设计工具变得愈发重要。RTaW公司的仿真工具RTaW-Pegase最新发布的4.6版本,为用户带来了一系列重要更新和功能增强。本文将详细介绍
    的头像 发表于 09-26 08:07 266次阅读
    实时网络的仿真和配置工具RTaW Pegase <b class='flag-5'>v</b>4.6<b class='flag-5'>版本</b>更新

    NVIDIA Parabricks v4.3.1版本的新功能

    会(ESHG)上发布,其加入了新的体细胞数据变异检测功能,并将业内领先的工具升级到最新版本。这个版本是继在 NVIDIA GTC 2024 大会上发布 Parabricks v4.3 之后推出的新
    的头像 发表于 09-10 10:22 396次阅读
    NVIDIA Parabricks <b class='flag-5'>v</b>4.3.1<b class='flag-5'>版本</b>的新功能

    SOK在手机行业的应用案例

    通过封装 NVIDIA Merlin HugeCTR,Sparse Operation Kit(以下简称 SOK)使得 TensorFlow 用户可以借助 HugeCTR 的一些相关特性和优化加速 GPU 上的分布式 Embed
    的头像 发表于 07-25 10:01 368次阅读
    SOK在手机行业的应用案例

    微软发布智能办公工具OfficePLUS V 3.0版本

    近日,微软发布了智能办公工具 OfficePLUS V 3.0 版本。全新升级的 OfficePLUS V 3.0 新增了 Excel 插件,继已发布的 PPT/Word 插件之后,
    的头像 发表于 06-27 09:26 782次阅读

    ENV-Windows v2.0.0版本发布

    ENV-Windows v2.0.0版本发布
    的头像 发表于 06-26 08:35 804次阅读
    ENV-Windows <b class='flag-5'>v</b>2.0.0<b class='flag-5'>版本</b>发布

    chrome插件新版本v3版本)中的热更新,即加载更新远程js的方法探索

    1 主流方案及尝试 现在浏览器插件中,大多采用直接调用远程代码的方式进行热更新,由于安全策略逐步增强,越来越不支持热更新了;chrome在新v3版本插件中直接给禁止了;对于v2版本则即
    的头像 发表于 06-14 10:19 842次阅读
    chrome插件新<b class='flag-5'>版本</b>(<b class='flag-5'>v</b>3<b class='flag-5'>版本</b>)中的热更新,即加载更新远程js的方法探索

    LwIP v2.0版本更换为v2.1.2版本后接收不到数据了怎么解决?

    请教下,吧 LwIP v2.0 版本更换为 v2.1.2 版本后接收不到数据了,是怎么回事啊 ?? 之前使用 v2.0
    发表于 04-23 08:20

    美国Merlin公司加速自主飞行模拟器开发

    美国Merlin公司正全力加速自主飞行模拟器的开发进程,以推动航空领域的创新与发展。这一举措不仅体现了Merlin公司在技术研发方面的雄厚实力,也预示着自主飞行技术即将迎来新的突破。
    的头像 发表于 04-22 11:30 619次阅读

    达实智能正式发布AIoT智能物联网管控平台V6版本

    近日,在达实智能成立29周年庆典上,公司正式发布AIoT智能物联网管控平台V6版本
    的头像 发表于 03-20 16:42 1430次阅读
    达实智能正式发布AIoT智能物联网管控平台<b class='flag-5'>V</b>6<b class='flag-5'>版本</b>

    机智云“智家”APP V4.4.22版本发布

    新功能上线版本更新亲爱的机友们,迎来了机智云智家APP全新版本V4.4.22的发布!此次更新,我们为您带来了一系列实用的功能优化和全新的体验,让智能生活更加便捷、智慧!更新内容一览01
    的头像 发表于 03-16 08:09 406次阅读
    机智云“智家”APP <b class='flag-5'>V</b>4.4.22<b class='flag-5'>版本</b>发布

    Embedded office发布安全插件V1.1版本

    Embedded office很高兴地宣布安全插件V1.1版本的发布了!现在通过外部设备或不同核心架构的专门通道支持端到端受保护的安全通信。
    的头像 发表于 02-20 11:12 644次阅读