0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Merlin HugeCTRV 3.8/3.9版本新增内容

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-08-24 10:12 次阅读

Merlin HugeCTR(以下简称 HugeCTR)是 GPU 加速的推荐程序框架,旨在在多个 GPU 和节点之间分配训练并估计点击率(Click-through rate)。

V3.8 版本新增内容

1. 第三代 Embedding 的示例:

这个版本我们新增了一个示例笔记本,介绍了 Embedding 集合的 Python API 以及第三代 Embedding 的使用方法。

2. 用于分级参数服务器查找功能的 DLPack Python API:

这个版本我们引入了对使用 DLPack Python API 从分层参数服务器 (HPS) 查找 Embedding 的支持。新方法是 lookup_fromdlpack()。

3. 使用 Python API 从 HDFS 读取 Parquet 数据集:

现在您可以通过 DataSourceParams 来指定 Data Reader 的数据源的配置了,例如 Hadoop 分布式文件系统的 NameNode 的主机名和 NameNode 端口号。

4. 提高了日志记录的性能。

5. 层类的改进:

全连接层现已支持 3 维输入,Matrix Multiply 层现已支持 4 维输入。

6. 文档的改进:

a. 增加了导航长页面以提供更好的体验。

b. Criteo 1TB 点击日志数据集的 URL 已更新。

7. 修复的问题:

修复了 _metadata.json 配置文件内的文件名和实际数据集文件名不一致的问题。

修复了在 AUC 预热期间在多个 GPU 上运行大型模型时发生的内存崩溃问题。

修复了 ETC 笔记本中键集生成的问题。

修复了使用调试模式编译时发生的编译错误。

修复多节点训练出现重复日志的问题。

V3.9 版本新增内容

1. 第三代 Embedding 的更新:

更新了 SOK 以使用 HugeCTR 第三代 Embedding 作为开发者预览版本。

启用了基于 cuCollection的动态Embedding 模式。动态的Embedding能够在用户不配置内存使用信息时自动拓展。

2. 全新的多节点训练教程

我们提供了一个全新的基于 HugeCTR 最新 Docker 容器使用多节点训练的实例。

3. 现已支持 MMoE 模型的离线推理并提供了 Per-class AUC 和平均 AUC 计算。

4. 对 HPS TensorFlow 插件使用的文档和实例更新:

一个新的简介文档。

新的实例笔记本。

新的API文档。

5. 修复的问题:

修复了一个训练性能受到 GPU 例程检查影响的问题。该例程检查输入的 key 是否在规定的 Embedding Table 范围内。对于可以保证输入的 key 能放在指定的 workspace_size_per_gpu_in_mb 的情况,我们提供了一种解决方法:通过设置环境变量 HUGECTR_DISABLE_OVERFLOW_CHECK=1 来关闭例程检查,以便恢复训练性能。

我们修复了一个 Softmax 层的正确性问题。

我们删除了一个未更新且不再使用的内联分析器。

已知问题

以下是目前HugeCTR存在的已知问题,我们将在之后的版本中尽快修复。

HugeCTR 使用 NCCL 在 rank 之间共享数据,并且 NCCL 可能需要共享系统内存用于 IPC 和固定(页面锁定)系统内存资源。在容器内使用 NCCL 时,建议您通过发出以下命令来增加这些资源 -shm-size=1g -ulimit memlock=-1

另见 NCCL 的 已知问题。

还有 GitHub 问题。

目前即使目标 Kafka broker 无响应,KafkaProducers 启动也会成功。为了避免与来自 Kafka 的流模型更新相关的数据丢失,您必须确保有足够数量的 Kafka brokers 启动、正常工作并且可以从运行 HugeCTR 的节点访问。

文件列表中的数据文件数量应不小于数据读取器的数量。否则,不同的 data reader worker 将被映射到同一个文件,导致数据加载不会按预期进行。

正则化器暂时不支持联合损失训练。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4663

    浏览量

    128543
  • python
    +关注

    关注

    55

    文章

    4764

    浏览量

    84353
  • GitHub
    +关注

    关注

    3

    文章

    464

    浏览量

    16352

原文标题:HugeCTR v3.8 & v3.9 发布说明

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    浅谈Xpedition 2409版本的新功能

    在《创新不止|Xpedition 2409版本新功能揭秘(上)》一文中,我们了解了Xpedition 2409版本的部分改进部分。今天,我们继续看Xpedition 2409新版本给我们带来了什么样的全新用户体验。
    的头像 发表于 10-31 15:33 128次阅读

    实时网络的仿真和配置工具RTaW Pegase v4.6版本更新

    RTaW-Pegasev4.6版本的主要更新内容,涵盖了DDS、SOME/IP、Ethernet、CAN以及SDV等多个关键领域的改进。无论您是汽车电子、航空航天还是工业自动化领域的专业
    的头像 发表于 09-26 08:07 192次阅读
    实时网络的仿真和配置工具RTaW Pegase v4.6<b class='flag-5'>版本</b>更新

    USB4 2.0版本的重大更新

    USB版本一直很多,可以说是五花八门,但是随着接口的日渐统一,USB的版本可以说减少了很多,到了USB4,只剩下USB-C接口,为何还有一个2.0版本,我们往下详解。
    的头像 发表于 09-09 14:37 486次阅读

    微软发布智能办公工具OfficePLUS V 3.0版本

    近日,微软发布了智能办公工具 OfficePLUS V 3.0 版本。全新升级的 OfficePLUS V 3.0 新增了 Excel 插件,继已发布的 PPT/Word 插件之后, 完成了对 Office 核心使用场景的全方位覆盖,让用户拥有更加轻松的创作体验。
    的头像 发表于 06-27 09:26 645次阅读

    ENV-Windows v2.0.0版本发布

    ENV-Windows v2.0.0版本发布
    的头像 发表于 06-26 08:35 527次阅读
    ENV-Windows v2.0.0<b class='flag-5'>版本</b>发布

    微软Edge浏览器新增睡眠模式标签页自动舍弃策略

    据悉,微软近期面向测试版平台推送了Edge 125版本更新,新增加“AutoDiscardSleepingTabsEnabled”功能,即自动清除开启休眠模式超过1.5天的标签页。
    的头像 发表于 05-08 11:52 480次阅读

    LwIP v2.0版本更换为v2.1.2版本后接收不到数据了怎么解决?

    请教下,吧 LwIP v2.0 版本更换为 v2.1.2 版本后接收不到数据了,是怎么回事啊 ?? 之前使用 v2.0 版本测试是完全可以了,不过目前 使用 v2.1.2版本的,dhc
    发表于 04-23 08:20

    美国Merlin公司加速自主飞行模拟器开发

    美国Merlin公司正全力加速自主飞行模拟器的开发进程,以推动航空领域的创新与发展。这一举措不仅体现了Merlin公司在技术研发方面的雄厚实力,也预示着自主飞行技术即将迎来新的突破。
    的头像 发表于 04-22 11:30 534次阅读

    苹果停iOS 16.7.6验证,仅支持16.7.7版本验证

    据悉,苹果已于4月17日停止了对iOS 16.7.6版本的验证服务。对于已升级至iOS 16.7.7版本的iPhone用户来说,他们已无法返回至旧版系统。
    的头像 发表于 04-17 10:27 1031次阅读

    使用1.9.0版本时,stm32cubemx生成ETH+LWIP代码,直接编译出错的原因?

    字节内容全为0,后256字节为我本次发送数据,第三次768字节,第四次1024字节,都是最后256字节有新数据,其余全为0。满1024字节后,再也收不到数据了。 使用1.9.0版本
    发表于 03-25 08:10

    机智云“智家”APP V4.4.22版本发布

    新功能上线版本更新亲爱的机友们,迎来了机智云智家APP全新版本V4.4.22的发布!此次更新,我们为您带来了一系列实用的功能优化和全新的体验,让智能生活更加便捷、智慧!更新内容一览01单设备分享优化
    的头像 发表于 03-16 08:09 353次阅读
    机智云“智家”APP V4.4.22<b class='flag-5'>版本</b>发布

    PSOC Creator由3.3版本升级到4.1版本后,程序的EEEPROM模块无法使用怎么解决?

    PSOC Creator由3.3版本升级到4.1版本后,程序的EEEPROM模块无法使用,请提供一下CY8C4247读写内部Flash的例程,谢谢 。
    发表于 02-01 06:58

    Vivado 2023.2版本新增功能

    Vivado在前一段时间更新了2023.2版本,经过一段时间的使用这个版本还是很丝滑的,用起来挺舒服。
    的头像 发表于 01-02 09:39 2736次阅读
    Vivado 2023.2<b class='flag-5'>版本</b>的<b class='flag-5'>新增</b>功能

    OpenHarmony 4.0 Release版本发布,新增4000+ API

    近日,OpenHarmony 4.0 Release版本如期发布,开发套件同步升级到API 10。相比3.2 Release版本,OpenHarmony 4.0 Release版本新增
    的头像 发表于 11-13 11:31 784次阅读

    NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

    通过 Merlin 大幅提升大规模深度多目标精排模型训练性能 本案例中,NVIDIA 团队与陌陌推荐系统团队深度合作,共同使用 NVIDIA GPU 和 Merlin 软件解决方案替代其原有
    的头像 发表于 11-09 10:45 325次阅读
    NVIDIA <b class='flag-5'>Merlin</b> 助力陌陌推荐业务实现高性能训练优化