阿里开源首个DL框架，新型XDL帮你搞定大规模稀疏数据

12月21日，阿里巴巴旗下的大数据营销平台阿里妈妈开源了其应用于自身广告业务的算法框架X-DeepLearning（XDL）。该框架非常擅长处理高维稀疏数据，对构建推荐、搜索和广告系统非常有优势。此外，阿里还配套发布了一系列官方模型，它们都是阿里在实际业务或产品中采用的高效模型。

在XDL开源前夕，记者采访了其团队的四位主要负责人：

靖世，研究员，阿里妈妈定向广告技术团队负责人兼阿里妈妈算法平台负责人

见独，资深技术专家，阿里妈妈工程平台技术负责人

怀人，资深算法专家，阿里妈妈算法平台深度学习方向负责人兼定向广告排序算法团队负责人

乐迪，资深技术专家，阿里妈妈大数据计算与机器学习平台的工程架构负责人

「高维稀疏数据的数据处理、模型计算以及在线服务一直是深度学习应用于业界的一个核心挑战区。作为一个真实在广告业务下解决过大量技术问题的团队，我们为了解决这些问题提出了大量的方法。阿里妈妈第一代的基于深度学习的CTR模型研制与大规模线上部署都是XDL支撑的，我们将其中对业界有贡献的部分提供给用户，希望做出对大家有增量的东西。」靖世这样描述XDL开源的初衷。

而现有框架在处理高维稀疏数据的「痛点」究竟在哪里？使用的模型有什么不同？更加具体的，XDL框架如何使用？如何与现有框架及模型结合？XDL团队为机器之心的读者做了详细的解答。

XDL项目地址：https://github.com/alibaba/x-deeplearning

高维稀疏数据怎么搞？

其实最早的时候，阿里巴巴深度模型的研发也是在尝试已有的框架，例如Caffe、TensorFlow和MXNet等。但当时阿里巴巴发现已有框架在生产化方面有很多局限，首先第一个是大规模稀疏数据的处理能力，其次是如何实现结构化数据。

大规模稀疏数据体现在搜索、推荐和广告等任务上，例如某系统一共有10亿的商品量，那么用户是不是访问过每一个商品就是一维特征。因此，表征用户的特征维度就可能有10亿维，而只有访问过的商品才有值「1」，未访问过的商品全为「0」，这也就是高维稀疏的意义。这样的结构和传统机器学习一个特征矩阵加一列标注很不一样，因此也就需要特定的框架高效处理。

除了用户的稀疏表征，商品同样也是稀疏的，它们可能有各种各样的特征，例如颜色、形状、图像和名称等。在一般的推荐系统中，样本都是平铺的，例如一个用户点击了商品1和商品2。那么样本1为（用户，商品1）、样本2为（用户，商品2），这种平铺的数据是非常低效的，因此XDL对于大规模稀疏数据有一个结构化的过程。这种结构化会将实体与实体之间的复杂关系进行关联化，并继续投入到计算中，因此XDL整体就是一个结构化的计算流。

其实XDL团队在处理大规模高维数据后，发现整个计算模式可以进一步提升，以前的张量计算流也许可以使用结构化的计算流代替。可能读者对数据结构化还是缺少了一种直观感受，如下图所示为简单的数据结构化。其中左边的样本是传统平铺的训练数据，而右边的树型结构化会大大降低存储需求。

图示：如上图所示左边为平铺的数据，其一个用户配一个商品（Item）就为一个样本，用于表征用户的高维特征需要重复使用。而箭头右边树型结构化的数据会节约很大的存储成本，它同样表示三个独立的样本。

XDL团队表示在淘宝原来的信息流广告里，他们需要300台以上的机器才能支持模型训练一次。但是这种结构化数据大大简化了数据的表示，因此整个数据集减少了一百倍以上的硬盘存储，计算速度也提升了十多倍。因此最后本来需要几百台机器的模型训练，可以精简到十台机器左右就能完成训练。

最后，除了数据结构化，模型同样也可以结构化。因为当阿里巴巴开始探索将图像、文本和语音等信息加到推荐等系统时，他们会发现这些信息和其它信息又是一个复杂的结构化关系，因此他们开始将模型的分布也结构化。首先数据根据结构关系可以分布在不同的机器上，而这些结构同样可以将计算分配到不同的机器上。所以将模型的计算与数据的结构耦合在一起，它们间的计算量和通讯传输量都能有效降低。

所以以上几点是XDL整个的脉络，XDL团队表示它主要在三个层面上对通用框架有比较大的提升：

首先是对大规模稀疏性数据的建设；

其次是结构化的计算流；

最后在结构化的计算流基础上，模型的分布也需要结构化。

当然，这些都是XDL团队在实践中的探索，它们也并没有完美处理各种高维稀疏的情况。但是经过阿里巴巴业务上的检验，整个框架和配套开源的推荐/广告/搜索算法都被被证明非常有效。也许通过开源社区的共同参与，高维稀疏数据的处理能更高效。

用于解决不完全信息下的开放问题的模型

「图像、语音、文本，都是在完全信息下定义的封闭问题。而互联网领域里的机器学习是不完全信息下的开放问题。」靖世概括道。「图像像素已经表征了所有信息，模型能力如果达到极限，就应该能够判定图像中有什么东西，获取目标信息。而在互联网领域，可选数据非常多。以电商为例，除了item级别的表征之外，商品图像、详情页信息、评论……都是可以引入的相关数据，但即使囊括所有可得的相关数据，其合集仍然不是完全信息。」

而模型的意义，就是能够从数据中找到特定的规律，既能够拟合现有数据，又能够有一定的推广性。从业务的角度出发，找规律的过程中用到的「数据」，应该是平台能够充分利用所有可得的信息，无论它是以何种形式呈现的。而如何将尽可能多的、类别各不相同的信息引入到模型中，就是XDL着重解决的一个问题。

用于广告、推荐、搜索这样任务中的模型，可能乍一看很「简单」：它们不会像单纯的视觉模型一样有数以百计的层数，也不会像纯粹的NLP模型一样用模型结构跨越漫长的时间步，几层的模块、全连接的模块在系统里都会很常见。然广告等领域模型的其复杂性正是体现在其「复合」这一特点上。

当模型的输入数据异构特性非常明显的时候，稀疏数据需要做嵌入、时序的数据需要过LSTM模块捕捉时序关系、图像数据需要逐层卷积抽象不同粒度的特征，串联多种特征转化为其他网络可接受的输入后，还要进行统一的稠密的计算。不同网络的联动，乃至进一步到系统层面，样本的I/O问题，数据流水线的优化工作、训练阶段机器之间频繁的大量的参数交换等等问题，都是没有相应框架就做不了的。

因此，任务与数据形态的不同，看起来是带来了一个算法问题，其实是导致最大的变动出现在框架。乐迪举了个例子，「模型结构复杂了之后，其内部的前向与后向计算的迭代就很难用标准化的方式去做了，批规模的安排、超参的设计与反馈速率，都会极大影响迭代过程。TensorFlow划分了ps（parameterserver）和worker，但是worker不会再切分。我们的模式可以把模型任意地切分，每一部分都可以选择不同的迭代速率等参数，从而让整个复杂网络的训练变得非常高效。」

「像八爪鱼套八爪鱼。」靖世打了个比方。这样的模型的体量通常十分惊人，见独表示，阿里的场景下，模型的参数规模通常会到达几十亿甚至上百亿，内部应用的模型已经有千亿规模出现。

和XDL一起开源的就有一些阿里妈妈实际在用的、验证过有用的「八爪鱼」模型，在xdl-algorithm-solution文件夹里，首批就公开了六个模型，其中包括利用图像信息帮助点击率预估的DICM以及以预估CTR为约束刻画用户兴趣的DIEN。

CrossMedia Network(论文中具体指Deep Image CTRModel，DICM)，旨在帮助精准展示广告系统为每次投放请求选择收益最大化的广告。CrossMedia Network主要利用图像信息，包括用于展示和点击的广告图像（Ad image）和用户点击过的商品组成的用户行为图像（User behavior images）。利用这两类信息，结合原有ID特征，DICM模型对于每个广告展示样本的点击或未点击的二元判别，进而转化为点击率预估。

Deep Interest Evolution Network(DIEN)模型主要用于定向广告排序中的CTR（点击率）预估阶段，应用于阿里妈妈定向广告各大产品中。传统的点击率预测算法通常直接将用户历史行为表示用户兴趣，DIEN提出了兴趣抽取和和兴趣演化两个模块，在兴趣提取模块用auxiliaryloss约束模型找到能够推测出后续的行为的隐层表达，在兴趣演化模块用GRU模块根据不同的预估目标商品构建不同的兴趣演化路径。

除了框架、模型之外，XDL也有提供数据和服务的打算：

「很多测试用户反映模型跑不起来，那我们内部也整理了一些觉得对业界比较有用的数据，在保护用户隐私的前提下，打算以公开数据集的形式发布出来。这个体量对于阿里的业务本身来说可能已经很小了，但是相信对于研究者使用框架跑一些算法验证还是很有帮助的。但是真实数据的规模是非常庞大的，比如我们在某个场景只抽出了1%的数据出来，大小仍然有50G的规模。」

而怀人也提到，当结构复杂后，在线预估也会遇到瓶颈：「我们也正在探索根据数据前向计算所需算力的分布，用不同的硬件来做对应的计算，最终做到全局最优化。」在未来，XDL也计划在训练框架之外，进一步开源高性能在线推理服务引擎，将超大规模模型参数的分布式存储、分布式计算问题也一并解决。

XDL的使用姿态

对于开发者而言，最关心的可能是XDL如何使用，以及它能帮助我们获得怎样的提升。想象一下，如果我们已经费了九牛二虎之力构建出一个TensorFlow深度模型，然而最终发现它在高维稀疏数据下效率很低。那么我们该如何将这个模型迁移到XDL，并利用其数据结构化与模型结构化的优势进行高效训练？

XDL团队表示他们在文档上会有一个完整的示例，如果我们写了一个完整的TensorFlow模型，那么基本上模型定义部分就不需要修改了，我们只需要在外围写大概十来行的分布式驱动代码就行。增加了XDL的分布式驱动后，单机的TensorFlow模型就能分布式运行，并具备XDL面向高维稀疏数据的大规模并行能力。

靖世表示，其实我们可以认为XDL构建了一个大型高维分布式计算图，我们可以将TensorFlow构建的静态计算图嵌入到XDL分布式计算图中。然后在大型计算图中，TensorFlow构建的子图可以调用对应的框架，并完成计算。所以说如果模型已经进入到密集的运算及架构设计上，那么其实我们可以将这个子图包装一下并嵌入到XDL中。

此外，值得注意的是数据格式，XDL团队表示输入数据流是根据框架定义的规范和格式，我们需要根据这些格式来准备数据。但是当数据流进入到单机上的稠密网络时，所有数据结构会自动转化为TensorFlow内部的数据格式，我们可以按照TensorFlow那样的格式定义后面各种各样的网络。虽然XDL定义了新的数据结构，用户必须按照经优化的模板定义数据结构，但这样统一的格式可以避免保存、部署和迁移等遇到的大量问题，也能获得更多的性能提升。

总的而言，在使用XDL构建大型分布式计算图后，分布式数据流也需要按照格式定义才能传入该计算图。随后我们可以将自己用TensorFlow构建的计算图嵌入到XDL计算图中，且当XDL数据流传输到该独立的子计算图时，它会转化成对应深度学习框架的数据格式，并调用对应的后端完成计算。

TensorFlow嵌入实例

在XDL的使用示例中，其展示了如何结合密集型特征和稀疏性特征，并完成联合训练。其中密集型特征可能是图像或语音等数据，而稀疏性特征可能是用户和商品之间的访问关系。这就相当于将TensorFlow模型嵌入到XDL中，并承担密集型特征运算，而XDL本身会处理稀疏性特征。

在这个示例中，模型包含一路密集型特征(deep0)以及两路稀疏性特征(sparse[0-1])，稀疏性特征通过Embedding计算生成两个8维密集型向量，并与本来的密集型特征拼接后执行4层全连接层运算，并最后得出模型损失。

代码地址：https://github.com/alibaba/x-deeplearning/wiki/%E5%BF%AB%E9%80%9F%E5%BC%80%E5%A7%8B

首先是读取数据，我们可以定义读取器，并配置线程数和批量数等读取等设定。因为数据格式是有规范的，所以我们可以像使用Pandas读取CSV那样简单地抽取不同类型的数据，包括稀疏的访问记录和密集的图像数据等。

随后我们需要定义模型，这里可以分为两路，即稀疏和稠密。其中稀疏数据可以借助XDL构建稠密的特征向量，这有点类似于构建NLP中的词嵌入向量，它在保留用户和商品等信息的情况下尽可能为密集计算提供便利。

在构建嵌入向量后，它就应该与前面密集型特征拼接在一起并完成第二路的稠密计算。这里仅使用三层全连接网络作为示例，但是我们可以根据需要完成各种复杂的神经网络。此外，由于已有的框架在这些计算上非常有优势，因此我们可以直接导入TensorFlow等框架，并将密集型计算分配给它们，这正相当于将子计算图嵌入到了XDL分布式计算图中。

最后，我们只要定义最优化器与对应的训练过程就行了，当然损失函数等训练信息也需要在这一部分定义。如下所示，值得注意的是，这里是直接运行XDL定义的计算图，并不用管嵌入的TensorFlow计算图是什么样的。此外由TrainSession可见，XDL采用的也是一种静态计算图。

当然，这可能只是最简单的一种用法，模型的计算主要集中在单机后面的密集型网络中。但是XDL其实还是构建了一个分布式计算图的，它可以理解为多个不同的单机节点构成的复杂网络。其中不同表示我们可以构建很多子网络，这些子网络可以使用XDL构建一个更庞大的深度学习网络。这种高级应用其实在业务中很常见，因为搜索、推荐和广告等场景需要的系统通常都非常大。当然如果只需要XDL高性能的分布式训练，我们可以仅简单地嵌入单个计算图。

本文来源：机器之心

阅读全文

阿里(32682) 阿里(32682)
deeplearning(4824) deeplearning(4824)
XDL(2317) XDL(2317)

2017双11技术揭秘—阿里巴巴数据库技术架构演进

第三代大规模分库分表向第四代X-DB分布式数据库系统演进的目标。X-DB分布式数据库的落地已经在2017年双11大促中获得了可行性验证，同时底层开始引入存储计算分离架构。分布式在系统稳定性、容灾能力

2018-01-02 16:31:04

3G上网本大规模使用不会影响网速

，也不会造成语音通话拥堵”。　　大规模3G上网不会影响网速　　三种3G标准都是基于CDMA码分多址技术的，语音通道和数据业务通道是分开的。本身3G最大的优势就是提供基于数据业务的服务，我们可以从技术

2010-03-16 09:10:48

5G大规模MIMO天线阵列3D OTA测试

5G将使用多天线技术，通过结合增强的空分复用为多个用户提供数据，称为大规模MIMO。一个结论是不能采用传导方式评估辐射方向图性能，因此必需通过OTA方式。本文介绍使用OTA测试装置测量天线三维方向图

2019-06-10 07:36:36

5G大规模多入多出(MIMO)测试台：从理论到现实

（MAC）执行时所需的实时性能需求理想情况下，这些的属性可被快速自定义以满足更多更广泛的研发需求。基于NI平台的大规模MIMO应用程序框架将软件无线电、时钟分配模块、高数据吞吐量PXI系统以及

2014-12-24 14:13:12

5G毫米波终端大规模天线技术及测试方案介绍

【摘要】本文首先介绍了全球毫米波频谱划分情况，然后通过对毫米波特性的分析，总结了毫米波终端将面临的技术挑战，着重介绍了终端侧大规模天线技术、毫米波射频前端技术的研究进展，并根据毫米波终端的特点分析了

2019-07-18 08:04:55

大规模FPGA设计中的多点综合技术

大规模FPGA设计中的多点综合技术

2012-08-17 10:27:46

大规模MIMO的利弊

（Multiple-Input Multiple-Output，MIMO）时，数据的传输速率可能会下降50％以上。大规模MIMO被认为是5G网络的关键支持技术之一。MIMO是无线通信中已被确立起来的技术，利用该

2019-06-18 07:54:32

大规模MIMO的性能

轨迹产生的容量斜坡仍然比需求线平坦。面对此挑战，3GPP 标准实体近来提出了数据容量“到2020 年增长1000 倍”的目标，以满足演进性或革命性创意的需要。这种概念要求基站部署极大规模的天线阵

2019-07-17 07:54:10

大规模区域监控与通信系统的SOPC芯片组，看完你就懂了

大规模区域监控与通信系统的SOPC芯片组，看完你就懂了

2021-05-26 06:46:11

大规模天线技术商用测试

作为提升5G系统频谱效率最直观的物理层技术之一，大规模天线技术自问世以来，受到了来自学术界、工业界的广泛关注。样机测试为了克服信道信息获取困难、解决导频污染、以及计算复杂度大幅提升等问题，测试

2019-06-13 07:49:29

大规模天线阵列介绍

解读5G通信的杀手锏大规模天线阵列

2021-01-06 07:11:35

大规模特征构建实践总结

Server相关的资料，但我们在实际实践中，发现大规模的特征预处理也有很多问题需要解决。有一次和明风（以前在阿里，后来去了腾讯做了开源的PS：angel）交流过这部分的工作为何没有人开源，结论大致

2018-11-19 09:35:28

大规模集成电路在信息系统中的广泛应用

信息系统处理的共同点如下：1、处理种类不多，且多系固定的、复用的；2、要求实时性；3、是决定信息质量的因素之一考虑到这些条件，设备结构则以硬件控制为宜，因此，需要逻辑运算和存储器用的大规模

2014-09-11 11:27:25

大规模数据集的相似度计算原理

Spark MLlib 之 大规模数据集的相似度计算原理探索

2020-06-04 08:19:16

开源框架教程（二）—— iOS APP开发

如何使用核心模块开发设备控制功能（iOS APP开发）导读：本次教程我们在开源框架代码基础上做一个控制gokit红灯开的App，Wi-Fi设备接入机智云客户端调试工具包括 iOS Demo

2016-11-28 18:14:48

数据库厂商都怕低价竞争？阿里云说并不可惧

的QPS;其次要有超大规模的存储，阿里云POLARDB现在可达100TB存储空间;最后是生态，数据库必须要兼容开源生态。　　云原生数据库像一辆跑车，跑车有很多特性，比如外观、速度，但是一个有这样外观和速度

2018-05-11 11:02:53

阿里云与WPS深度合作，开放数据处理生态

数据管理提供有力工具。引入文档预览能力的底层依赖产品--对象存储OSS,已经不仅仅是“存储”。依托高性能的阿里云数据中心网络与丰富的开源计算系统，提供了方便、简单、经济的数据分析和加工能力。OSS是中国

2018-04-18 14:11:36

阿里云免费使用及手册

.................................................... 5超大规模数据中心遍布全球 .......................................... 55 大优势，助客户从0 搭建到秒级部署云环境

2018-05-10 21:17:45

阿里云在LC3大会上透露未来要做的两件事

摘要：阿里云研究员褚霸在LC3大会上同多位业界资深大咖同台交流表示，阿里云发展到今天，把过去应对淘宝、天猫大规模计算以及双11的计算能力转换成普惠的能力放在云上，这是一个非常大的挑战，也是其他厂商

2018-07-02 15:27:20

阿里云宣布与国内规模最大的汽车企业上汽集团合作

摘要：云栖大会·上海峰会，6月7日，阿里云宣布与国内规模最大的汽车企业上汽集团合作，上线业内首个混合云汽车研发仿真计算服务平台——上汽仿真计算云SSCC（SAIC Simulation

2018-06-19 16:04:24

阿里云开放物联网技术开发平台

和智能骨干。它为全球客户提供一整套云服务，包括弹性计算、数据库、存储、网络虚拟化服务、大规模计算、安全、管理和应用服务、大数据分析、机器学习平台和物联网服务。根据 IDC 的数据，按

2022-03-08 08:50:09

阿里巴巴开源的通用缓存访问框架JetCache介绍

摘要： JetCache是由阿里巴巴开源的通用缓存访问框架，如果你对Spring Cache很熟悉的话，请一定花一点时间了解一下JetCache，它更好用。JetCache可以做类似Spring

2018-04-24 16:09:38

阿里巴巴统一的超大规模数据计算平台MaxCompute的探索与实践

阿里关涛谈大规模计算—从数字化阿里到数字化城市的进化

2019-05-16 07:46:04

阿里平头哥发布首个 RISC-V AI 软硬全栈平台

HHB 实现了在典型网络性能比第三方工具平均提升 88%，并增加支持运行 Transformer、TensorFlow、PyTorch 等 170 余个主流框架 AI 模型。基于此，平头哥发布了首个

2023-08-26 14:14:40

ADI高功率硅开关可节省大规模MIMO RF前端设计中的偏置功率和外部组件

多输入、多输出（MIMO）收发器架构广泛用于高功率RF无线通信系统的设计。作为迈入5G时代的一步，覆盖蜂窝频段的大规模MIMO系统目前正在城市地区进行部署，以满足用户对于高数据吞吐量和一系列新型业务

2021-05-19 09:33:41

AI开发者福音！阿里云推出国内首个基于英伟达NGC的GPU优化容器

GPU计算平台。阿里云推出国内首个基于英伟达NGC的GPU优化容器3月28日，在2018云栖大会·深圳峰会上，阿里云宣布与英伟达GPU 云合作（NGC），开发者可以在云市场下载NVIDIA

2018-04-04 14:39:24

Cloud Foundry平台中国唯一云供应商，阿里云持续链接Cloud Foundry/Kubernetes生态

Foundry适用于多种云、多种框架和多种语言”阿里云首席架构师唐洪表示，“阿里云致力于为客户提供多种选择，并且一如既往地致力于为开源社区做贡献。”目前用户们可以在阿里云上安装和部署Cloud

2018-05-10 09:37:16

MQTT通信开源项目的系统构成框架

基于STM32和阿里云物联网平台的MQTT通信开源项目有哪些使用注意事项？

2021-10-09 09:35:11

RFSoC数位射频在大规模MIMO无线电系统有什么应用？

)服务，与第四代无线网络相比，约提升100倍。大规模MIMO，或称大规模数组天线(Massive MIMO)是达成效能提升的关键技术，尤其适合于6GHz以下不常使用的时分双工(TDD)频段，如Band

2019-09-11 11:52:36

Veloce平台在大规模SOC仿真验证中的应用

随着现代集成电路技术的发展,尤其是IP的大量使用,芯片的规模越来越大,系统功能越来越复杂,普通的EDA和FPGA仿真在速度和性能上已经无法胜任芯片仿真验证的要求,功能验证已经成为大规模芯片设计的一个

2010-05-28 13:41:35

java开源工具包-Jodd框架

作为Java开源工具包和小型框架，具有很多便利功能，常用功能如下：1. 提供操作Java bean，2. 可以从各种数据源加载Bean,3. 简化 JDBC 的接连与代码，4. 剖析 SQL 查询，5.

2018-03-19 16:13:22

一个大规模电路是怎么设计出来的？？？

组合成电路，比如一个电视机的电路板上电子元件纵横交错，怎么设计组合成那样的，还有各与器件参数大小怎么算的?数字电路的各个门，模拟电路的三极管，单个是简单，就是不明白怎么组合成大规模电路的。书上就那么几个简单的电路图，网上也查询过，还是没得出答案，谁能帮忙解决下。非常感谢！！！

2012-12-24 20:34:42

一个benchmark实现大规模数据集上的OOD检测

评价算法的性能。为此，这份工作建立了新的benchmark，在ImageNet-1k级别的数据集上设立了一个全新的benchmark。并提出了一种基于group的OOD检测框架，该框架对大规模图像分类

2022-08-31 15:11:09

一张图读懂阿里巴巴一站式研发协同云——云效

工具支撑，助力企业快速创新迭代和研发效能升级，帮你通通全搞定，Boss再也不用担心我没法如期交付啦！点此查看原文：[url=]http://click.aliyun.com/m/41380/[/url

2018-01-31 14:32:21

一种工作于Sub-6G的5G大规模天线的系统架构探讨

技术开发过程中会遇到的技术难题提出解决措施建议,在此基础上，探讨后续5G大规模天线的发展趋势和优化方向。人类社会对信息数据传输的巨大需求推动着通信技术的不断向前发展，每一次移动通信的升级，对应了下行

2019-07-16 08:12:54

介绍一种适合大规模数字信号处理的并行处理结构

本文提出了一种基于FPGA的适合大规模数字信号处理的并行处理结构。

2021-04-30 07:16:52

企业打开Redis的正确方式，来自阿里云云数据库团队的解读

的集群架构以及读写分离架构，满足高读写性能场景及容量需弹性变配的业务需求。关于非关系型数据库，阿里云还有可根据不同场景切换引擎的MongoDB 3.4、首个全托管的DBaaS服务HBase 1.1，与开源

2018-02-07 14:06:16

企业打开云HBase的正确方式，来自阿里云云数据库团队的解读

PC Server上搭建起大规模结构化存储集群。一、HBase的历史由来HBase是一个开源的非关系型分布式数据库（NoSQL）,基于谷歌的BigTable建模，是一个高可靠性、高性能、高伸缩的分布式

2018-05-31 15:57:40

使用xdl -ncd2xdl test.ncd生成xdl文件出现警告怎么解决？

嗨，首先，我使用xdl -ncd2xdl test.ncd生成xdl文件进行读取。然后，在xdl文件上没有任何更改，我使用xdl -xdl2ncd test.xdl，但是有警告，警告

2020-04-22 06:57:31

全新一代人工智能计算引擎MaxCompute杭州开服，强化阿里云大数据能力，比肩谷歌微软

覆盖金融、互联网、零售、电子商务等，典型客户包括微博、华大基因等。此前，MaxCompute已在全球部署开服12个节点，其中8个海外节点。凭借大规模计算存储、多种计算模型、强数据安全和低成本的优势，受到

2018-03-28 14:33:09

共建、共享开源EDA核心共性技术框架｜2023开放原子全球开源峰会开源EDA分论坛成功举办

现有的PCB设计流程，另一方面需要体现仿真驱动和规格驱动的先进性，其包含四个层级，即数据层、高性能计算层、开源框架层和应用层。现已开发多个第三方接口，高校和企业可以通过开源或闭源的方式，接入电磁场仿真

2023-06-16 13:45:17

匀一枯大规模夺顶替

顶替枯大规模夺顶替顶替

2018-01-05 18:50:55

华为大规模逻辑设计指导书方法论

华为 大规模逻辑设计指导书方法论

2019-11-22 22:52:12

华为大规模逻辑设计指导书

华为大规模逻辑设计指导书。非常详细地介绍了逻辑设计的规范要求及方法。

2020-01-27 17:58:38

华为_大规模逻辑设计指导书

本帖最后由 eyesee 于 2017-3-2 09:29 编辑华为_大规模逻辑设计指导书

2017-03-01 11:56:34

华为_大规模逻辑设计指导书

华为大规模逻辑设计指导书

2015-04-20 13:41:35

华为_大规模逻辑设计指导书

2012-08-18 08:11:53

如何去推进FTTH大规模建设？

如何去推进FTTH大规模建设？影响FTTH大规模建设的原因有哪些？

2021-05-27 06:58:13

怎么实现大规模电动汽车的生产

大规模电动汽车生产需要先进的电池化成和测试系统

2021-01-27 06:59:50

支持Dubbo生态发展，阿里巴巴启动新的开源项目 Nacos

趋势，8年前微服务架构思想也顺应了这个趋势，今天面向“服务”的各种分布式基础设施正在变得越来越重要，站在阿里巴巴10年的服务化发展经验上看，在大规模服务发现和服务治理和服务共享领域现有的开源解决方案

2018-07-05 17:35:45

机智云开源框架介绍

机智云物联网开源框架App工程（Eclipse工程）https://git.oschina.net/dantang/GizOpenSource_AppKit_Android 介绍：机智云开源框架

2016-12-27 15:47:27

机智云APP开源框架介绍

机智云物联网开源框架App工程（Eclipse工程）介绍：机智云开源框架（GizOpenSource_AppKit_Android）是开源的适用于物联网的软件框架，用于无缝的支持设备到设备的互联

2017-02-15 17:56:40

构建大规模MIMO的难点在哪？

构建大规模MIMO的难点在哪？高功率硅开关的应用案列分析

2021-03-11 07:05:03

树莓派使用Socket发送数据至阿里云服务器ECS并存入数据库的方法

的信息；深联智达 DL-20 2.4G zigbee无线串口收发模块将采集到的信息从单片机发送给树莓派；树莓派4B将接收到的数据再转发给阿里云服务器ECS；阿里云服务器ECS对接收到的数据进行处理，存入

2022-02-18 06:48:19

每秒几十万的大规模网络爬虫的炼成

每秒几十万的大规模网络爬虫是如何炼成的？

2019-05-27 15:02:25

求一种基于STM32F4开发板和阿里云平台的MQTT通信开源项目

基于STM32F4开发板和阿里云平台的MQTT通信开源项目有哪些使用注意事项？

2021-10-11 07:46:28

物联网APP开源框架教程（二）—— iOS APP开发

在机智云开发者中心创建新产品。首先选择产品分类和方案，为产品添加数据点，最后为产品创建应用。为了帮助大家更好地理解整个创建过程，我们在视频里穿插着介绍了开源框架、数据点、数据点模板、Product key

2016-12-07 10:54:00

独家专访阿里高级技术专家北纬：Dubbo开源重启半年来的快意江湖

的挑战，能够更真切地感受到自己负责的组件在其中承担的作用从而带来了很大的成就感。谈“Dubbo”时隔3年阿里的开源Dubbo 3.0满血复活！对于 Dubbo 框架，大部分 Java 开发者都不会

2018-05-16 22:27:26

独家专访阿里高级技术专家北纬：Dubbo开源重启半年来的快意江湖

2018-05-16 22:27:25

直击DTCC2018 阿里数据库技术干货全面解析

方面的挑战及我们的解决方法。演讲嘉宾：孟庆义阿里巴巴技术专家，专注在大数据领域，拥有多年分布式、高并发、大规模系统的研发与实践经验，先后参与hbase、phoenix、lindorm等产品的内核引擎

2018-04-27 17:58:00

请教大神如何去管理大规模数据？

请教大神如何去管理大规模数据？

2021-05-11 06:56:54

请问一下大规模MIMO的原型怎么制作？

大规模MIMO的原型怎么制作？

2021-05-24 06:25:09

超大规模商用 K8s 场景下，阿里巴巴如何动态解决容器资源的按需分配问题？

杂乱和形态各异的窘迫。杂乱，是因为作为一个异军突起的新型技术栈，很多配套工具和工作流的建设处于初级阶段。Demo 版本中运行良好的工具，在真实场景下大规模铺开，各种隐藏的问题就会暴露无遗，层出不穷。从

2019-10-15 14:47:38

轮胎压力监测（TPM）系统有望获得大规模应用

轮胎压力监测（TPM）系统有望获得大规模应用。

2021-05-12 06:02:56

阿里携手星巴克推动AR新技术商业落地,大规模商用正式开启

据阿里方面透露，该项AR方案由阿里巴巴人工智能实验室（以下简称阿里AI Labs）联合星巴克共同开发，“这是阿里最新的大型场景内的AR识别技术，在全球第一次大规模的商业应用”阿里 A.I.Labs负责人浅雪表示。

2017-12-05 15:13:38

865

基于坐标下降的并行稀疏子空间聚类方法

随着数据规模的不断扩大，稀疏子空间聚类问题面临计算上的巨大挑战。现有稀疏予空间聚类算法如交替方向乘子法（ ADMM）往往基于串行实现，难以利用多核处理器提高处理大规模聚类问题的效率。针对这个

2017-12-23 11:48:44

基于双稀疏正则的图像集距离学习框架DSRID

基于双稀疏正则的图像集距离学习框架（double sparse regularizations for image set distance leaming，简称DSRID）．在该框架中，两集合间距离被建模成其对应的内部典型子结构问的距离，从而保证了度量的鲁棒性和判别性．根据不同的集合表示方

2017-12-26 19:06:52

稀疏数据中基于高斯混合模型的位置推荐框架

协同过滤和概率模型是位置推荐中的常用方法，但前者没有考虑用户的移动模式，后者也难以用于稀疏数据集。针对上述问题，面向稀疏数据构建基于高斯混合模型的位置推荐框架GMMSD。按时间段划分用户签到

2018-01-17 10:12:08

阿里云发布视觉计算平台天擎,可支持大规模、高并发的视频实时分析需求

7月4日，阿里云ET城市大脑发布大规模视觉计算平台天擎。据悉，天擎是继天曜、天鹰、天机后，ET城市大脑的第四款AI视觉产品，该产品可支持大规模、高并发的视频实时分析需求。

2018-07-09 09:43:45

3798

阿里巴巴最具商业价值的深度学习框架X-Deep Learning要开源了

对于难以与BAT研发能力比肩的众多互联网公司而言，工业级深度学习框架XDL及内置算法方案的开源，将助力各大公司的技术升级，大大提升广告/推荐/搜索场景的精准性，缩短技术迭代周期。

2018-11-29 09:29:40

3554

阿里巴巴首次公开深度学习框架——X-Deep Learning

阿里巴巴首次公开深度学习框架——X-Deep Learning，可提升广告、推荐、搜索场景效率XDL 是首个面向高维稀疏数据场景的深度学习开源框架。数据的高维稀疏性既是阿里妈妈业务场景的重要特征

2018-11-29 10:02:52

4145

阿里开源大规模分布式图学习框架：专为Graph嵌入，无缝对接TF/PyTorch

为了支持我们的业务，我们不仅面临超大规模图存储与计算的挑战，还需要处理由多种不同类型的点，边及其属性构成异构图的复杂性。我们的分布式图引擎针对海量图存储，分布式并行图计算及异构图进行了优化设计，确保了工业场景下的有效应用。

2019-01-20 08:51:23

3328

阿里妈妈技术团队对Euler的详细解读

AI 科技评论消息，继去年 11 月开源面向高维稀疏数据场景的深度优化工具 X-Deep Learning（截至发稿，GitHub Star 数已达到 1972）之后，阿里妈妈团队于今日正式开源大规模分布式图表征学习框架 Euler。

2019-01-22 14:02:39

7812

阿里开源首个移动AI项目，淘宝同款推理引擎

阿里开源首个移动AI项目，淘宝同款推理引擎，这是阿里开源的首个移动AI项目，已经用于阿里手机淘宝、手机天猫、优酷等20多个应用之中。覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、安全风控等场景。在IoT等移动设备场景下，也有若干应用。

2019-07-03 09:53:29

284

旷视科技正式宣布开源新一代核心深度学习框架旷视天元国产深度学习框架开源势在必行

3月25日下午，中国人工智能领军企业旷视科技举办线上发布会，正式宣布开源新一代AI生产力平台Brain＋＋的核心深度学习框架旷视天元（MegEngine），成为全球首个将底层框架开源的人工智能企业。

2020-03-26 11:50:06

3658

阿里云机器学习研究员对大规模机器学习实践的见解

近年来，机器学习技术的发展归因于我们有极其庞大的数据用来训练算法。当企业需要落地大规模机器学习时，往往会面临很多难题，如何解决这些问题？如何系统了解大规模机器学习落地的技巧？其适用

2020-07-31 16:22:12

648

阿里发布分布式图计算平台，将极大推动图计算进入“普惠时代”

11月9日，在第二届世界科技与发展论坛上，阿里发布全球首个一站式超大规模分布式图计算平台GraphScope，并入选中国科学技术协会“科创中国”平台。GraphScope可处理万亿规模的图数据，能在

2020-11-10 09:39:52

1846

58.3万笔/秒！阿里云扛住全球最大规模流量洪峰

11月1日0时至11月11日0点30分，2020年天猫双11全球狂欢季的实时成交额突破3723亿元，创造新消费的里程碑。而天猫双11的订单创建峰值更是达到58.3万笔/秒，阿里云又一次扛住全球最大规模流量洪峰！

2020-11-11 11:32:18

5630

阿里云宣布推出业内首个云原生企业级数据湖解决方案

Formation（DLF）、E-MapReduce（EMR）等计算引擎无缝对接，兼容丰富的开源计算引擎生态，可满足大数据系统统一存储、海量数据规模。

2020-12-21 14:07:11

2429

基于工况划分的大规模电厂机组控制数据可视化

基于工况划分的大规模电厂机组控制数据可视化

2021-06-27 15:14:55

达摩院发布开源新型联邦学习框架FederatedScope

5月5日，达摩院发布并开源新型联邦学习框架FederatedScope，该框架支持大规模、高效率的联邦学习异步训练，能兼容不同设备运行环境，且提供丰富功能模块，大幅降低了隐私保护计算技术开发与部署难度。

2022-05-05 15:22:00

1105

用于弱监督大规模点云语义分割的混合对比正则化框架

为了解决大规模点云语义分割中的巨大标记成本，我们提出了一种新的弱监督环境下的混合对比正则化（HybridCR）框架，该框架与全监督的框架相比具有竞争性。

2022-09-05 14:38:00

999

阿里巴巴算力攻坚新突破：阿里云20%新增算力将使用自研CPU

11月3日，在2022杭州云栖大会上，阿里巴巴公布了自研算力体系新进展，其自研CPU倚天710已经在数据中心大规模部署，并以云的形式服务阿里巴巴和多家互联网科技公司，成为中国首个云上大规模

2022-11-03 11:39:47

727

阿里巴巴：自研CPU倚天710已大规模应用性价比提升超30%

云数据中心大规模部署，并以云的形式服务阿里巴巴和多家互联网科技公司，算力性价比提升超30%，单位算力功耗降低60%。据了解，2021 年云栖大会，阿里平头哥发布首颗CPU芯片倚天710，该芯片针对云场景研发，同时兼顾了性能与易用性。倚天710处理器芯片采用了5纳米

2022-11-03 14:42:14

613

NVIDIA 助力 DeepRec 为 vivo 推荐业务实现高性能 GPU 推理优化

本案例中，vivo 人工智能推荐算法组自研的推荐服务平台，使用阿里巴巴开源大规模稀疏模型训练和预测引擎 DeepRec，在稀疏模型训练（稀疏功能、I/O 优化）和高性能推理框架层面，实现其搜广推各类

2023-01-18 00:55:01

548

SDMNet：大规模激光雷达点云配准的稀疏到稠密匹配网络

为了处理上述的问题，我们提出了SDMNet，一种新的由稀疏到密集的针对大规模室外点云的配准方法。稀疏到稠密匹配方案如图1(c)所示。具体而言，我们将配准问题分为两个阶段，即稀疏匹配阶段和局部稠密匹配阶段。在稀疏匹配阶段，给定要对齐的源点云和目标点云、。

2023-05-24 15:53:43

592

PCB板生锈困扰你？别烦恼了，这些Tips帮你搞定问题！

2023-09-25 10:03:59

534

已全部加载完成

搜索历史

阿里开源首个DL框架，新型XDL帮你搞定大规模稀疏数据

评论