数据是大数据产业发展的基础,具有商业价值的数据能帮助企业洞察客户、数字化运营、风险管控、精准营销、预测和决策等。具有商业价值的数据,配合商业分析,能真正帮助企业提升业务,创造出新的价值。尤其是把不同维度的数据关联在一起,交叉挖掘分析,就有可能发生“化学反应”,因共享而增值。
全球的大数据市场还不成熟,很多大数据企业拥有的数据具有片段性,难以形成完整且具有商业价值的数据。商用化的数据供给和数据需求存在较大的差距,数据普遍具有孤立性,缺乏流动性,或者因未经清洗、加工融合而无法发挥价值。并且随着数据发掘的不断深入,在各行业的应用不断推进,大数据安全的“脆弱性”逐渐凸显。
随着区块链时代到来,正发生着由技术权威垄断到去中心化的本质转变,大数据和分布式的结构二者存在密不可分的关联。
数据源层面:数据获取门槛较高,数据不完整且割裂封闭,每个数据源只能提供部分可用信息;数据误差大,缺乏多重数据源校正,精确度难以保证。
数据产品层面:产品化程度低,接口无标准且接入复杂;解决问题方式单一,效果无法衡量。
数据安全层面:欠缺合规体系,数据来源难追溯,前置授权难获知。
大数据+区块链
榕树网络去中心化的核心优势是通过契约关系形成智能合约或智能资产,区块链成为数据价值链中的一个万能账本。链上记录保证任何数据无法被非合规复制、截流、沉淀或修改,数据价值不存在被盗用及弱化,从而极大降低数据源对榕树网络的信任成本。另一个优势是突破地缘和时间限制,提高各参与方的透明性、延展性和效率,促使产生更大的数据流动性和更高的数据价值。
在此之上, 榕树网络数据为人工智能的数据供应基础设施,满足其应用开发的几乎所有数据源供给、数据服务采购以及高性能的分布式数据处理能力,为人工智能的未来提供充足的燃料。
榕树网络一方面加速工具和平台的落地,一方面持续的评估现有底层公链对大数据场景的适用性,尤其是支持和外部数据交互的智能合约。榕树网络将会在 2018 年第四季度发布底层公链评估结果并征求社区意见,来决定是否投入开发面向大数据行业的垂直公链。
数据连接平台
1 数据连接平台
数据连接平台致力于成为全球最好的大数据超级应用服务平台。平台将整合全球所有优质数据源,形成一站式数据网关接口,通过连接一切数据,构建多方安全的数据融合服务生态,以全息视角为企业提供多维数据洞察应用,专注于打造全球最优秀的一站式数据生态体系。
数据连接平台以大数据和区块链技术为驱动力,以去中心化为本质,实现全域 ID-Mapping。从数据的角度出发,为全球企业解决业务难题。
目前数据连接平台对外开放使用,逐步对接全球主流数据源,逐步开放部分数据类型包含电商数据、运营商数据、政府数据、金融数据、互联网行为数据等各种主流数据源。
2 数据源评价平台
为保证让各大数据源的接入方和应用方放心的使用源头数据,榕树网络将构建数据源评价体系,并将进入评价体系内的数据源评分结果实时上链。数据代理方或者数据的使用企业可以实时查看各类数据源的评分等级并据此选择接入的数据源,数据源也可以依据自己的评分不断的去优化完善自身的数据精准度。
2.1 标准数据源评分体系
从数据的准确率、覆盖率、时效性、数据源性能等角度构建一个评价体系,用于数据科学性客观性的评级,以市场各大标准数据源为评级案例,评级系统可覆盖各大银行数据、银联数据、运营商数据、互联网电商数据等。榕树网络会定期的对各类标准数据源进行阶段性的评分并实时上链,数据源评价体系的公开性、不可更改性,可推进数据源本身处理数据问题的严谨性和规范性,也为接入方接入优质数据源提供了科学性的可量化标准。
2.2 非标准数据源评分体系
除去数据市场上众所周知的垄断性数据源,还会有各类爬虫数据,针对这些非标准化的数据源头,榕树网络也会依据自身的数据基础建立一套针对各类非标准数据源的评分体系,并将评分结果定期上链。
数据治理平台
数据价值的准确与否在于数据本身质量的好坏。数据的清洗理一直是大数据应用的关键环节,所谓 garbage in,garbage out,只有将数据治理充分,排除噪音,才能为后续的数据挖掘建模打下坚实的基础。
1 治理规范
榕树网络在数据治理上提供了一系列规范和工具,供数据参与方和社区使用。
数据完整度规范:评估字段完整度的规范。格式化的数据由不同的字段组成,每一条数据字段是否齐全,字段不全的数据占比多少;每一条数据的每一个字段是否有值,无值的占比多少等等完整度问题,这些都由该规范进行定义。
数据类型规范:数据字段都可以归纳定义为一种类型,包括数值类型、字符串类型、日期类型、枚举类型等等,不同的类型有其不同的格式、内容要求,例如十进制的数字类型不应出现 0~9 之外的字符,日期类型都有一定的格式,枚举类型必须包括有限的内容等等,该规范对各种数据类型应满足的条件进行定义。
数据统计规范:整体数值分布的规范。例如是数值类型,则数据数值的分布区间如何,最大值最小值是多少;如果是枚举类型(例如性别),各值占比多少等等,该规范对数据整体统计上的维度进行定义。
社区开发者都可以向治理委员会提交规范,并通过开发者社区投票表决,如果规范通过,相应开发者将获得 BBN 激励。
2 治理工具
数据抽样工具:当数据达到一定的量后,无法全部逐条进行评估,数据抽样工具会根据实际场景需求,按照随机抽取、特征值抽取、区间抽取等等条件提取评估样本。
数据评估工具套件:针对数据规范,发布相应的评估工具,包括单机版、大数据平台版等等。同时根据规范制定的开发协议,社区开发者可以开发提交自己的评估工具(包括多语言、多平台版本)。
3 治理平台
榕树网络通过社区达成共识的数据治理规范,来发布和运营数据治理众包平台。数据方可以将待处理的数据包发布到平台上,通过众包的形式发布任务,由社区参与治理。
场景一:数据清洗。数据初步格式化后,有些字段在商业场景应用时,无法直接使用,需要进一步清理。当计算机无法通过模型算法来完成时,就需要人工的介入。这种情况下可以发布到众包平台上,社区参与者可以根据要求进行清洗。
场景二:数据标注。数据建模机器学习过程需要各种各样的样本数据,样本可以发布到众包平台上,平台会根据内置的算法自动预处理样本,减少人工的工作量,同时根据人工标注的结果再进一步优化预处理算法。
数据源方支付 BBN 给众包治理参与者。平台会将数据治理的结果保存到区块链上,保证各方利益。
目前平台一期在测试使用阶段,其中一个场景就是电商客户的客服系统文字分词标注。
如下图所示:图 3.2 为初始文本输入到标注平台中,图 3.3 是平台利用自然语义分词算法进行分词,但是该分词只是纯粹的算法预处理,可能不适应业务场景,所以需要图 3.4 的人工标注,例如 “打电话时无法听到对方声音”拼成一句话,得到一个商品问题的维度。
4 区块链使用
数据治理平台的各种数据,例如数据评估结果、数据标注结果等都会保存到区块链上。由于目前公链的性能限制,不会把结果数据直接保存到公链上,而是将数据保存到 IPFS 上,通过 Merkle Tree结构将节点 hash 保存到公链上。
数据融合平台
榕树联盟链是基于榕树网络底层区块链架构技术,面向数据融合场景,匹配多方协作需求,涵盖架构、工具、治理、运维等的一体化解决方案。其构建目标在于:
(1)更快地驱动可信数据网络构建
榕树联盟链通过部署在跨主体的区块链节点和桥接,支持分层存储、防篡改、保护隐私、智能合约等,有机会以技术手段更快解决跨主体信任问题。
(2)更大程度地鼓励数据共享
榕树联盟链各节点地位平等、共同维护,立足维护数据参与规则与激励机制,使各节点实体更主动参与贡献和维护数据,为数据溯源和渠道验证提供可能。
(3)更深层次地推动模式创新
榕树联盟链各上链数据本身具备多个数据主体相互校验的特质,基于智能合约等自动模式的商业交易可以大幅减少数据核实的环节和降低成本,降低交易风险且更具确定性,从而深层次推动高价值数据供应链的协同和互通。
榕树联盟链相对公链更灵活高效,主要面向具有重叠性、互补型 ID 体系的高价值 B 端数据伙伴实体,更易于标准化、模块化、小范围、轻量级的场景落地。
榕树联盟链基于标准数据服务、面向融合数据产品,将让数据行业长期以来的传统中心化和人为介入方式变革更具操作性,同时也进一步验证榕树底层公链与联盟链结合架构的方案优势。
1.榕树联盟链特征
榕树联盟链不同于榕树网络公链,具有部分去中心化、可控性强、交互速度快等特征。
(1)架构上,支持横向伸缩、动态扩容、冷热数据分离、多层摘要存储等;
(2)功能上,支持用户实名认证、数据治理、事件驱动协作模型等;
(3)安全上,支持可插拔密码算法,默认多套并扩展 xID 设备等;
(4)合约上,支持可复用智能合约、多语言合约调试等;
(5)合规上,支持账户认证、节点监管、数据备案等。
榕树联盟链为成员共有,各节点分布在各成员中,易达成共识,有利于区块链的高效运行和更新迭代;核心数据限于成员及其用户按权限设置可见,可以满足特定场景的隐私性需求。
2 榕树联盟链构成
榕树联盟链由加入榕树网络的各参与者节点构成,每个参与方都运行着一个或多个节点,共识过程受各个参与节点控制协同完成。
榕树联盟链基于 Hyperledger-Fabric 开发,软件上包括区块链协议、组件模型、服务界面等,硬件上包括区块链节点、客户端、分布式存储器、基础网络等。
(1)区块链节点(Peer):基于安全性、公平性,每个参与成员都需要提供机器节点加入到榕树联盟链网络。加入榕树联盟链的成员至少提供一个 Peer,认证后的 Peer 可与其他成员 Peer 互联,从而同步区块链账本信息。
(2)客户端(Client):与 Peer 进行交互,进而与区块链交互。Client 与 Peer 最好分别部署在不同机器上,一台机器也可一并部署和 Peer 和 Client。
(3)星际文件系统(IPFS):作为引入的存储提升方案,存储数据摘要信息,只将数据摘要信息的 IPFS 地址入链。IPFS 节点伴随 Client 存在,每个 Client 搭配至少一个 IPFS 节点,一个 IPFS节点与 Client 也可部署在相同机器上。
榕树联盟链 Peer 和 Client 对机器的配置公开,满足符合标准的通用操作系统、硬件配置、Docker、域名、端口开放要求。网络部署包括生成私钥并申请证书、部署 Peer 节点、部署 IPFS,便于榕树网络架构的节点加入等顺延要求。
3 数据融合机制
作为数据融合层面的“部分去中心化”价值工具,榕树联盟链只对联盟成员开放而且有严格的认证机制。榕树网络联盟链开放 IDMapping核心技术,作为成员间数据交互纽带,实现数据融合。
ID-Mapping 基本过程可简述为 A、B 两方需要进行数据匹配,则依托共有 ID 体系进行 ID-Mapping 互操作。双方首先将拟匹配的数据上传到各自客户端,发起方通过数据脱敏算法计算形成数据摘要存储于发起方 IPFS,依托 IPFS 的去中心化共享,接收方也同步获取数据脱敏算法信息,双方依次进行数据脱敏算法计算后进行匹配,直至匹配数据一致则获得共有 ID 结果,从而实现双方数据融合。
4 通证流转与价值共建
统一的通证体系是确保榕树联盟链高效运行的重要载体,榕树网络通证 BBN 将在联盟链多方协作环节中发挥重要作用。这些使用场景包括但不限于:
(1)联盟链成员注册、加入的初始信用抵押物;
(2)主动数据投放、发起及响应数据匹配等良好行为激励;
(3)联盟链融合数据价值结算后的奖励分配;
(4)联盟链节点记账的资源消耗补贴;
(5)联盟链重大决策事项的投票凭证。
榕树联盟链构建初期,榕树网络将无偿注入一定数量的 BBN 通证,作为联盟链冷启动运行的基础推进燃料,封装成一个个冷启动通证包并定向或随机发放,主要用于奖励新加入联盟链的成员、协调方及有助于联盟链运行的良好行为。
5 价值融合的发展路线
榕树网络采用公链和联盟链双轮架构,推动价值大数据的高效、可信流动。榕树联盟链层次上定位为标准化、规范化数据的价值协作平台,功能上侧重于解决数据融合痛点,非常契合当下业内大量B 端参与者的协作转型愿景。
榕树联盟链的核心价值在于为数据行业 B 端实体对等共建数据融合体系提供技术支撑和方案支持。在去中心化公链、弱中心化联盟链架构下,榕树联盟链需要联合更多组织、协同更多盟友等 B 端实体突破难点。其构建分为三个阶段:
(1)推广期,将面向行业现有联盟组织及伙伴提供试点服务;
(2)发展期,将依托联盟链进行合格参与者横向扩展和技术演进;
(3)成熟期,将依托联盟链,遵循模式开放、实体扩充原则,成长为全球最大的融合数据联盟网络。
数据安全伙伴联盟(DSPA)是业内致力于多方安全的专业化伙伴间组织。依托与 DSPA 多家成员的紧密技术合作关系,榕树网络将首批依托 DSPA 建立应用试点,榕树联盟链的首个通用框架及首批应用工具也将重点响应 DSPA 的安全合规需求,进行通用功能和专属功能并行开发,为其逐步扩展提供验证。
数据服务应用市场
1 产品服务类型
1.1 查询类
榕树网络标准查询系统,涵盖运营商、电商、银行、社保、公积金、法院、学历学籍、央行征信等各大领域数据,数据全面、稳定输出,分布式平台架构。
1.2 验证类
榕树网络标准验证系统,覆盖多维度验证,可以实现身份证实名验证、运营商维度手机号实名验证、银行卡维度四要素交叉验证、地址位置验证、企业工商验证等,数据更新及时,验证精准。
1.3 标签类
多维度标签的融合可以帮助建立完善的人群画像、商户画像、以及商圈画像等,有效帮助客户去洞察其所需要的场景画像。例如:现在常见的机构三方核查手段有限,且自身数据积累较慢,对于上市互联网金融公司来说识别较难,借助榕树服务应用市场的全方位画像标签,可在第一时间识别欺诈分子。
1.4 评分类
榕树网络基础评分系统,具有标准、指标体系、算法、发布机制等,针对数据产品和服务提供公开评分服务。例如,在市场趋势下,榕树网络打造细分行业的权益分产品线,可运用在具体行业的商业拓展权益类活动、有客群分层筛选需求的消费金融场景等、并涵盖金融服务的定向营销功能。
1.5 行为圈定
基于轻部署,小投入,大回报的原则,对特定的场景进行圈选,线下实时全流程捕捉,再加上个体识别,如果知道目标潜客在哪、喜欢什么,甚至精准到品类和品牌偏好,将所有这些数据应用到营销中,会得到高效费比的营销结果。
1.6 地址围栏
线下实时采集数据,例如:SDK 数据,运营商基站数据、线下消费交易数据、互联网数据等,基于榕树网络赋能,全域 IDMapping,对各类地理位置数据和人群标签进行融合打通,不仅有兴趣偏好,也包括收入结构、年龄层次、品牌标签等。识别每个移动端背后用户的全网行为,实时还原数据背后的真实用户画像。
1.7 行为监测
线下实时全流程捕捉,覆盖全网真实活跃用户,基于位置+人群标签圈选用户,实时更新人群画像,秒级还原真实线下场景。
1.8 感知触达
基于实时数据的基础之上,通过一定的监控数据规则做场景触发。秒级一键触达,数据一体化闭环。再营销再沉淀,精细运营。
2 区块链创新技术应用
2.1 创新型授权模式
依据 GDPR 的安全合规性要求,榕树网络推出互信通产品,确保每一笔数据的调用都是有经过用户授权的,按照数据源接口的隐私层级,提供不同安全层级的授权策略和服务,授权文件哈希加密实时写入链上,供客户查验。可以有效防止转接行为的产生,防止签约备案外客户调用。
2.2 公开透明型计费模式
榕树网络计费体系,确保每一笔数据调用产生的计费都是公开
可追溯且不可篡改的,客户可以明确看到每一笔数据的调用后台连接的数据源以及数据源收取费用的策略,计费可追溯,防止在通过数据代理商调用数据之后,双方产生计费冲突。
2.3 DAPP 闭环价值数据上链
将大数据技术和区块链技术进行深度融合,支持数据应用生命周期管理。整个数据生命周期中的所有数据行为都通过调用 API 与榕树网络进行交互,通过智能合约将有价值的日志等数据写入区块链中记录保存。
2.4 请求参数的上链监控
数据请求交互的过程中,非必填请求参数中不做验证输出时,参数错误极高。在请求的同时将参数以及使用方实时上链,约束请求方的参数质量以及后期的客户质量评价。
通证经济及治理结构
1 BBN 定义
美国证券交易委员会和瑞士 FINMA 将通证分成三大类:证券型通证(Security Token)、实用型通证(Utility Token)、资产型通证(Equity Token)。其中证券型通证的销售和投资受到证券交易委员会证券条例的约束。美国证券交易委员会制定了相关准则来判定此类金融操作是否合规,并受证券法规的约束。
BBN 在通证分类中属于实用型通证(Utility Token),其核心功能是作为生态系统中各参与方之间进行价值流通的介质,同时还代表着参与榕树生态治理的权利。
榕树生态建成之后,BBN 被用于生态内数据产品和服务的支付,作为实用型通证,BBN 内在价值的最大组成部分是其流通价值,但在整个榕树网络中,BBN 还代表着参与榕树生态治理的权利等,为 BBN的价格带来更多元的支撑。
2 BBN 的价值
1)生态内数据产品和服务的支付(如第五章所列各类服务和应用,需求方均需支付 BBN 来向提供方进行购买);
2)数据治理委员会投票权;
3)联盟链创建、加入费用,以及用作内部激励;
4)众包平台的发起抵押和支付;
5)第三方 Dapp 内的激励或流通。
3 BBN 的经济循环模型
BBN 的释放是指 BBN 由榕树网络基金会账户发放到投资人以及参与者的账户中,其形式包括早期的私募、空投,以及生态建立后的数据上链奖励、工具接入奖励等;
BBN 的流通是指数据拥有方、数据服务方、数据应用方、大数据计算资源提供方等各个榕树网络的参与者,用 BBN 来作为服务、产品、资源等价值流通的媒介,在相互的账户中流转;BBN 的回收是指榕树网络治理委员会通过制定相应治理及调控规则,以回购、押金惩罚、榕树系统及底层工具使用费的形式回收BBN,由参与者账户到榕树基金会账户。
4 榕树网络治理体系
榕树网络基金会:拥有提名治理委员会候选人的权利,需要接受治理委员会的监督,以及按照治理委员会提出且通过 BBN 持有者投票的提案来运行规则。
治理委员会:候选人由榕树网络基金会提名或参与者自主报名,由BBN持有者投票从中产生治理委员会成员,负责向社区发布对规则提案的投票。治理委员会由大数据行业专家、榕树网络社区代表、榕树网络基金会代表按照一定比例构成。
BBN 持有者:BBN 持有者在投票期内锁定一定数量的 BBN,对治理委员会候选人进行投票,并有权利对治理委员会的规则提案进行投票,按照锁定数额计算权重。
总结
随着榕树生态的逐步建立和展开,榕树网络诚邀更多大数据产业相关方以及区块链从业者加入到榕树网络的共建和共治中,一同打造未来分布式数据经济体系。
评论
查看更多