0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

上海人工智能实验室发布多模态语料

微云疏影 来源:综合整理 作者:综合整理 2023-08-17 10:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,上海人工智能实验室发布联合语言资料数据联盟会员单位,共同发布“生万权”1.0多模式词典训练语言资料开源。

“书生·万卷”1.0将集中语言资料数据联盟会员们丰富的内容积累和上海人工智能实验室的数据处理能力等优势,为学术界及产业界提供高品质的大规模模型多模态事前训练语言资料。开放源代码提供2tb以上的数据,多种融合,精细处理,价值排序,使用方便高效。

此次开放源代码“书生·万卷”1.0包含文本、图片、文本和视频三部分数据集。其中,文本数据来自网页,百科全书,书籍,专利,教材,考试题等,数据总量超过5亿个,数据大小也超过1tb,涵盖科技,文学,媒体,教育,法律等多个领域。

图像和文字数据主要来自公开网页,经过处理形成图像和文字交叉的文件。总数字超过2200万个,数据大小超过140gb,涵盖新闻事件、人物、自然景观、社会生活等多个领域。

视频数据主要是中国中央电视台(cctv)和上海文广集团提供,新闻、电影、电视等多种类型的节目,包括视频,视频文件总数超过1000个,数据大小超过900gb,内容是军事、文艺、体育、自然、知识、影像艺术等领域覆盖着。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50344

    浏览量

    266985
  • 源代码
    +关注

    关注

    96

    文章

    2953

    浏览量

    70650
  • 模型
    +关注

    关注

    1

    文章

    3826

    浏览量

    52276
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    沐曦股份联合上海人工智能实验室发布高性能GPU算子生成系统Kernel-Smith

    近日,上海人工智能实验室和沐曦股份联合发布了高性能GPU算子生成系统—— Kernel-Smith。
    的头像 发表于 04-08 15:39 327次阅读
    沐曦股份联合<b class='flag-5'>上海人工智能</b><b class='flag-5'>实验室</b><b class='flag-5'>发布</b>高性能GPU算子生成系统Kernel-Smith

    奇异摩尔深度参编的超节点技术体系白皮书正式发布

    2026年3月29日,由上海人工智能实验室发起并主办的第二届浦江AI学术年会,在上海东方枢纽国际商务合作区隆重开幕。浦江学术年会期间,上海人工智能
    的头像 发表于 04-01 13:53 540次阅读

    壁仞科技与上海人工智能实验室合作推出全新DeepLink混推方案

    近日,上海人工智能实验室推出DeepLink多元算力混合推理加速方案(以下简称“DeepLink混推方案”),首次实现对壁仞科技等四家国产算力厂商多款芯片的混合调度与协同推理。
    的头像 发表于 03-10 16:38 1275次阅读
    壁仞科技与<b class='flag-5'>上海人工智能</b><b class='flag-5'>实验室</b>合作推出全新DeepLink混推方案

    壁仞科技与阶跃星辰及上海仪电智算服务成立人工智能联合实验室

    2月2日,壁仞科技(06082.HK)与上海仪电旗下智算服务、阶跃星辰携手打造的人工智能联合实验室正式揭牌。人工智能联合实验室积极响应国家“
    的头像 发表于 02-04 10:14 450次阅读

    华为联合崖州湾国家实验室发布农业育种智能基座

    11月11日,在2025年植物表型组学国际研讨会上,崖州湾国家实验室与华为共同发布面向农业育种领域的智能基座——“繁|未来农业智能枢纽”。通过构建
    的头像 发表于 11-14 16:43 1528次阅读

    强强联合:之江实验室与沐曦股份共建智算集群联合实验室

    2025年10月22日, 之江实验室与沐曦集成电路(上海)股份有限公司(以下简称“沐曦股份”)正式签署合作协议,共同组建“智算集群联合实验室”,携手推进人工智能算力基础设施创新发展 。
    的头像 发表于 10-23 10:50 1561次阅读

    新一代超大模型训练引擎XTuner V1开源

    9月8日,上海人工智能实验室(上海AI实验室)开源书生大模型新一代训练引擎XTuner V1。
    的头像 发表于 09-10 10:55 1343次阅读

    AI看点:OpenAI启动员工百亿美元售股 上海人工智能实验室开源新模型 济南大数据局与华为签署合作协议

    )。 上海人工智能实验室开源新模型 日前,上海人工智能实验室开源通用模态大模型书生·万象3.5
    的头像 发表于 09-04 17:29 1644次阅读

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。 三、模态实验,解锁AI全流程 它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能
    发表于 08-07 14:23

    上海贝岭跻身国家认可实验室行列

    近日,上海贝岭股份有限公司检测中心可靠性实验室正式通过中国合格评定国家认可委员会(CNAS)的严格评审,获得CNAS认可实验室资质证书(注册号:CNAS L23589)。这标志着上海
    的头像 发表于 08-01 09:51 1607次阅读

    华清远见AI人工智能专业实验室建设方案,虚实融合,以产业应用驱动高校教学实训变革!

    人工智能技术迭代提速的当下,高校教学正面临着技术落地与人才培养的双重挑战。作为高校教师,我们常常会遇到这样的困境:课本知识跟不上技术发展速度,实验室硬件难以支撑复杂项目实训,产教融合缺乏实际落地
    的头像 发表于 07-31 15:14 2242次阅读
    华清远见AI<b class='flag-5'>人工智能</b>专业<b class='flag-5'>实验室</b>建设方案,虚实融合,以产业应用驱动高校教学实训变革!

    具身智能机器人在检验检测实验室应用的技术路径探讨

    具身智能机器人在检验检测实验室的应用需突破模态感知、灵巧操作、认知决策等核心技术,并通过仿真训练、大模型微调等路径实现落地。一、核心技术瓶颈1.
    的头像 发表于 07-28 17:32 1378次阅读
    具身<b class='flag-5'>智能</b>机器人在检验检测<b class='flag-5'>实验室</b>应用的技术路径探讨

    华清远见AI人工智能专业实验室建设方案,以产业应用驱动高校教学实训变革!

    人工智能技术迭代提速的当下,高校教学正面临着技术落地与人才培养的双重挑战。作为高校教师,我们常常会遇到这样的困境:课本知识跟不上技术发展速度,实验室硬件难以支撑复杂项目实训,产教融合缺乏实际落地
    的头像 发表于 06-27 13:45 1916次阅读
    华清远见AI<b class='flag-5'>人工智能</b>专业<b class='flag-5'>实验室</b>建设方案,以产业应用驱动高校教学实训变革!

    浦公山实验室正式启动!

    6月21日浦公山实验室在软件园三期正式启动浦公山实验室面向我国信创技术及产业生态,由集美区人工智能产业联盟主要成员单位共同组建,旨在打造覆盖通用计算与数据安全的自主可控人工智能产业软硬
    的头像 发表于 06-24 10:11 1131次阅读
    浦公山<b class='flag-5'>实验室</b>正式启动!