近日,上海人工智能实验室发布联合语言资料数据联盟会员单位,共同发布“生万权”1.0多模式词典训练语言资料开源。
“书生·万卷”1.0将集中语言资料数据联盟会员们丰富的内容积累和上海人工智能实验室的数据处理能力等优势,为学术界及产业界提供高品质的大规模模型多模态事前训练语言资料。开放源代码提供2tb以上的数据,多种融合,精细处理,价值排序,使用方便高效。
此次开放源代码“书生·万卷”1.0包含文本、图片、文本和视频三部分数据集。其中,文本数据来自网页,百科全书,书籍,专利,教材,考试题等,数据总量超过5亿个,数据大小也超过1tb,涵盖科技,文学,媒体,教育,法律等多个领域。
图像和文字数据主要来自公开网页,经过处理形成图像和文字交叉的文件。总数字超过2200万个,数据大小超过140gb,涵盖新闻事件、人物、自然景观、社会生活等多个领域。
视频数据主要是中国中央电视台(cctv)和上海文广集团提供,新闻、电影、电视等多种类型的节目,包括视频,视频文件总数超过1000个,数据大小超过900gb,内容是军事、文艺、体育、自然、知识、影像艺术等领域覆盖着。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
人工智能
+关注
关注
1820文章
50344浏览量
266985 -
源代码
+关注
关注
96文章
2953浏览量
70650 -
模型
+关注
关注
1文章
3826浏览量
52276
发布评论请先 登录
相关推荐
热点推荐
奇异摩尔深度参编的超节点技术体系白皮书正式发布
2026年3月29日,由上海人工智能实验室发起并主办的第二届浦江AI学术年会,在上海东方枢纽国际商务合作区隆重开幕。浦江学术年会期间,上海人工智能实
壁仞科技与上海人工智能实验室合作推出全新DeepLink混推方案
近日,上海人工智能实验室推出DeepLink多元算力混合推理加速方案(以下简称“DeepLink混推方案”),首次实现对壁仞科技等四家国产算力厂商多款芯片的混合调度与协同推理。
壁仞科技与阶跃星辰及上海仪电智算服务成立人工智能联合实验室
2月2日,壁仞科技(06082.HK)与上海仪电旗下智算服务、阶跃星辰携手打造的人工智能联合实验室正式揭牌。人工智能联合实验室积极响应国家“
华为联合崖州湾国家实验室发布农业育种智能基座
11月11日,在2025年植物表型组学国际研讨会上,崖州湾国家实验室与华为共同发布面向农业育种领域的智能基座——“繁|未来农业智能枢纽”。通过构建多
强强联合:之江实验室与沐曦股份共建智算集群联合实验室
2025年10月22日, 之江实验室与沐曦集成电路(上海)股份有限公司(以下简称“沐曦股份”)正式签署合作协议,共同组建“智算集群联合实验室”,携手推进人工智能算力基础设施创新发展 。
AI看点:OpenAI启动员工百亿美元售股 上海人工智能实验室开源新模型 济南大数据局与华为签署合作协议
)。 上海人工智能实验室开源新模型 日前,上海人工智能实验室开源通用多模态大模型书生·万象3.5
挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器
和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。
三、多模态实验,解锁AI全流程
它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能
发表于 08-07 14:30
挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!
和生态体系带到使用者身边 ,让我们在技术学习和使用上不再受制于人。
三、多模态实验,解锁AI全流程
它嵌入了2D视觉、深度视觉、机械手臂、语音识别、嵌入式传感器等多种类AI模块,涵盖人工智能
发表于 08-07 14:23
上海贝岭跻身国家认可实验室行列
近日,上海贝岭股份有限公司检测中心可靠性实验室正式通过中国合格评定国家认可委员会(CNAS)的严格评审,获得CNAS认可实验室资质证书(注册号:CNAS L23589)。这标志着上海贝
华清远见AI人工智能专业实验室建设方案,虚实融合,以产业应用驱动高校教学实训变革!
在人工智能技术迭代提速的当下,高校教学正面临着技术落地与人才培养的双重挑战。作为高校教师,我们常常会遇到这样的困境:课本知识跟不上技术发展速度,实验室硬件难以支撑复杂项目实训,产教融合缺乏实际落地
华清远见AI人工智能专业实验室建设方案,以产业应用驱动高校教学实训变革!
在人工智能技术迭代提速的当下,高校教学正面临着技术落地与人才培养的双重挑战。作为高校教师,我们常常会遇到这样的困境:课本知识跟不上技术发展速度,实验室硬件难以支撑复杂项目实训,产教融合缺乏实际落地
浦公山实验室正式启动!
6月21日浦公山实验室在软件园三期正式启动浦公山实验室面向我国信创技术及产业生态,由集美区人工智能产业联盟主要成员单位共同组建,旨在打造覆盖通用计算与数据安全的自主可控人工智能产业软硬
上海人工智能实验室发布多模态语料
评论