0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

支持Python和Java的BigCode开源轻量级语言模型

OSC开源社区 来源:OSC开源社区 2023-01-17 14:29 次阅读

BigCode 是一个开放的科学合作组织,致力于开发大型语言模型。

近日他们开源了一个名为 SantaCoder 的语言模型,该模型拥有 11 亿个参数,可以用于 PythonJava 和 JavaScript 这几种编程语言的代码生成和补全建议。

根据官方提供的信息,训练 SantaCoder 的基础是 The Stack(v1.1)数据集,SantaCoder 虽然规模相对较小,只有 11 亿个参数,在参数的绝对数量上低于 InCoder(67 亿)或 CodeGen-multi(27 亿),但 SantaCoder 的表现则是要远好于这些大型多语言模型。

不过也正是参数远远不及 GPT-3 等参数超过千亿级别的超大型语言模型,SantaCoder 适用的编程语言范围也比较有限,仅支持 Python、Java 和 JavaScript 三种语言。

5f7b7c24-85ec-11ed-bfe3-dac502259ad0.png

为了照顾用户隐私和保证训练质量,在训练模型之前,BigCode 注释了 400 个样本,并建立和不断完善 RegEx 规则,以便在训练前从数据集的代码中删除诸如电子邮件地址、密钥和 IP 地址等敏感信息。

为了让开发者可以放心使用 SantaCoder 生成的代码,BigCode 推出了Dataset Search搜索工具。

通过这个工具,开发者可以找出代码的来源,以便在 SantaCoder 产生的代码属于某一个项目的情况下,用户能够遵守相应的许可要求。

此外,BigCode 还推出了「Am I in The Stack?」工具,开发者可以检查自己名下的仓库是否是训练数据集的一部分,可以将自己的开源仓库从数据集中删除。

BigCode 目前已经在 Huggingface 网站中提供了 SantaCoder 演示。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • JAVA语言
    +关注

    关注

    0

    文章

    138

    浏览量

    20073
  • javascript
    +关注

    关注

    0

    文章

    516

    浏览量

    53787
  • python
    +关注

    关注

    55

    文章

    4778

    浏览量

    84439
  • GPT
    GPT
    +关注

    关注

    0

    文章

    351

    浏览量

    15308

原文标题:BigCode开源轻量级语言模型,仅支持Python、JS和Java

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    轻量级Java表达式引擎aviator的基本使用

    aviator本来是一个轻量级、高性能的基于JVM的表达式引擎。不过从5.0.0版本开始,aviator升级成为了aviatorScript,成为一个高性能、轻量级寄宿于 JVM (包括 Android 平台)之上的脚本语言
    发表于 09-13 09:42 735次阅读

    轻量级Agent平台怎么测试?

    跨平台的语言成功应用于嵌入式设备中,同时也方便了嵌入式环境下的轻量Agent(Lightweight Agent)的实现。本文在ARM嵌入式环境下测试轻量级Agent平台。
    发表于 09-27 06:26

    轻量级的ui框架如何去制作

    原创分享:自制轻量级单片机UI框架框架元素用户接口代码开源平时常看csdn,但是从来没有自己写过。正好这几天需要用单片机做一个简易的ui界面,于是自己写了一个轻量级的ui框架。发个csdn分享给大家
    发表于 07-14 07:39

    后端选择 java, 还是 python?

    限制。Java 语言在当今所有语言里面的排名是第一位。而且市面上关于 Java 的招聘岗位也非常多。但是这并不代表学习 Java 就一定好。
    发表于 09-26 14:07

    适用于Java的嵌入式脚本语言是什么

    /fakescript-java简介fakescript是一款轻量级的嵌入式脚本语言,使用Java语言编写,语法吸取自lua、golang、
    发表于 12-23 08:17

    Lite Actor:方舟Actor并发模型轻量级优化

    设备的不断增多,并发模型显得举足轻重,本期我们将为大家带来方舟编译器对传统Actor并发模型轻量级优化。 一、什么是并发模型?在操作系统中,并发是任务在不影响最终执行结果的情况下无序
    发表于 07-18 12:00

    最流行的编程语言javapython

    世界上最大的编程相关书籍出版商Packt Publishing进行的市场研究显示,JavaPython是当今最流行的编程语言Java流行程度位居第3。 该公司通过调查11000受访
    发表于 09-26 10:22 0次下载
    最流行的编程<b class='flag-5'>语言</b><b class='flag-5'>java</b>,<b class='flag-5'>python</b>

    基于YOLO改进的轻量级交通标识检测模型

    在车载边缘计算单元中,由于其硬件设备的资源受限,开发适用于车载边缘计算的轻量级、高效的交通标识检测模型变得越来越迫切。文中提出了一种基于 Tiny YOLO改进的轻量级交通标识检测模型
    发表于 04-19 15:01 12次下载
    基于YOLO改进的<b class='flag-5'>轻量级</b>交通标识检测<b class='flag-5'>模型</b>

    一款适合初学者超轻量级C语言网络库—Dyad

    Dyad 是一个基于 C 语言的异步网络库,旨在轻量级、可移植和易用。它既可用于创建小型独立服务器,也可用于为现有的项目提供网络支持
    的头像 发表于 10-10 14:33 1842次阅读
    一款适合初学者超<b class='flag-5'>轻量级</b>C<b class='flag-5'>语言</b>网络库—Dyad

    TinyDB轻量级数据库有哪些特点呢

    TinyDB 是一个纯 Python 编写的轻量级数据库,一共只有1800行代码,没有外部依赖项。
    的头像 发表于 10-28 14:07 1420次阅读

    一个纯Python编写的轻量级数据库

    TinyDB 是一个纯 Python 编写的轻量级数据库,一共只有1800行代码,没有外部依赖项。
    的头像 发表于 02-24 10:32 794次阅读

    谷歌发布轻量级开源人工智能模型Gemma

    谷歌近日宣布推出开源人工智能(AI)模型系列Gemma,旨在为开发人员和研究人员提供一个负责任的AI构建平台。这一举措标志着自2022年OpenAI的ChatGPT引领AI聊天机器人热潮后,谷歌首次发布重要的开源大型
    的头像 发表于 02-23 11:38 790次阅读

    百度智能云推出全新轻量级模型

    在近日举办的百度智能云千帆产品发布会上,三款全新的轻量级模型——ERNIE Speed、ERNIE Lite以及ERNIE Tiny,引起了业界的广泛关注。相较于传统的千亿级别参数大模型,这些
    的头像 发表于 03-22 10:28 622次阅读

    开放原子开源大赛助力轻量级语言模型应用落地

    “Intel借助开源大赛在全国的影响力,吸引更多开发者加入大语言模型及其在人工智能领域的创新应用。”负责BigDL-LLM赛题运营的Intel工作人员表示。
    的头像 发表于 09-24 10:38 485次阅读

    对比PythonJava编程语言

    PythonJava都是目前非常流行的编程语言,它们各有其独特的优势和适用场景。以下是对这两种编程语言的对比: 一、语法和易用性 Python
    的头像 发表于 11-15 09:31 197次阅读