0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

KiloGram是一种用于管理文件中的大型n-gram的新算法

倩倩 来源:互联网分析沙龙 2020-04-03 14:55 次阅读

最近,一组研究人员在KiloGram上发表了他们的论文,KiloGram是一种用于管理文件中的大型n-gram的新算法,可以改善机器学习对恶意软件的检测能力。新算法比以前的方法快60倍,并且可以处理n = 1024或更高的n-gram。n的大值具有可解释的恶意软件分析和签名生成的其他应用程序。

在KDD 2019网络安全学习和采矿研讨会上发表的论文中,来自马里兰大学和网络安全公司Endgame的研究人员描述了他们的算法,用于在大型文件数据集中查找最频繁的n-gram。以前的方法在增加n的大小时会在内存和运行时中遇到“指数成本”,而在分析具有数十万个文件的数据集时,它们的n值将小于8。相比之下,KiloGram算法能够从数百万个文件中的5TB数据中提取n-gram,而仅使用9GB的RAM,并且“运行时间不会随n的增加而增加”。这允许算法为较大的n值提取n-gram,以测试这些n-gram是否为机器学习算法提供了更好的准确性。

一个n-gram是n个项的唯一序列,并且该思想被用于许多机器学习任务中,尤其是自然语言处理(NLP)。在检测到恶意软件的情况下,n-gram是来自文件的字节序列,该文件将被分类为恶意软件或良性文件。恶意软件检测的早期工作表明,较大的n-gram(例如n = 15或20)对于训练检测系统是理想的,但是现代数据集的大小使得使用大于6的n值太昂贵。由于KiloGram算法可以处理那些较大的值,因此研究团队能够测试较大值更好的想法。

该团队使用可执行文件和Adobe PDF文档的多个数据集,训练了Elastic-Net正则化逻辑回归分类器来检测恶意软件;为了进行回归,输入特征是使用KiloGram算法提取的n元语法。与文献中的建议相反,研究人员发现“预测精度不会增加到n = 8以上”。较大的n-gram会产生精度降低的模型;但是,它们具有可解释性的优点。较小的n-gram产生“黑匣子”模型,而较大的n-gram特征集包含可能对分析人员有意义的字节序列。例如,它们可能代表代码片段或文本字符串。

研究人员认为,较大的n-gram在回归模型中使用时不那么精确,因为它们更特定于特定的恶意软件攻击。实际上,它们会导致过度拟合。但是,当在诸如Yara之类的签名模型中使用时,它们的优点是它们的假阳性率低。也就是说,尽管Yara模型可能会错误地将更多文件标记为良性文件,但如果它确实表明文件为恶意软件,则很少有错。这使得KiloGram算法可用于构建结合了机器学习模型和基于签名的模型的分层系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4620

    浏览量

    93044
  • 网络安全
    +关注

    关注

    10

    文章

    3175

    浏览量

    59909
  • 机器学习
    +关注

    关注

    66

    文章

    8424

    浏览量

    132764
收藏 人收藏

    评论

    相关推荐

    探讨移动设备的缓存文件管理

      本文发表于FAST 2022。 探讨 缓存文件管理方法。本文 通过个轻量级的基于机器学习的分类引擎来筛选和个性化管理缓存文件 ,实验
    的头像 发表于 11-28 11:50 521次阅读
    探讨移动设备<b class='flag-5'>中</b>的缓存<b class='flag-5'>文件</b><b class='flag-5'>管理</b>

    IBIS文件的Series Model简介及设计仿真实例

    Model是指一种用于描述电路串联元件(如电阻、电感、电容等)的模型。这些串联元件通常用于模拟信号路径的寄生效应,例如信号线上的电阻、
    的头像 发表于 11-25 11:29 330次阅读

    华纳云:Chord算法如何管理节点间的联系?

    Chord算法一种分布式哈希表(DHT)协议,它通过构建个环状结构来管理节点间的联系。以下是Chord算法如何
    发表于 11-08 16:03

    一种基于深度学习的二维拉曼光谱算法

    近日,天津大学精密仪器与光电子工程学院的光子芯片实验室提出了一种基于深度学习的二维拉曼光谱算法,成果以“Rapid and accurate bacteria identification
    的头像 发表于 11-07 09:08 239次阅读
    <b class='flag-5'>一种</b>基于深度学习的二维拉曼光谱<b class='flag-5'>算法</b>

    JK触发器是一种什么稳态电路

    JK触发器是一种具有两个稳态的数字逻辑电路,广泛应用于数字电路设计。 引言 在数字电路设计,触发器是一种非常重要的基本逻辑元件。触发器可
    的头像 发表于 08-22 10:39 1142次阅读

    TPM在光伏电站安全生产管理的应用

    在可再生能源日益成为全球能源战略重心的当下,大型光伏电站以其高效、清洁的特性受到广泛关注。然而,如何确保这些庞大系统安全、稳定运行,成为业界亟待解决的问题。TPM(全面生产维护)作为一种先进的管理
    的头像 发表于 07-18 10:15 373次阅读

    边缘计算网关在智能能源管理系统的应用

    随着物联网技术的飞速发展,数据生成和处理的需求呈现爆炸式增长。在大型工业园区,能源管理是确保生产效率和环境可持续性的关键因素。边缘计算网关作为一种位于物联网设备和云端之间的智能设备,
    的头像 发表于 07-09 15:52 329次阅读
    边缘计算网关在智能能源<b class='flag-5'>管理</b>系统<b class='flag-5'>中</b>的应用

    振弦采集仪在大型工程安全监测的应用探索

    振弦采集仪在大型工程安全监测的应用探索 振弦采集仪是一种用于监测结构振动和变形的设备,它通过采集振弦信号来分析结构的动态特性。在大型工程安
    的头像 发表于 06-28 14:22 225次阅读
    振弦采集仪在<b class='flag-5'>大型</b>工程安全监测<b class='flag-5'>中</b>的应用探索

    鸿蒙开发文件管理:【@ohos.fileio (文件管理)】

    该模块提供文件存储管理能力,包括文件基本管理文件目录管理
    的头像 发表于 06-12 18:12 1285次阅读
    鸿蒙开发<b class='flag-5'>文件</b><b class='flag-5'>管理</b>:【@ohos.fileio (<b class='flag-5'>文件</b><b class='flag-5'>管理</b>)】

    DSP教学实验箱_DSP算法实验_嵌入式教程:4-3 有限冲激响应滤波器(FIR)算法(CCS显示)

    限长的,其系统函数可记为: 其中,N-1为FIR的滤波器的阶数。 带有常系数的FIR滤波器是一种LTI(线性时不变)数字滤波器。冲激响应是有限的意味着在滤波器没有发反馈。长度为N
    发表于 05-16 09:30

    文速览铁威马TOS 6全新“文件管理

    TOS 6 Beta已经上线段时间了,各位铁粉用着怎么样呢?今天就和大家分享,TOS 6全新文件管理。 为了向用户提供更流畅、更便捷的文件管理
    的头像 发表于 04-16 12:11 339次阅读
    <b class='flag-5'>一</b>文速览铁威马TOS 6全新“<b class='flag-5'>文件</b><b class='flag-5'>管理</b>”

    分布式运维管理平台助力大型电商系统稳定运行的案例分析

    、引言 随着电子商务的快速发展,大型电商系统面临着前所未有的挑战。如何确保系统的稳定运行、提高用户体验、降低运维成本,成为电商企业亟待解决的问题。分布式运维管理平台作为一种新型的运维
    的头像 发表于 03-26 16:32 482次阅读

    一种用于微液滴单细胞无标记分析的液滴筛选(LSDS)方法

    基于液滴的单细胞分析是一种非常强大的工具,可用于以单细胞分辨率研究表型和基因组异质性,从而解决各种生物问题。
    的头像 发表于 03-26 11:17 579次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>用于</b>微液滴<b class='flag-5'>中</b>单细胞无标记分析的液滴筛选(LSDS)方法

    分享一种大型SOC设计功能ECO加速的解决方案

    大型SOC项目的综合非常耗时间,常常花费好几天。当需要做功能ECO时,代码的改动限定在某些子模块里,设计人员并不想重跑次完整的综合,这种方法缩短了轮ECO的时间,保证了项目进度。
    的头像 发表于 03-11 10:41 492次阅读
    分享<b class='flag-5'>一种</b><b class='flag-5'>大型</b>SOC设计<b class='flag-5'>中</b>功能ECO加速的解决方案

    浅谈工业能源管理系统在大型机场的应用

    浅谈工业能源管理系统在大型机场的应用 张颖姣 江苏安科瑞电器制造有限公司 江苏江阴 214405 摘要:近年来,随着我国机场建设脚步的加快,机场建设对能耗
    的头像 发表于 02-27 14:57 417次阅读
    浅谈工业能源<b class='flag-5'>管理</b>系统在<b class='flag-5'>大型</b>机场<b class='flag-5'>中</b>的应用