**
作者:王娟**
作者简介:硕士,毕业于华中科技大学电信学院。现就职于公安部第三研究所,从事网络安全研究工作。共发表五篇推标国际专利,两篇国内专利,三篇论文,两篇软著。
** 摘要 **
本文提出一种基于鸿鹄数据平台(炎凰数据推出的免费社区版一站式异构数据分析平台,以下简称鸿鹄)的网络安全态势感知系统,系统借助鸿鹄读时建模、时序处理、数据搜索等高效灵活的超大数据存储和分析处理能力,支持海量大数据存储、分类、统计到数据分析、关联、预测、判断的网络安全态势感知能力需求。以安全大数据为基础,从全局角度提升对安全威胁的发现识别、理解分析、响应处置能力,最终实现网络安全态势感知能力的落地。
**关键词:**网络安全态势感知 鸿鹄 读时建模 关联分析
1. 引言
Anderson 在1980年发表的论文中首次提出基于日志进行安全审计的思想,此后,经过不断的发展已经形成了相对完善的理论,各大安全厂商也研发了可用的安全系统。但随着高速网络的快速普及和大数据技术的普遍应用,各类流量监测系统、IDS、防火墙、终端监控系统等网络监控和防护设备,在运行过程中产生了大量有用的数据,如包数据、会话数据、日志、告警等,应用平台日志数量也呈现爆炸性的增长趋势,这些数据一定程度上反应了网络安全状态。但由于不同的系统设备间缺乏协作,产生的数据格式以及详略程度也存在差别,因此无法对数据进行有效的融合分析,难以实现从整体和全局角度识别、分析入侵者的攻击行为,难以对网络整体安全态势全面、准确、细粒度的展现。基于此,网络安全态势感知技术应运而生,成为下一代安全技术的焦点。
网络安全态势感知是对网络安全性定量分析的一种手段,是对网络安全性的精细度量,利用网络安全态势感知技术可以全面呈现当前网络的整体安全状态,预测其发展趋势并做出有效响应,是实现主动防御的基础和前提。网络安全态势感知系统依赖于防火墙、入侵检测系统、反病毒系统、日志文件系统、恶意软件检测程序等网络安全基础设施,收集态势数据,利用数据处理模型对数据进行融合,形成安全特征信息,并对特征信息关联分析。
从国内外研究现状分析,当前基于网络流量、云平台关键设施和应用系统日志的网络安全态势感知技术仍然存在很多问题。一是数据来源和处理思路单一,现有的网络安全威胁防控产品都是针对单一的数据源,集中在网络和应用入口检测数据源,虽然针对性强、容易实现、单一防控效果好,但是缺少从整体上对多源数据进行分析,对安全性事件的综合处置和关联分析仍存在一定难度。二是时效性问题,各类流量采集设备报送的内容和结构存在差异,各类监测系统和应用报送的日志结构和粒度也不相同,需要预定义数据模型和数据清洗再进行存储分析,如果后续需要增加一个原始数据字段来辅助分析,则需要调整数据模型并对原始数据再存储,造成存储冗余浪费的同时,降低了系统时效性;此外,针对问题数据,无法快速从原始数据中定位、解决问题,时间成本高。三是建设成本高,一套完整的网络安全态势感知系统通常需要在各个流量、业务入口位置部署安全设备,综合建设成本高。
针对上述问题,本文基于新一代异构大数据即时分析平台—— 鸿鹄,研究网络安全态势感知技术,构建面向网络信息系统的网络安全态势感知系统,实现异构异处安全数据高效关联分析、安全威胁实时识别定位以及异常行为审计与分析。
**2. **网络安全态势感知体系框架
2.1 网络安全态势感知体系
网络安全态势感知本质上是获取并理解大量网络安全数据,判断当前整体安全状态并预测短期未来趋势。其可分为三个阶段:态势提取、态势理解和态势预测,概念示意图(如图1)是一个迭代循环的的过程。基于大规模网络环境中的安全要素和特征,采用数据分析、挖掘和智能推演等方法,准确理解和量化当前网络空间的安全态势,有效检测网络空间中的各种攻击事件,预测未来网络空间安全态势的发展趋势,并对引起态势变化的安全要素进行溯源。
图1 网络安全态势感知概念示意图
2.1.1 态势提取
态势提取阶段主要对网络安全数据进行采集与融合,具体过程和方法如下:
- 定义安全要素和安全特征
从资产维度、漏洞维度以及威胁维度三个维度对网络安全数据数据进行靶向提取。
- 数据采集
针对不同维度数据采取不同的数据采集方法,资产维度数据可以采用 WMI、SNMP、中央管理器、端口扫描等方式采集;漏洞维度数据通过开源的漏洞数据库获取漏洞数据,通过开放的漏洞数据库获取已发现的漏洞;威胁维度数据包括终端数据和流量数据,终端数据采用 Flume、Syslog 等方式采集,流量数据采用 Wireshark、Sniffer、Libpcap 库等抓取数据包。
- 数据预处理和融合
对多个信息源数据标准化处理,并进行关联、组合、融合,为态势评估提供决策信息。其中数据预处理包括数据清洗、数据集成、数据规约、数据变换。
**· **数据清洗:解决数据错误问题,包括对海量不规整数据如噪声数据、不一致数据、遗漏数据进行用户分布式处理、杂质过滤、数据清洗等。噪声数据可以采用均值替代、回归替代、聚类等方式处理;不一致数据需要通过数据集成方式处理;遗漏数据通过人工填充、相似样本填充等方式处理。
****· ****数据集成:解决数据冗余问题,集成从实体方面、数据格式方面以及数据自身的集成方面进行。实体方面常用方法包括同义词词典、基于知识图谱的实体对齐等;并将数据格式按照统一后的属性进行合并;数据自身的集成采用平均法、投票法、权重法来处理。
****· ****数据规约:精简数据,包括样本规约、特征规约、维度规约。样本规约的方法来自统计学,需尽可能保持原始数据集特征。特征规约即找出最小特征集。维度规约目的是减少分析的随机变量或属性个数,包括小波变换、主成分分析等方法。
****· ****数据变换:将数据变换为利于分析的表示形式,例如通过聚类将数据划分为不同类别,提供更高层的数据属性。常见方法包括分箱、直方图分析、聚类、决策树和相关分析等方法。
**· **数据融合:有效融合多源数据,利用冗余性和互补性生成网络态势信息。方法包括经典方法和现代方法。经典方法基于模型和概率,包括加权平均法、贝叶斯推理、D-S证据理论等,现代方法主要包括逻辑推理和机器学习的人工智能方法,如聚类分析法、粗糙集、人工神经网络、进化算法等。
2.1.2 态势理解
对网络安全态势的理解是在网络安全检测与分析的基础上,通过构建网络安全态势指标对网络安全态势进行评估,从而获取宏观的网络安全态势。具体过程和方法如下:
- 网络安全检测与分析
建立网络安全态势感知的认知模型,利用认知模型对网络事件进行深度检测,对网络攻击进行全面实时准确的发现、评估以及评测。MDATA 模型(多维数据关联与威胁分析模型)是一种有效的认知模型,解决了数据分布广、网络安全知识因具有时空特性难以表示的问题,主要包括关联表示、关联构造、关联计算三部分。利用 MDATA 模型生成的各类知识库十分庞大,可以利用雾云计算架构实现面向网络安全态势感知认知模型的管理和协同计算。
- 构建网络安全态势指标
建立网络安全态势感知指标体系,定义网络安全态势感知本体模型,通过显式的、形式化的、可机读的语义模型,高效计算理解多源异构的安全数据,对已知网络安全事件进行有效关联,并推理导出新的攻击事件。
- 网络安全态势评估
数据融合是网络安全态势感知的基础,也是网络安全态势评估的核心。在融合各类安全数据的基础上,借助数学模型,经过形式化推理计算得到当前网络安全态势的评估值,分为定性和定量评估。量化评估方法包括基于数学模型的量化评估方法、基于知识推理的量化评估方法以及基于机器学习的量化评估方法。基于数学模型的量化评估方法综合考虑引起网络态势变化的要素,基于数学模型构建评估函数,实现态势要素到网络安全量化评估值之间的映射,最常用的是权重分析法和集对分析法。基于知识推理的量化评估方法通过整理专家知识建立数据库和概率评估模型,借助概率论、模糊理论等描述和处理安全属性的不确定性信息,通过推理控制策略分析网络安全态势。基于机器学习的量化评估方法通过模式识别、关联分析、深度学习等建立网络安全态势模板,经过模板匹配及映射,对态势性质、程度进行分类分级。
- 网络安全态势可视化
网络安全态势可视化包括网络安全数据流的可视化、网络安全态势评估的可视化、网络攻击行为分析的可视化。可以基于电子地图展示网络安全态势评估指数。当前的可视化工具仍面临着实时展示的挑战,不能适应复杂攻击的各种复杂情况,不能对复杂数据关联分析。
2.1.3 态势预测
态势预测在获取、变换及处理历史和当前态势数据的基础上,建立数学模型探索数据之间的发展变化规律,并对未来发展趋势进行推理。传统的网络安全事件时间预测技术包括灰色理论预测、时间序列预测、回归分析预测、基于小波分解表示的预测。基于知识推理的网络安全事件预测技术包括基于攻击图的预测、基于攻击者能力与意图的预测以及基于攻击行为、模式学习的预测。由于网络攻击的随机性和不确定性,目前有很多学者研究基于人工智能态势预测方法,利用神经网络、深度学习等算法动态学习和创建攻击策略与行为模型,实现对网络安全事件的准确推测。
2.1.4 网络攻击溯源
网络攻击溯源还原攻击路径,确定攻击者未知或身份,找出攻击原因。传统的攻击溯源技术包括基于日志存储查询的溯源技术、基于路由器技术调试的溯源、基于修改网络传输数据的溯源技术等。针对痕迹维度、位置维度、策略维度的数据来源分散,大多是半结构化甚至是非结构化数据,所以研究和优化网络安全知识库,存储非结构化和半结构化原始数据,即时快速定位原始数据尤为重要。
2.2 网络安全态势感知系统框架
本文基于网络流量、大数据基础设施平台和应用系统日志,利用安全风险识别与感知、安全事件回溯分析和重点威胁监测与预警技术构建一个网络安全态势感知系统,并以此为例,对网络安全态势感知系统的常见架构进行介绍。系统架构(如图2),分为数据接入处理层、数据分析层以及态势感知应用层。系统接入数据主要包括流量探针数据、平台和各类应用报送的日志。
图2 网络安全态势感知系统架构
数据接入处理层定义数据标准体系,数据标准体系主要包各个平台各类报送数据的结构定义、数据逻辑规则定义、数据内容合规性定义、日志报送交互接口的方式和结构定义以及应用操作日志中操作条件报送的语义规则和结构定义。对采集的数据进行解析、清洗、分类、比对、标记等标准化处理,并进行分类存储,将威胁数据录入到威胁情报数据库,对应用报送的规范化日志进行实时解析并录入日志数据库,提供数据检索、分析挖掘等服务。数据接入处理层采用分布式数据实时处理框架,提供海量数据处理能力支撑。
分析挖掘层对基于探针数据对攻击源、攻击对象、攻击设施进行分析,对受攻击设施风险进行评估、对攻击特征进行分析统计、对重点攻击行为进行检测,基于应用系统的日志对操作用户行为进行审计分析,对异常用户、异常行为进行监控预警。
业务应用层基于网络安全数据综合分析当前攻击源、攻击手段、受攻击设施等风险情况,通过态势感知呈现当前平台的整体安全概况,通过威胁分析、恶意事件回溯等手段对特定安全事件进行专家分析,对特定攻击源、攻击手段、被攻击设施进行安全监控和预警。提供综合态势分析感知、威胁分析、安全监测、追踪溯源、日志分类统计、日志审计分析、异常监控等服务。
**3. **基于鸿鹄的网络安全态势感知系统
现有的网络安全态势感知系统,数据处理技术上一般使用 Flume + Kafka + Spark Streaming 的流式大数据处理技术框架支撑流量数据的实时处理。然而业务系统繁多,不同层级的系统平台管理比较分散,出现问题基本通过单点问题排查,很难从全局视角来进行问题发现和根因分析。日志散落在各系统设备上,数据孤立,不能统一管理掌握全局状态,且在故障发生后,需要对原始日志数据重新定义抽取字段分析,花费大量时间。对系统运行状态和服务能力缺少监控,没有很好的手段对系统异常进行预判和告警。此外,网络安全态势感知系统有统计报表的需求,但因为分散的数据无法提供集中式的管理和洞察,也无法追踪记录用户的操作行为,暂未满足审计要求。
现在网络安全态势感知系统还存在采集数据过载的问题,为全面分析网络安全态势,如果采集所有的网络数据,将导致分析效率低下;分析师也无法查看所有的数据来分析网络空间可能面临的攻击。为解决采集数据过载的问题,针对不同类型的威胁行为往往会设计相关的规则和特征,靶向采集各类已知的威胁行为,对于未知攻击只能通过异常数据溯源分析,复现攻击行为,由于异常数据都是经过数据预处理,携带较少原始信息,而对于溯源来说,数据记录越详细,越能挖掘更多攻击信息。为解决上述问题,本文将基于鸿鹄,一种即时大数据分析处理平台,构建网络安全态势感知系统。
3.1 鸿鹄
鸿鹄是一种即时大数据分析处理平台,采用分布式存储和计算架构,通过采集企业内部机器数据和运营数据,利用关联分析、行为识别、数据建模、机器学习等技术,对数据进行集中管控,提供全量数据极速检索和大数据数据即时分析能力,实现数据集中存储、即时查询,关联分析、安全告警、可视化展现等功能,可应用于安全分析、合规审计、智能运维、业务分析、物联网等方面,拥有强大的数据可视化能力。平台架构(如图3)。
图3 鸿鹄系统架构全景图
鸿鹄支持结构化、半结构化、混合结构各类时序型、文本类数据,能够高效存储非结构化和半结构化原始数据,通过列式存储实现了数据存储的高压缩比,节省存储成本;并直接对原始数据查询分析,简单快速发掘数据价值。在数据采集时负责将不同的数据源的异构数据接入平台,数据索引模块对数据的时间戳自动识别与分析,根据时间戳对数据进行分片,对原始数据分词,构建倒排索引,最热的数据暂存到闪存中,满足一定条件后,索引和原始数据都会被压缩之后顺序写入磁盘。平台支持高速数据注入,单节点可以达到 20MB/s 的写入速度。
在数据分析时,从零构建 SQL 解析和查询的引擎,当 SQL 解析到达平台时,锁定数据查询范围,并加载到内存,利用查询中用到的读时建模规则构建数据模型,再通过聚类关系分析,即时编译和向量计算加速等技术进行数据分析,单节点可以达到每秒钟处理 100 万条数据的速度。平台支持 Ad Hoc 查询、即时查询、交互式查询、关联分析以及自助式分析,提供了强大的数据分析能力。
鸿鹄采用混合建模方式,同时融合了写时建模的效率和读时建模的灵活。“写时建模”即需要预先设定数据模型的传统 ETL 方式;“读时建模”通过数据 ELT 方式,在搜索数据的同时提取有用字段,更加灵活敏捷,节省数据导入的开销。平台数据分析流(如图4)。
图4 鸿鹄数据分析流图
鸿鹄采用的数据处理模式,可直接对原始数据查询分析,简单快速发掘数据价值,是异构多源大数据即时分析平台。平台采用云原生、微服务架构,拥有强大的应用扩展能力,基于平台存算分离、单独扩展以及灵活的架构,平台可广泛应用于安全分析、合规审计、智能运维、业务分析、物联网等方面。
3.2 基于鸿鹄的网络安全态势感知系统
本节将基于鸿鹄,设计一种集安全数据采集、处理、分析和安全风险发现、监测、报警、预判于一体的网络安全态势感知系统。该系统整合安全区域内用户终端、网络链路、应用系统、数据流量等各类感知数据源,基于鸿鹄高效强大的数据处理存储与分析能力,平台利用机器智能分析技术,结合数据处理、安全规则模型、攻击推理模型等分析算法,将看似毫无联系、混乱无序的安全日志、报警数据转化成直观的可视化安全事件信息,从海量数据中挖掘威胁情报,从而实现风险发现、安全预警和态势感知,提升安全监测的攻击发现和安全态势感知的能力。系统架构(如图5),实现了多源安全数据的汇聚与存储、面向威胁情报的大数据分析、态势感知应用。
图5 基于鸿鹄的网络安全态势感知系统
基于鸿鹄强大的多源异构数据处理能力,系统支持多种类型数据格式,使网络安全态势感知获取更多类型的数据。鸿鹄的海量存储和快速处理能力为高速网络流量的深度安全分析提供了技术支持,为高智能模型算法提供计算资源。在对异常识别的过程中,可以采用更小的匹配粒度和更长的匹配时间对未知行为进行离群度分析。
系统在海量安全信息基础上,聚焦于综合利用安全数据进行集中分析处理,通过整理分类、精简过滤、对比统计、重点识别、趋势归纳、关联分析、挖掘预测等数据融合处理手段认知安全态势,感知威胁和风险,可根据用户业务特点和安全需求进行态势感知可视化呈现。依托于鸿鹄架构,从数据的接收、解析、存储到分析展现应用了大量的大数据处理分析技术,可应对不同用户环境对海量安全信息数据的高速处理场景。
基于鸿鹄的态势感知系统可直接对原始日志数据高效灵活分析,提高故障定位效率,降低故障影响,并在理清链路拓扑关系的基础上,固化节点指标,实现实时监测预警。系统提供了一站式数据分析能力,可以从日志挖掘出系统运行状态并形成运维日报;保存审计日志并能对用户行为进行分析的分类,做到系统的安全类行为有迹可循,方便追溯。
3.3 演示示例
基于鸿鹄的态势感知系统主要包括态势感知、安全监测、威胁情报、追踪溯源、日志总览、应用平台日志、异常统计分析等功能模块。系统采用鸿鹄进行数据接入、处理、存储,支持数据处理能力水平横向扩展。以少量样本数据为例,通过页面文件导入的方式,将现有态势感知系统对接的数据源如 WAF、抗 DDOS、防火墙、堡垒机等设备的日志数据快速导入到鸿鹄中(如图6)。
图6 数据导入
鸿鹄提供了多种内置的数据格式处理,支持开箱即用,可以根据选定的数据格式,对导入的数据的处理效果进行预览(如图7)。
图7 原始数据
数据导入后,基于鸿鹄特有的读时建模功能,可按照态势感知的分析要求,在查询时对数据进行规整、富化、过滤和脱敏等操作,从而快速完成数据建模和即时分析。如对攻击者 IP,攻击类型进行快速统计,数据分析界面(如图8)。最后通过 API 的方式,将读时建模分析后的样例数据输出到态势感知系统进行态势展示。
图8 数据分析
其中,态势感知模块呈现整体网络安全态势,展示内容包括网络威胁统计情况,攻击目标统计情况,攻击源情况以及安全趋势发展情况(如图9)。
图9 网络安全态势感知整体状况
风险监测模块以可视化方式呈现网络信息系统的安全监测情况,主要包括概况、事件统计、漏洞监测、威胁监测、威胁事件分析、趋势分析等(如图10)。
图10 网络安全监测
日志总览模块对各个应用平台日志进行统计分析,包括各平台日志量、异常情况、审计情况等(如图11)。
图11 日志总览
基于鸿鹄广泛的应用日志报送接口,应用平台日志支持查询检索各类应用平台日志,支持对日志详情进行分析、对日志关联行为进行审计(如图12)。
图12 应用平台日志
**4. **结论和未来研究方向
基于鸿鹄的态势安全感知系统利用海量数据存储、存算分离、读时建模、数据清洗、数据分析挖掘、数据可视化分析、人工智能等关键领域技术,形成了安全可靠的网络安全态势感知体系,建立了全面分层次的大数据中心安全监测及感知能力。基于鸿鹄强大的多源异构整合能力,未来可以构建以实体和关系勾勒数据深度价值分析的数据蓝图,开展模型牵引的、标准统一的数据处理和数据治理;在数据采集方面,构建全方位获取、全网络汇聚、全维度整合的安全大数据采集感知体系;在数据融合方面,全面构建智能处理、精细治理、分类组织的数据资源融合体系,形成总关联、总索引、总导航全面汇聚。
-
数据
+关注
关注
8文章
6926浏览量
88867 -
网络安全
+关注
关注
10文章
3138浏览量
59644 -
感知
+关注
关注
1文章
65浏览量
12116 -
大数据存储
+关注
关注
0文章
8浏览量
4306
发布评论请先 登录
相关推荐
评论