区块链分析中的过度拟合是怎么一回事

当与区块链数据集一起使用时，机器学习模型往往会过度拟合。什么是过度拟合，如何解决？

使用机器学习来分析区块链数据集的想法乍一看非常吸引人，但它充满了挑战。在这些挑战中，缺少标记的数据集仍然是应用机器学习方法到区块链数据集时需要克服的最大困难。

这些限制导致许多机器学习模型使用非常小的数据样本进行训练和过度优化，从而导致一种称为过度拟合的现象。今天，我想深入探讨一下区块链分析中的过度拟合问题，并提出一些解决方法。

过度拟合被认为是现代深度学习应用中最大的挑战之一。从概念上讲，当模型生成的假设过于针对特定数据集而导致无法适应新数据集时，就会发生过度拟合。

理解过度拟合的一个有用的类比是将其视为模型中的幻觉。本质上，当一个模型从数据集中推断出不正确的假设时，它就会产生幻觉/过度拟合。

自从早期的机器学习以来，已经有很多关于过度拟合的文章，所以我不认为有任何聪明的方法来解释它。在区块链数据集的情况下，过度拟合是缺乏标记数据的直接结果。区块链是大型的、半匿名的数据结构，在这种结构中，所有东西都用一组公共结构表示，比如交易、地址和区块。

从这个角度来看，区块链记录的限定信息是最少的。是交易、转账还是付款？是个人投资者的钱包还是交易所的冷钱包？这些限定词对于机器学习模型是必不可少的。

假设我们正在创建一个模型来检测一组区块链中的交换地址。这个过程需要我们使用现有的区块链地址数据集来训练模型，我们都知道这些数据集并不常见。如果我们使用EtherScan或其他来源的小数据集，模型可能会过度拟合并做出错误的分类。

使过度拟合如此具有挑战性的一个方面是，很难在不同的深度学习技术中推广。卷积神经网络倾向于形成与递归神经网络不同的过拟合模式，而递归神经网络又不同于生成模式，这种模式可以外推到任何类型的深度学习模型。

具有讽刺意味的是，过度拟合的倾向与深度学习模型的计算能力成线性关系。由于深度学习代理可以生成复杂的假设，而且几乎不需要任何成本，因此过度拟合的倾向就会增加。在机器学习模型中，过度拟合是一个持续的挑战，但在处理区块链数据集时，它几乎是一个给定的问题。解决过度拟合的明显方法是使用更大的训练数据集，但这并不总是可行的。在IntoTheBlock，我们经常遇到过度拟合的挑战。

在区块链数据集中对抗过度拟合的三个简单策略

与过度拟合作斗争的首要原则是认识到它。虽然没有防止过度拟合的灵丹妙药，但实践经验表明，一些简单的、几乎是常识的规则有助于在深度学习应用中防止这种现象。

在已经发布的防止过度拟合的几十个最佳实践中，有三个基本的思想包含了其中的大多数。

数据/假设比率

过度拟合通常发生在一个模型产生了太多的假设而没有相应的数据来验证它们的时候。因此，深度学习应用程序应该尝试在测试数据集和应该评估的假设之间保持适当的比例。然而，这并不总是一个选择。

有许多深度学习算法，如归纳学习，依赖于不断产生新的，有时更复杂的假设。在这些场景中，有一些统计技术可以帮助估计正确的假设数量，从而优化找到接近正确的假设的机会。

虽然这种方法不能提供准确的答案，但它有助于保持假设数量和数据集组成之间的统计平衡。哈佛大学教授莱斯利·瓦兰特在他的书中精采地解释了这一概念。

区块链分析中的过度拟合是怎么一回事

当进行区块链分析时，数据/假设的比例非常明显。假设我们正在构建一个基于一年区块链交易的预测算法。

因为我们不确定要测试哪个机器学习模型，所以我们使用神经架构搜索（NAS）方法，该方法针对区块链数据集测试数百个模型。

考虑到数据集只包含一年的交易，NAS方法可能会生成一个完全适合训练数据集的模型。

支持简单的假设

在深度学习模型中，防止过度拟合的一个概念上琐碎但技术上困难的想法是不断生成更简单的假设。当然！简单总是更好的，不是吗？

但在深度学习算法的背景下，有什么更简单的假设呢？如果我们需要将其归结为一个量化的因素，我会说深度学习假设中属性的数量与复杂度成正比。

简单的假设往往比其他有大量属性的假设更容易评估，无论是在计算上还是在认知上。

因此，与复杂的模型相比，简单的模型通常不太容易过度拟合。下一个明显的难题是如何在深度学习模型中生成更简单的假设。

一种不太明显的技术是根据算法的估计复杂度对其附加某种形式的惩罚。这种机制倾向于更简单、更准确的假设，而不是更复杂、有时更准确的假设。

区块链分析中的过度拟合是怎么一回事

为了在区块链分析中解释这个概念，让我们假设我们正在构建一个在区块链中对支付交易进行分类的模型。

该模型使用一个复杂的深度神经网络生成1000个特征来进行分类。如果应用于较小的区块链，如Dash或Litecoin，该模型很可能会过度拟合。

偏差/方差平衡

偏差和方差是深度学习模型的两个关键估计量。从概念上讲，偏差是我们模型的平均预测值与我们试图预测的正确值之间的差异。高偏差模型对训练数据的重视程度低，模型过于简化。它往往会导致训练和测试数据的高误差。

或者，方差指的是模型对给定数据点或值的预测的可变性，它告诉我们数据的分布。高方差模型对训练数据非常重视，对未见过的数据不进行泛化。因此，这样的模型在训练数据上表现得很好，但在测试数据上有很高的错误率。

偏差和方差如何与过度拟合相关？在超简单的术语中，概括的艺术可以通过减少模型的偏差而不增加其方差来概括。

在深度学习模型中，定期将生成的假设与测试数据集进行比较并评估结果是一个很好的实践。如果假设继续输出相同的错误，那么我们就有一个很大的偏差问题，我们需要调整或替换算法。如果错误没有清晰的模式，那么问题就是不一致，我们需要更多的数据。总而言之：

· 任何低复杂度的模型都会因为高偏差和低方差而倾向于拟合不足。

· 任何高复杂度的模型（深度神经网络）都会因为低偏差和高方差而倾向于过度拟合。

在区块链分析中，偏差-方差摩擦无处不在。让我们回到我们的算法，试图预测价格与许多区块链因素。如果我们使用简单的线性回归方法，模型很可能不适合。然而，如果我们使用一个具有小数据集的超级复杂的神经网络，模型可能会过度拟合。

使用机器学习来分析区块链数据是一个非常新兴的领域。因此，大多数模型都遇到了机器学习应用程序的传统挑战。

过度拟合是区块链分析中无处不在的挑战之一，其根本原因是缺乏标记数据和训练过的模型。没有什么神奇的解决方案可以解决过度拟合的问题，但是本文中列出的一些原则已经被证明对IntoTheBlock是有效的。

责任编辑：Ct

阅读全文

机器学习(130423) 机器学习(130423)
区块链(104688) 区块链(104688)

AD9544工作状态都正常，没有输出，请问是怎么回事？

AD9544的系统时钟显示Stable, 参考时钟也可以识别，DPLL显示频率和相位都已经锁定，就是没有输出，事件报错为No solution exists. Output excluded from solution，请问各位大神是怎么一回事?

2018-08-01 06:53:20

CAN总线是什么？CAN总线具有哪些特点

端口复用和端口重映射是一回事吗？CAN总线是什么？CAN总线具有哪些特点？

2021-11-08 06:48:46

DXP中怎么做等长？间距怎么设置，PCB小白请教

因为第一次做等长线处理，业务不熟练，在网上也看了各类教程，单实际画的时候又是另外一回事，能请各位大神帮我指出图中的问题点吗？万分感谢，你那个有具体的指导建议就更完美了！

2019-08-07 16:07:29

ESP32-D0WDQ6经常会出现wifi连接断开然后复位的状况是怎么回事？

使用的芯片为ESP32-D0WDQ6使用的平台为vscode使用esp-idf版本为1.3.0参考的例程为fast_scan出现问题的打印日志如附件所示，经常会出现wifi连接断开然后复位的状况请问有人知道是怎么一回事吗？

2023-02-15 07:23:49

Keil软件仿真STM32时出现错误是怎样一回事

Keil软件仿真STM32时出现错误是怎样一回事？怎样去解决这个问题？

2021-11-10 06:23:02

M453VG6AE中ISP Flash和LDROM是不是一回事？它们基地址分别是什么？

M453VG6AE芯片中 ISP Flash 和 LDROM 是不是一回事？它们基地址分别是什么？

2024-01-17 06:31:10

MOV中的8位图立即数是怎么一回事

MOV中的 8位图立即数,是怎么一回事 0xF0000001是怎么来的A:是循环右移,就是一个 0—255 之间的数左移或右移偶数位的来的,也就是这个数除以 4一直除, 直到在 0-255的范围内它是整数就说明是可以的！

2022-10-13 14:11:51

MOV中的8位图立即数是怎么一回事呢？

MOV中的 8位图立即数,是怎么一回事 0xF0000001是怎么来的A：是循环右移。就是一个 0—255 之间的数左移或右移偶数位的来的，也就是这个数除以 4一直除，直到在 0-255的范围内它是整数就说明是可以的!

2023-02-17 15:02:50

MOV中的8位图立即数是怎么回事 0xF0000001是怎么来的

请教:MOV中的 8位图立即数,是怎么一回事 0xF0000001是怎么来的

2016-07-27 22:03:03

PROTEL中画PCB阵列怎样设置，圆形阵列，矩形阵列分别如何操作，菜鸟请教高手

我是个新手，画PCB时不知道如何设置阵列参数，每次设置与画出来的根本不是一回事，跪求高手解答！

2010-10-21 22:19:39

RT-Thread Studio工程文件带有感叹号这个是怎么一回事

RT-Thread Studio 工程文件带有感叹号，这个是怎么一回事，如何去除感叹号？

2022-11-30 10:11:23

SFUD库看不到初始化spi1的GPIO的代码是怎么一回事

SFUD库看不到初始化spi1的GPIO的代码是怎么一回事？

2022-07-29 10:39:35

[原创]这个是怎么一回事，新手请教？

;nbsp; Phoenix Technologies Ltd. Wistron J865P-2主板，很垃圾的机子，请问升级BIOS怎么升，版本都检测不了，高手请指教一下

2010-11-13 01:34:01

ch582 RF_PHY例程死机是怎么一回事？

使用ch582 想最终实现的结果是2.4G和蓝牙外设共存，但发现把peripheral例程和RF_PHY历程合并之后就会死机，经测试单独RF_PHY历程只要拷入了peripheral例程中的Profile文件夹内容在接收的时候就跑不了了，发送可以动，这是怎么一回事？

2022-09-20 07:18:15

pin map对应问题

新手想请教一下各位大神，集成库中的pin map到四十怎么一回事，到底是怎么一一对应的，这个问题我一直没搞明白，还望大家解解惑，感激不尽

2017-05-12 10:50:37

protues 用555仿真报错

如图改变电阻和电容，有时又不会报错但输出不对呀，这是怎么一回事？？？求解。。。。。

2013-04-20 00:01:44

spi.c和24l01.c的问题如何解决

原子的24l01实验为什么在spi.c中配置极性为1在24l01.c配置极性为0，而且相位也是不同，这是怎么一回事，程序到底执行哪儿呢？

2020-05-29 04:35:38

tf卡启动烧写dp2lvds闪光出错是怎么一回事

tf卡启动，烧写dp2lvds闪光出错？这是怎么一回事呢？求解

2021-12-31 06:05:50

wifi模块子函数为什么最后要返回一个指向栈内存的指针strx

在此检查子函数模块中，定义了指向栈内存的指针，为什么最后要返回一个指向栈内存的指针strx。这明显不符合c语言的标准啊，明显的错误啊，请问是怎么一回事？

2019-04-28 09:55:55

为什么不能将乘法器用作调制器或者混频器

为什么不能将乘法器用作调制器或混频器？它们不是一回事吗？

2021-04-06 06:24:22

什么是PYNQ？

什么是PYNQ？PYNQ就是通过Python语言直接对FPGA进行编程吗？PYNQ和PYNQ-Z2是一回事吗？PYNQ-Z2是否支持传统开发方式？要到哪里学习PYNQ知识呢？

2021-02-24 07:02:56

代码在未开优化和-o1的条件下可以跑出正确结果，但是-o2和-o3条件下同样的输入输出结果出错，这是怎么一回事？

麻烦请教一下：我们的代码在未开优化和-o1的条件下是可以跑出正确结果，但是-o2和-o3条件下同样的输入输出结果出错，这是怎么一回事？谢谢大家！

2018-07-11 07:47:39

使用stm32时看不到flash中的初始化变量值是怎么一回事呢？

使用stm32时看不到flash中的初始化变量值是怎么一回事呢？

2022-12-01 07:33:35

关于Davinci与C6-Integra的区别

问一个弱弱的问题，Davinci与C6-Integra是一回事么？它们有什么区别和联系呢？

2018-06-21 12:11:05

关于ICT测试的疑问

请问ICT测试和飞针测试是一回事吗？如果要做ICT测试，是不是在画板子的时候就要留好测试点？

2017-09-23 11:36:39

关于电路中的地线、零线、火线的区别

本帖最后由 gk320830 于 2015-3-7 08:11 编辑我在看电路时，对电路中的地线、零线、火线的概念比较模糊。地线和零线是一样的吗？火线、零线、地线到底是怎么一回事？在电路中三角形的地和四条横杠地是一样的么，还有GND。请大侠指教，不胜感激！

2013-11-26 09:43:24

冷卡层压技术

冷卡层压技术怎么一回事?

2014-07-01 10:10:48

单片机中断

`单片机中断是怎么一回事呀`

2012-09-22 22:16:15

发那科

发那科机器人搬运是怎么一回事

2017-05-27 22:52:22

听说可以借助扫描仪设计电路板，不知道是怎么一回事

听说可以借助扫描仪设计电路板，不知道是怎么一回事

2013-02-26 10:26:20

基础语法语法问题

求解一个基础语法问题，reg[3][0]和reg[3:0]是一回事吗？本人小白，还请各位朋友解惑

2017-11-23 18:25:04

大众汽车对开关的设定操作

大众汽车对开关的设定操作，在内部电路究竟是怎么一回事呢、

2014-03-04 01:46:06

大学生电子设计大赛

自己对电子方面还是有些兴趣的，但是感兴趣是一回事，真正做又是另一回事，自己对于这一方面还是懂得太少，希望有大神可以提点我一下

2015-08-07 14:58:38

大家都来讨论一下元器件降额设计是怎么一回事

大家都来讨论一下元器件降额设计是怎么一回事吧各位前辈之前做设计有进行过降额设计吗？

2016-04-22 15:34:59

嵌入式和单片机是不是一回事

今天在qq群里，有个看起来资历丰富的前辈问了一个问题，嵌入式和单片机是不是一回事，这个问题提的很好。对于嵌入式方向领域，我最近一直也在想这些底层基础的概念问题。然而在网上查找一些前辈的回答，概念太过

2021-10-27 07:30:41

开关磁阻电机和交流磁阻同步电机是一回事吗？

大家好，最近项目中遇到一款德国的KAISER无励磁磁阻同步电机，花了一段时间研究后，还是有几个基本的概念没有搞明白： 1.开关磁阻电机和交流磁阻同步电机是一回事吗？ 2.各自的控制器是什么呢？普通的变频器能实现吗？

2024-01-10 06:35:40

急急急

我想问一下回滞充电电压是怎么一回事，很急，在线等，谢谢帮忙解答一下。

2016-01-05 15:46:00

感应电动机和异步电动机有何区别

「异步电动机」和「感应电动机」其实就是一回事。

2021-09-06 06:32:59

我有個文件無法開啟

如標題我的之前的文件無法開啟不知道是怎麼一回事希望能幫助我

2012-06-01 20:54:52

新人求教，电动汽车双电源系统。

电动汽车双电源系统是怎么一回事，麻烦大神详细解释一下。

2014-05-12 20:11:01

有什么方法关闭XC8在代码中引入的故意破坏行为吗？

除了可能为许可证付费之外，还有什么方法可以关闭XC8在代码中引入的故意破坏行为吗？没有在自由编译器上优化代码是一回事，这很好，但是我很难理解为什么有意破坏代码是合法的，更不能接受。有没有办法破坏破坏行为？

2019-09-29 07:33:01

永磁同步电机速度环程序运行问题

我这的速度环程序，在调试运行时主程序始终在第一行，停止调试后就会跳到一个数码管驱动芯片的程序，有老哥知道是怎么一回事吗，能帮忙分析一下原因吗

2021-04-27 20:43:19

求教 MPU3050如何确定其slaveaddress,这和who am i的默认值0x68是一回事么？谢谢了

求指教求教 MPU3050如何确定其slaveaddress,这和who am i的默认值0x68是一回事么？谢谢了

2016-11-08 10:38:04

求教LabVIEW 图片控件运行速度太慢问题~~

这是怎么一回事？这是我的程序图1、一维数组中包含描绘点的坐标，2、通过数组索引组合成簇输出给绘制点控件，3、然后通过图片显示控件显示描绘的店。4、继续下一循环描点流程~~可是出来的图要么是寥寥几个

2015-11-29 16:09:01

法拉第圆筒是怎么一回事

法拉第圆筒是怎么一回事啊？？？求详细的解说...

2011-07-30 14:40:35

照明光源频闪是怎么回事？

照明光源频闪是怎么回事？照明光源的频闪并不是现在学术上的一个新发现，所谓无频闪也不是现在技术上的一个新突破，只不过近期被部分制灯厂商炒得沸沸扬扬。那么，照明光源的频闪到底是怎么一回事？它对眼睛到底有何影响？

2019-07-24 07:53:20

用PROTUES仿真430中断程序会报错

我用IAR写的一个430的单片机的中断程序，并且用PROTURS进行仿真，但是就是不知道是什么原因，只要加上中断，仿真就不能进行，会产生报错，后来从网上找了一个程序，还是同样的结果，遇到中断就会报错，求教大神们，这是怎么一回事?赶紧不尽

2014-07-21 18:47:10

用multisim仿真Max295滤波器后无输出是为什么？

电路如下，应该是没问题的，但就是无输出，请问这是怎么一回事

2018-04-16 13:02:37

电路设计

本帖最后由 gk320830 于 2015-3-5 18:24 编辑求各位大神指教泵浦升压电路是怎么一回事，怎么设计

2014-04-13 15:52:10

蓝牙中的拓扑结构有散射网，MESH网是同一回事吗？

在蓝牙的学习中，有讲到蓝牙的拓扑结构，包含微微网和散射网，其中散射网是微微网的拓展网络设备数量的，请问散射网和MESH网是不是一回事，谢谢

2020-03-15 19:38:00

请问一下数码管阳极显示和共阳极是一回事吗？

本帖最后由 eehome 于 2013-1-5 09:43 编辑请问一下数码管阳极显示和共阳极是一回事吗？

2012-12-03 11:21:32

请问KVA和KW是不是一回事？

KVA 和KW是不是一回事？比如负载时2kw那么我的变压器的容量需要大于2/cosφ呢？

2023-12-11 07:43:44

请问STM32F4以太网所用的DMA控制器和DMA1、DMA2是一回事吗？

原子大哥和各位大神，我想问一下，1、STM32F407以太网所用的DMA控制器和和DMA1、DMA2控制器是一回事吗？2、为什么我在看DMA1、DMA2请求映射（STM32F4xx中文参考手册）时找不到关于以太网的请求？

2019-07-24 22:59:34

请问ade7880的谐波数据存储格式3.21是怎么回事

我在处理ade7880的谐波数据时，发现其数据存储格式是3.21，不太明白是怎么一回事。谁能推荐一些相关资料，我学习和研究一下。出于不入门状态，请大家帮忙。谢谢先。

2018-09-19 09:51:39

请问电源去耦和电源滤波是一回事吗？

请问电源去耦和电源滤波是一回事吗？

2023-04-21 17:42:23

请问芯片中ISP Flash和LDROM是不是一回事？

芯片中 ISP Flash 和 LDROM 是不是一回事？如果不是一回事，以M453VG6AE为例，它们基地址分别是什么？

2023-08-29 08:08:05

超声波程序中的clock文件和主程序中的Time是怎么一回事？

超声波程序中的clock文件和主程序中的Time是怎么一回事？

2023-10-08 07:32:01

遇到删不了的铺铜了

郁闷啊，刚老板给我一个PCB的图纸让我改一下，碰到了删不了铺铜，不知道怎么一回事，哪会朋友知道的，怎么删了它，请指教一下。

2012-11-24 21:26:24

慢速保险丝是怎样一回事？

慢速保险丝是怎样一回事？慢速保险丝也叫延时保险丝，它的延时特性表现在电路出现非故障脉冲电流时保持完好而能对长时间的过载提供保护。有些电路在

2009-11-12 09:11:04

822

解析训练集的过度拟合与欠拟合

在数据科学学科中，过度拟合(overfit)模型被解释为一个从训练集(training set)中得到了高方差(variance)和低偏差(bias)，导致其在测试数据中得到低泛化(generalization)的模型。

2018-02-07 17:00:28

7760

区块链6层协议是怎么一回事

区块链系统模型的每一层将会诞生新的工作岗位和新的创业机遇，甚至会出现新的行业巨头。

2019-07-09 16:18:19

1470

机器人即服务是怎么一回事

机器人即服务是怎么一回事

2019-08-06 16:48:23

1431

区块链的分叉是怎么一回事

而区块链中的系统，我们知道，它是一个人人都可以参与的数据库，它的代码是开放的，整个网络是去中心化的。

2019-10-17 15:56:49

1100

区块链分析中的过度拟合还有什么挑战

当与区块链数据集一起使用时，机器学习模型往往会过拟合。

2020-02-05 10:35:40

517

手机里的射频与天线是一回事吗

手机里的射频与天线当然不是一回事了。

2021-10-04 12:52:00

8911

封装检测是什么意思?封测和封装是一回事吗？

封装检测是什么意思?封测和封装是一回事吗？封装检测指的是对电子元件封装的检测，以确保元件的质量和可靠性。在电子元件的制作过程中，首先要将对电路有特定功能的元器件封装，通常是将芯片放入塑料或金属外壳

2023-08-24 10:41:51

1658

SMT生产过程中抛料是怎么一回事呢？具体需要怎么解决？

在SMT工厂，生产过程中经常会遇到抛料的情况，甚至有时候抛料会非常严重，影响到生产效率，那么抛料是怎么一回事呢？具体需要怎么解决？

2024-01-24 10:42:46

373

电机和马达是一回事吗马达和电机有什么区别

电机和马达是一回事吗马达和电机有什么区别电机和马达是一回事吗？电机和马达是同一个名词的不同表达方式。在一些地区，特别是中国，人们更倾向于使用“电机”来指代电动机，而在其他地区则更常用“马达

2024-02-03 09:19:26

908

已全部加载完成

搜索历史

区块链分析中的过度拟合是怎么一回事

评论