0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Kaggle知识点:使用大模型进行特征筛选

ImaginationTech 2024-12-03 01:06 次阅读

本文转自:Coggle数据科学


数据挖掘的核心是是对海量数据进行有效的筛选和分析。传统上数据筛选依赖于数据驱动的方法,如包裹式、过滤式和嵌入式筛选。随着大模型的发展,本文将探讨如何利用大模型进行特征筛选。

afea0562-b0cf-11ef-8084-92fbcf53809c.png

筛选思路

数据驱动方法依赖于数据集中的样本点进行统计推断,而基于文本的方法需要描述性的上下文以更好地在特征和目标变量之间建立语义关联。

b01e086c-b0cf-11ef-8084-92fbcf53809c.png

这种方法利用了大型语言模型(LLMs)中丰富的语义知识来执行特征选择。大模型将利用数据集描述(desd)和特征描述(desf),描述特征的重要性。

  • LLM生成的特征重要性得分(LLM-Score)
  • LLM生成的特征排名(LLM-Rank)
  • 基于LLM的交叉验证筛选(LLM-Seq)

实验设置

  • 模型:实验中使用了不同参数规模的LLMs,包括LLaMA-2(7B和13B参数)、ChatGPT(约175B参数)和GPT-4(约1.7T参数)。
  • 比较方法:将基于LLM的特征选择方法与传统的特征选择基线方法进行比较,包括互信息过滤(MI)、递归特征消除(RFE)、最小冗余最大相关性选择(MRMR)和随机特征选择。
  • 数据集:使用了多个数据集进行分类和回归任务的评估,包括Adult、Bank、Communities等。

实现细节:对于每个数据集,固定特征选择比例为30%,并在16-shot、32-shot、64-shot和128-shot的不同数据可用性配置下进行评估。使用下游L2惩罚的逻辑/线性回归模型来衡量测试性能,并使用AUROC和MAE作为评估指标。


实验结果

将LLM-based特征选择方法与传统的特征选择基线方法进行比较,包括LassoNet、LASSO、前向序贯选择、后向序贯选择、递归特征消除(RFE)、最小冗余最大相关性选择(MRMR)、基于互信息(MI)的过滤和随机特征选择。

b04b950c-b0cf-11ef-8084-92fbcf53809c.png
  • 发现1:在小规模数据集上,基于文本的特征选择方法比数据驱动的方法更有效。在几乎所有的LLM和任务中,基于文本的特征选择方法的性能都超过了数据驱动方法。
  • 发现2:使用最先进的LLMs进行基于文本的特征选择,在每种数据可用性设置下都能与传统特征选择方法相媲美。
  • 发现3:当样本数量增加时,使用LLMs的数据驱动特征选择会遇到困难。特别是当样本大小从64增加到128时,分类任务的性能显著下降。
  • 发现4:与数据驱动特征选择相比,基于文本的特征选择显示出更强的模型规模扩展性。
b0700e78-b0cf-11ef-8084-92fbcf53809c.pngb0a18124-b0cf-11ef-8084-92fbcf53809c.png

GPT-4基于LLM-Score在folktables数据集上整体表现最佳,在MIMIC-IV数据集上显著优于LassoNet和随机特征选择基线。LLM-Score在选择前10%和30%的特征时,与最佳数据驱动基线的性能相媲美,且明显优于随机选择。在医疗保健等复杂领域,LLM-Score即使在没有访问训练数据的情况下,也能有效地进行特征选择。

参考文献

https://arxiv.org/pdf/2408.12025

  • https://arxiv.org/pdf/2407.02694


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    517

    浏览量

    10259
  • 海量数据
    +关注

    关注

    0

    文章

    3

    浏览量

    888
  • 大模型
    +关注

    关注

    2

    文章

    2377

    浏览量

    2593
收藏 人收藏

    评论

    相关推荐

    C语言链表知识点(2)

    C语言链表知识点(2)
    发表于 08-22 10:38 316次阅读
    C语言链表<b class='flag-5'>知识点</b>(2)

    使用PADS软件进行PCB设计,有哪些基础知识点

    使用PADS软件进行PCB设计,有哪些基础知识点?发现知识点很多、很杂、很乱,有没有聚合归纳统一的内容给到
    发表于 08-20 12:07

    BFC的基础知识点有哪些?

    BFC的基础知识点:css盒模型清除浮动 div水平垂直居中原型和原型链
    发表于 11-05 06:02

    计算机组成原理考研知识点归纳

    计算机组成原理考研知识点归纳 写在前面的话:理科知识重在于理解知识点本身,对于每一个知识点,大家都有自己理解的方式。这篇
    发表于 04-13 14:06 1921次阅读

    基于知识点的改进型遗传组卷算法的研究

    为了实现无纸化考试系统题库的自动组卷需求,提出了一种基于知识点的改进型遗传组卷算法,该算法主要是先对知识点进行多次随机筛选,然后利用改进型遗传组卷算法对其它多个约
    发表于 01-08 15:28 0次下载
    基于<b class='flag-5'>知识点</b>的改进型遗传组卷算法的研究

    高一数学知识点总结

    高一数学知识点总结高一数学知识点总结高一数学知识点总结
    发表于 02-23 15:27 0次下载

    高二数学知识点总结

    高二数学知识点总结高二数学知识点总结高二数学知识点总结
    发表于 02-23 15:27 0次下载

    PWM知识点详解

    PWM知识点
    发表于 03-16 08:00 44次下载

    嵌入式知识点总结

    嵌入式知识点总结(arm嵌入式开发led过程)-嵌入式知识点总结                    
    发表于 07-30 14:20 23次下载
    嵌入式<b class='flag-5'>知识点</b>总结

    电力基础知识点合集

    电力基础知识点合集
    发表于 03-14 16:35 0次下载

    详解射频微波基础知识点

    详解射频微波基础知识点
    的头像 发表于 01-29 10:28 2338次阅读

    C语言最重要的知识点

    C语言知识点总结.doc
    发表于 02-16 16:37 9次下载

    数字电路知识点总结

    本文整理了数字电路课程中的相关基本的知识点和较为重要的知识点,用于求职的数电部分的知识准备,差缺补漏。
    的头像 发表于 05-30 15:07 4774次阅读
    数字电路<b class='flag-5'>知识点</b>总结

    滚珠螺杆的基本知识点

    滚珠螺杆的基本知识点
    的头像 发表于 07-07 17:40 1507次阅读
    滚珠螺杆的基本<b class='flag-5'>知识点</b>

    STM32 RTOS知识点

    电子发烧友网站提供《STM32 RTOS知识点.pdf》资料免费下载
    发表于 08-01 14:28 3次下载
    STM32 RTOS<b class='flag-5'>知识点</b>