0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据科学和机器学习所需要的基本数学技能

如意 来源:读芯术 作者:读芯术 2020-07-06 09:39 次阅读

作为一切科学的基础,数学在数据科学领域也占据着重要地位。如果你是一名数据科学爱好者,一定想过这些问题:

· 我可以在几乎没有数学背景的情况下,成为一名数据科学家吗?

· 在数据科学中,哪些基本的数学技能是重要的?

有很多好用的包可以用来构建预测模型,或生成数据可视化。一些最常用的描述性分析和预测性分析包包括:Ggplot2、Matplotlib、Seaborn、Scikit-learn、Caret、TensorFlow、PyTorch、Keras等。

有了这些包,任何人都可以构建模型或者生成数据可视化。然而,想要微调模型,使之能产生具有最佳性能的可靠模型,确实需要非常扎实的数学基础知识。

建立模型是一回事,但是解释模型,并且总结出有意义的,且可用于数据驱动的决策制定的结论是另一回事。重要的是,在使用这些包之前,读者必须要对每一个包的数学基础有所了解,不仅限将这些包作为黑盒子工具来使用。

案例研究:构建多元回归模型

假设现在要建立一个多元回归模型。在此之前,我们需要问自己几个问题:

· 数据集有多大?

· 我的特征变量和目标变量是什么?

· 哪些预测特征与目标变量最相关?

· 哪些功能很重要?

· 应该缩放特征吗?

· 如何提高模型的预测能力?

· 应该使用正则回归模型吗?

· 回归系数是多少?

· 什么是拦截?

· 如何将数据集划分为训练集和测试集?

· 什么是主成分分析(PCA)?

· 应该使用主成分分析来删除冗余的特征吗?

· 应不应该使用非参数回归模型,如k邻近回归(或支持向量回归)?

· 模型中有哪些超参数,如何对它们进行微调以获得性能最优的模型?

· 如何评估模型?是用R2-score(决定系数),MSE(均方误差),还是MAE(平均绝对误差)?

没有良好的数学背景,就无法回答上述问题。在数据科学和机器学习中,数学技能和编程技能同等重要。作为一名数据科学爱好者,一定要投入时间来研究数据科学和机器学习的理论和数学基础。

能否建立可靠而有效的模型,使其应用于现实世界的问题,取决于读者的数学技能有多好。接下来我们来讨论一下在数据科学和机器学习中所需要的一些基本数学技能。

数据科学与机器学习的基本数学技能

1. 线性代数

线性代数是机器学习中最重要的数学技能。数据集表示为矩阵,线性代数用于数据预处理、数据转换、降维和模型评估。

以下是大家需要熟悉的:向量;向量的范数;矩阵;矩阵的转置;逆矩阵;矩阵的行列式;矩阵的迹;点积;特征值;特征向量。

2. 统计与概率

统计与概率用于特征可视化、数据预处理、特征转换、数据插补、降维、特征工程、模型评价等。

以下是大家需要熟悉的:均值、中值、模式、标准差/方差、相关系数和协方差矩阵、概率分布(二项式、泊松分布、正态分布)、p值、贝叶斯定理(精度、召回率、正预测值、负预测值、混淆矩阵、ROC曲线)、中心极限定理,R-2 score,均方误差(MSE),A/B检验,蒙特卡罗模拟

3. 多变量微积分

大多数机器学习模型都是由一个具有多个特征或预测器的数据集建立的。因此,熟悉多变量微积分对于建立机器学习模型非常重要。

以下是大家需要熟悉的:多元函数;导数和梯度;阶跃函数、S形函数、Logit效用函数、ReLU(修正线性单元)函数;成本函数;函数绘图;函数的最小值和最大值。

4.优化方法

大多数机器学习算法是通过最小化目标函数进行预测建模,从而学习为获得预测标签而必须应用于测试数据的权重。

以下是大家需要熟悉的:成本函数/目标函数;似然函数;误差函数;梯度下降算法及其变体(例如随机梯度下降算法)。

本文讨论了数据科学和机器学习所需的基本数学和理论技能。互联网时代,你能很轻松找到学习资源。作为数据科学爱好者一定要记住,数据科学的理论基础对于高效可靠的模型建立至关重要。你应该花足够的时间来钻研每种机器学习算法背后的数学理论,这对于数据科学来说是必不可少的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数学建模
    +关注

    关注

    0

    文章

    49

    浏览量

    13801
  • 机器学习
    +关注

    关注

    66

    文章

    8337

    浏览量

    132257
  • 数据科学
    +关注

    关注

    0

    文章

    164

    浏览量

    10035
收藏 人收藏

    评论

    相关推荐

    《AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    人工智能在科学研究中的核心技术,包括机器学习、深度学习、神经网络等。这些技术构成了AI for Science的基石,使得AI能够处理和分析复杂的
    发表于 10-14 09:16

    《AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    人工智能:科学研究的加速器 第一章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习、深度学习等先进技术,AI能够处理和分析海量
    发表于 10-14 09:12

    【「时间序列与机器学习」阅读体验】时间序列的信息提取

    个重要环节,目标是从给定的时间序列数据中提取出有用的信息和特征,以支持后续的分析和预测任务。 特征工程(Feature Engineering)是将数据转换为更好地表示潜在问题的特征,从而提高机器
    发表于 08-17 21:12

    labview树形控件读取子文本数据(child text)

    各位大神好!我想读取已编辑好的树形控件的第0列之后的子文本数据(child text,或称属性),该如何实现?
    发表于 07-14 16:38

    机器学习中的数据分割方法

    机器学习中,数据分割是一项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习
    的头像 发表于 07-10 16:10 1092次阅读

    机器学习数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从
    的头像 发表于 07-02 11:22 498次阅读

    名单公布!【书籍评测活动NO.35】如何用「时间序列与机器学习」解锁未来?

    设备的运行状况,生成各种维度的报告。 同时,通过大数据分析和机器学习技术,可以对业务进行预测和预警,从而协助社会和企业进行科学决策、降低成本并创造新的价值。 当今时代,
    发表于 06-25 15:00

    机器学习怎么进入人工智能

    ,人工智能已成为一个热门领域,涉及到多个行业和领域,例如语音识别、机器翻译、图像识别等。 在编程中进行人工智能的关键是使用机器学习算法,这是一类基于样本数据和模型训练来进行预测和判断的
    的头像 发表于 04-04 08:41 216次阅读

    fpga学习需要具备哪些课程

    FPGA(Field Programmable Gate Array)学习需要具备一系列的课程知识和实践技能
    的头像 发表于 03-14 15:51 1071次阅读

    【量子计算机重构未来 | 阅读体验】+机器学习的终点是量子计算?

    便对机器的计算能力产生了兴趣,虽然不是这个专业的,但是可以抽出闲鱼的时间,来了解一下,可以通过学习来掌握一些技能。 目前也只有在闲暇之余做一些代码的工作了。 希望以后能够用的上。 其次大学期间也没有学
    发表于 03-10 16:33

    【技术科普】主流的深度学习模型有哪些?AI开发工程师必备!

    接近于人工智能。它通过学习本数据的内在规律和表示层次,对文字、图像和声音等数据进行解释。深度学习的目标是让机器像人一样具有分析
    的头像 发表于 01-30 15:26 552次阅读
    【技术科普】主流的深度<b class='flag-5'>学习</b>模型有哪些?AI开发工程师必备!

    汽车嵌入式软件的技能要求

    如果你希望开始在汽车嵌入式软件领域的职业生涯,必须掌握符合行业需求的全面技能。下面是一个路线图,列出了需要学习的关键技术和技能
    的头像 发表于 01-23 11:09 1479次阅读
    汽车嵌入式软件的<b class='flag-5'>技能</b>要求

    javascript的基本数据类型有哪些

    JavaScript 是一种动态的、面向对象的编程语言,广泛应用于 Web 开发中。在 JavaScript 中,有七种基本数据类型(Primitive Types),它们分别是 Undefined
    的头像 发表于 12-03 11:17 702次阅读

    FPGA工程师需要具备哪些技能

    ,工程师需要考虑时序约束、时钟网络设计、数据路径优化等因素。较常用的布局布线工具有ALLEGRO PCB和Orcad等软件。在使用EDA工具之前,FPGA工程师需要了解所需的电路元件,
    发表于 11-09 11:03

    机器人和自动化学习机会

    Hine Automation和ROOTS Education在合作创造主题更加相关、更易获得的机器人和自动化学习机会。此次合作是一项积极举措,旨在确保半导体行业拥有所需的训练有素的劳动力,以解决
    的头像 发表于 11-07 16:08 299次阅读