在下面的教程中你可能看到一些其他的库,比如说 Seaborn,一个基于Matplotlib的数据可视化库.上述包是广泛Python机器学习任务的核心,然而,让你在下面引用时,理解这些适应更多相关的包而不会懵.
第四步 开始Python机器学习
Python. √
Machine learning fundamentals. √
Numpy. √
Pandas. √
Matplotlib. √
吉时已到,我们开始使用python标准机器学习库–scikit-learn实现机器学习算法吧.
下面大多数教程和联系都在IPython(Jupyter)Notebook中实现.它是Python执行的一个交互式环境.这些IPython NOtebook可以选择在线预览或下载,并且在你电脑本地交互.
iPython Notebook Overview from Stanford
另外请注意,下面教程来源于许多在线资源.所有Notebooks 都归功于作业,你发现没有正确工作,请让我知道,这种情况会尽快纠正.我非常想向Jake VanderPlas, Randal Olson, Donne Martin, Kevin Markham, and Colin Raffel等人致敬.因为他们神奇免费可用的资源(50字好评已给,请返现).
第一个教程从scikit-learn开始,在开始下面步骤之前,我建议先做这些.
scikit-learn库的一般介绍,Python中最常用的机器学习库,涵盖了KNN算法:
An Introduction to scikit-learn by Jake VanderPlas
更深入的介绍,包括知名数据集开始到项目完成:
Example Machine Learning Notebook by Randal Olson
重点放在scikit-learn中不同模型的评估策略,涵盖了训练集/测试集拆分(后面这句话的点没get到呢):
Model Evaluation by Kevin Markham
第五步 python机器学习主题
有了 scikit-learn基础后,我们可以对常见,实用的算法做进一步深入了解.我们从K-means聚类开始,一个广为人知的机器学习算法.解决无监督学习问题一个简单有效的方法:
k-means Clustering by Jake VanderPlas
接下来,我们看看分类问题.了解历史上最流行分类算法之一:
Decision Trees via The Grimm Scientist
让我们看看连续数值预测:
Linear Regression by Jake VanderPlas
我们可以从过Logistic回归解决分类问题:
Logistic Regression by Kevin Markham
第六步 深入python机器学习主题
我们已经开始scikit-learn,现在让我们将注意转向高级主题.首先SVM(支持向量机).一个将复杂数据映射到高维空间的not-necessarily-linear分类
Support Vector Machines by Jake VanderPlas
接下来,随机森林,一个组合分类,通过考察Kaggle Titanic竞赛逐步引导:
Kaggle Titanic Competition (with Random Forests) by Donne Martin
降维是减少正在考虑问题中变量数目的方法.PCA(Principal Component Analysis,主成分分析)是一种非监督的降维方法:
Dimensionality Reduction by Jake VanderPlas
在进入到最后一步之前,我们可以花时间考虑下,我们已经在相对较短的时间内走了很长一段路.
使用Python和它的机器学习库,我们已经介绍一些最常见和总所周知的机器学习算法(K-means,支持向量机,KNN),考察了强大的组合技术(随机森林),研究了支持任务的额外机器学习算法(降维,模型验证技术).随着这些基础的机器学习技巧的学习,我们已经拥有了一些使用的技能.
第七步 python深度学习
深度学习无处不在.深度学习构建与神经网络研究可以追溯到十几年前,但是追溯到过去几年的最新进展显著增加.如果你不熟悉深度学习,KDnuggets有很多文教详细介绍了众多最新创新,成就和令人赞誉的技术.
最后一步并不对深度学习软件分类,介绍2个引领当代Python深度学习库的几个简单的网络实现.对于有兴趣挖掘更深的深度学习者,我建议你先从一下免费书开始:
* Neural Networks and Deep Learning by Michael Nielsen
Theano
Theano是第一个Python深度学习库,按作者的话来说:
Theano是一个python的库,可以让你高效地定义,优化,评估包含多维数据的数学表达式,下面Theano的机器学习入门教程是非常长的,但相当的棒,十分生动:
* Theano Deep Learning Tutorial by Colin Raffel
Caffe
另一个测试执行的库,caffe.同样的:
Caffe是一个带有表达式,速度和模块化的深度学习库.由 Berkeley Vision and Learning Center (BVLC) 和社区贡献者开发.
我们已经介绍了很多有趣的例子,这里再给出一个, 用Caffe实现Google’s #DeepDream.了解了这么多,自己动手放飞梦想吧(另外,关于深度学习的开源软件非常多,更多的可以看的翻译的GitHub深度学习库,你了解多少?)。
Dreaming Deep with Caffe via Google’s GitHub
我没不能保证这个过程会很快或很容易,但如果你把时间按照上面的7个步骤做,没有任何理由,你不能达到合理水平,理解一些机器学习算法并利用Python流行的库实现它,包括一些目前的深度学习研究前沿。
评论
查看更多