十三个框架助你掌握机器学习
Apache Spark MLlib
Apache Spark 最为人所知的是它是Hadoop家族的一员,但是这个内存数据处理框架却是脱胎于Hadoop之外,也正在Hadoop生态系统以外为自己获得了名声。Hadoop 已经成为可供使用的机器学习工具,这得益于其不断增长的算法库,这些算法可以高速度应用于内存中的数据。。
早期版本的Spark 增强了对MLib的支持,MLib是主要面向数学和统计用户的平台,它允许 通过持久化管道特性将Spark机器学习工作挂起和恢复。2016年发布的Spark2.0,对Tungsten高速内存管理系统和新的DataFrames流媒体API 进行了改进,这两点都会提升机器学习应用的性能。
H2O
H2O,现在已经发展到第三版,可以提供通过普通开发环境(Python, Java, Scala, R)、大数据系统(Hadoop, Spark)以及数据源(HDFS, S3, SQL, NoSQL)访问机器学习算法的途径。H2O是用于数据收集、模型构建以及服务预测的端对端解决方案。例如,可以将模型导出为Java代码,这样就可以在很多平台和环境中进行预测。
H2O可以作为原生Python库,或者是通过Jupyter Notebook, 或者是 R Studio中的R 语言来工作。这个平台也包含一个开源的、基于web的、在H2O中称为Flow的环境,它支持在训练过程中与数据集进行交互,而不只是在训练前或者训练后。
Apache Singa
“深度学习”框架增强了重任务类型机器学习的功能,如自然语言处理和图像识别。Singa是一个Apache的孵化器项目,也是一个开源框架,作用是使在大规模数据集上训练深度学习模型变得更简单。
Singa提供了一个简单的编程模型,用于在机器群集上训练深度学习网络,它支持很多普通类型的训练工作:卷积神经网络,受限玻尔兹曼机 以及循环神经网络。 模型可以同步训练(一个接一个)或者也异步(一起)训练,也可以允许在在CPU和GPU群集上,很快也会支持FPGA。Singa也通过Apache Zookeeper简化了群集的设置。
Caffe2
深度学习框架Caffe开发时秉承的理念是“表达、速度和模块化”,最初是源于2013年的机器视觉项目,此后,Caffe还得到扩展吸收了其他的应用,如语音和多媒体。
因为速度放在优先位置 ,所以Caffe完全用C+ +实现,并且支持CUDA加速,而且根据需要可以在CPU和GPU处理间进行切换。分发内容包括免费的用于普通分类任务的开源参考模型,以及其他由Caffe用户社区创造和分享的模型。
一个新的由Facebook 支持的Caffe迭代版本称为Caffe2,现在正在开发过程中,即将进行1.0发布。其目标是为了简化分布式训练和移动部署,提供对于诸如FPGA等新类型硬件的支持,并且利用先进的如16位浮点数训练的特性。
Google的TensorFlow
与微软的DMTK很类似,Google TensorFlow是一个机器学习框架,旨在跨多个节点进行扩展。 就像Google的 Kubernetes一样,它是是为了解决google内部的问题而设计的,google最终还是把它作为开源产品发布出来。
TensorFlow实现了所谓的数据流图,其中的批量数据(“tensors”)可以通过图描述的一系列算法进行处理。系统中数据的移动称为“流”-其名也因此得来。这些图可以通过C++或者Python实现并且可以在CPU和GPU上进行处理。
TensorFlow近来的升级提高了与Python的兼容性,改进了GPU操作,也为TensorFlow能够运行在更多种类的硬件上打开了方便之门,并且扩展了内置的分类和回归工具库。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%