近几年,机器学习迎来了前所未有的大爆发,几乎随处可见。今天就来介绍一下如何在线构建共享机器学习模型。
Jupyternotebooks是用来建立机器学习模型最常见的环境之一,它是本地开发机器学习的好工具,但也有缺点,它很难在生成代码上共享与协作。
你不得不进行一系列合理设置,非python用户尤甚,包括需要设置python环境,安装Jupyter及其依赖项以及可能需要的其他python软件包。
有点麻烦?有的工具可以直接在浏览器中运行开发notebooks中的python代码。本文就将介绍两个这样的工具。
GoogleColaboratory
Google Colaboratory,通常被称为colab,由谷歌开发,允许所有人在浏览器中创建并运行python代码。其内置许多标准机器学习和数据科学库,包括pandas和scikit-learn,还可以安装几乎其他所有python库,以便在每个notebook中使用。
若想访问colab需注册谷歌账户,可免费访问notebook环境和计算资源,包括GPU。
来快速演示一遍:
登录谷歌帐户后,进入谷歌云盘(Google drive)并选择新的Google Colaboratory。
这样就新建了一个空白notebook。
可以通过运行pip freeze 来查看预安装软件包。
如果需要安装尚无法获取的软件包,可以通过运行 pip install package来完成。
导入数据有许多种方法,包括直接从谷歌云盘中加载文件。
那么怎样从本地CSV文件导入数据呢?
首先运行此代码。
from google.colab importfilesuploaded = files.upload()
然后就能看到一个按钮,可以从本地系统任意位置选择文件。
现在就可以自由编写代码来创建机器学习模型。
Googlecolab notebooks可以通过链接共享,类似于谷歌文档共享,链接接收者可以运行并编辑代码。
Kaggle kernels
Kagglekernels需要注册账户,但也是完全免费使用。与Googlecolab notebooks非常相似,不过其特有优点是可以进行版本控制。
一旦创建好帐户,就可以导航到网站的kernels区域,然后选择新的Notebook。
与colab类似,Kaggle kernels提供了许多python常用标准库,可以通过使用pip freeze查看。在导入其他库方面也采用了与colab完全相同的方法,安装软件包也如此。
加载数据非常简单。首先,选择文件(File),然后选择添加或上传数据(Add orupload data)。
现在会看到一些选项,可以使用Kaggle数据集(Datasets)、kernel输出文件(Kernel Output Files)或上传到本地CSV文件。
前面说到Kaggle有内置版本控制,也就是说可以向自己的kernel或其他人的kernel提交更改,并在需要时追踪并恢复到以前的版本,这样有利于协同合作。
笔者经常使用浏览器中的notebooks来展示工作,特别是那些不会使用Jupyter Notebooks或Python的非数据科学家。这两种工具也是了解机器学习和数据科学的好方法,而且不需要大费周折在本地设置python和notebook环境。
-
Google
+关注
关注
5文章
1762浏览量
57473 -
机器学习
+关注
关注
66文章
8393浏览量
132512
发布评论请先 登录
相关推荐
评论