知识点离散数据的处理
若数据存在“序”关系则连续化,如:
离散 | 连续 |
高/m | 高 |
10 | 1 |
5 | 0.5 |
1 | 0 |
否则,转为K维向量代码可见本实例中的Pd.get_dummies(X['state'])。但要注意虚拟变量,例如“性别”变量,可虚拟出“男”和”女”两个变量,
男 | 1 | 0 |
女 | 0 | 1 |
这里所说的虚拟变量陷阱是两个或多个变量高度相关的情况,简单地说,一个变量可以从其他变量中预测出来,那么这里就有一个重复的类别,可以去掉一个变量,节约内存计算机内存空间,减少计算量。
本实例用的数据集是50_Startups.csv,
代码如下:
importnumpyasnp pipinstallmatplotlib importmatplotlib.pyplotasplt importpandasaspd dataset=pd.read_csv("D:/python/50.csv") X=dataset.iloc[:,0:4]#0到3列的所有行数据(共4列) X["State"].unique() y=dataset.iloc[:,4]#第5列的所有行数据 pd.get_dummies(X['State'])#离散数据转为K维向量 statesdump=pd.get_dummies(X['State'],drop_first=True)#去掉X['State']的第一列数据(减少虚拟变量) X=X.drop('State',axis=1) X=pd.concat([X,statesdump],axis=1) from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=0) x_train #引入线性回归模型拟合训练集 from sklearn.linear_model import LinearRegression regressor=LinearRegression() model=regressor.fit(x_train,y_train) #预测测试集的结果 y_predict=regressor.predict(x_test) from sklearn.metrics import r2_score# score1=r2_score(y_test,y_predict) model.coef_#多元函数的系数 model.intercept_#函数的截距 model.score(X,y)
审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
向量机
+关注
关注
0文章
166浏览量
20873 -
虚拟机
+关注
关注
1文章
914浏览量
28160 -
机器学习
+关注
关注
66文章
8406浏览量
132563 -
python
+关注
关注
56文章
4792浏览量
84627 -
线性回归
+关注
关注
0文章
41浏览量
4306
原文标题:机器学习-多元线性回归数据集(50_Startups.csv)及代码实现
文章出处:【微信号:智行RFID,微信公众号:智行RFID】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
回归算法有哪些,常用回归算法(3种)详解
因变量和自变量之间的关系实现对数据的预测。例如,对房价估计时,需要确定房屋面积(自变量)与其价格(因变量)之间的关系,可以利用这一关系来预测给定面积的房屋的价格。可以有多个影响因变量的自变量。因此,回归
发表于 07-28 14:36
TensorFlow csv文件读取数据(代码实现)详解
大多数人了解 Pandas 及其在处理大数据文件方面的实用性。TensorFlow 提供了读取这种文件的方法。前面章节中,介绍了如何在 TensorFlow 中读取文件,本节将重点介绍如何从 CSV
发表于 07-28 14:40
TensorFlow逻辑回归处理MNIST数据集
本节基于回归学习对 MNIST 数据集进行处理,但将添加一些 TensorBoard 总结以便更好地理解 MNIST 数据集。MNIST由h
发表于 08-11 19:36
TensorFlow逻辑回归处理MNIST数据集
本节基于回归学习对 MNIST 数据集进行处理,但将添加一些 TensorBoard 总结以便更好地理解 MNIST 数据集。MNIST由h
发表于 08-11 19:36
使用PyMC3包实现贝叶斯线性回归
1、如何使用PyMC3包实现贝叶斯线性回归 PyMC3(现在简称为PyMC)是一个贝叶斯建模包,它使数据科学家能够轻松地进行贝叶斯推断。 PyMC3采用马尔可夫链蒙特卡罗(MCMC
发表于 10-08 15:59
基于Weierstrass逼近定理在非线性回归模型中应用
基于Weierstrass逼近定理,阐释了将一般非线性回归模型近似为多项式模型来处理的数学原理,从而引入了把多元非线性回归分析转化为多元线性
发表于 01-12 09:59
•0次下载
评论