0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习这四个东西你知道几个?

倩倩 来源:润森知识 2020-04-15 15:44 次阅读

分类变量特征提取

分类数据的独热编码方法,分类变量特征提取(One-of-K or One-Hot Encoding):通过二进制数来表示每个解释变量的特征

from sklearn.feature_extraction import DictVectorizer

onhot_encoder = DictVectorizer()

instances=[{‘city’:‘New York’},{‘city’:‘San Francisco’},{‘city’:‘Chapel Hill’}]

print (onhot_encoder.fit_transform(instances).toarray())

[[0. 1. 0.]

[0. 0. 1.]

[1. 0. 0.]]

文字特征提取-词库模型

文字模型化最常用方法,可以看成是独热编码的一种扩展,它为每个单词设值一个特征值。依据是用类似单词的文章意思也差不多。可以通过有限的编码信息实现有效的文档分类和检索。

CountVectorizer 类会将文档全部转换成小写,然后将文档词块化(tokenize)。文档词块化是把句子分割成词块(token)或有意义的字母序列的过程。词块大多是单词,但是他们也可能是一些短语,如标点符号和词缀。

CountVectorizer类通过正则表达式用空格分割句子,然后抽取长度大于等于2的字母序列。

from sklearn.feature_extraction.text import CountVectorizer

corpus = [

‘UNC played Duke in basketball’,

‘Duke lost the basketball game’,

‘I ate a sandwich’

vectorizer = CountVectorizer()

print (vectorizer.fit_transform(corpus).todense())

print (vectorizer.vocabulary_)

[[0 1 1 0 1 0 1 0 0 1]

[0 1 1 1 0 1 0 0 1 0]

[1 0 0 0 0 0 0 1 0 0]]

{‘unc’: 9, ‘played’: 6, ‘duke’: 2, ‘in’: 4, ‘basketball’: 1, ‘lost’: 5, ‘the’: 8, ‘game’: 3, ‘ate’: 0, ‘sandwich’: 7}

对比文档的特征向量

对比文档的特征向量,会发现前两个文档相比第三个文档更相似。如果用欧氏距离(Euclidean distance)计算它们的特征向量会比其与第三个文档距离更接近。

两向量的欧氏距离就是两个向量欧氏范数(Euclidean norm)或L2范数差的绝对值:d=||x0-x1||向量的欧氏范数是其元素平方和的平方根:scikit-learn里面的euclidean_distances函数可以计算若干向量的距离,表示两个语义最相似的文档其向量在空间中也是最接近的。

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.metrics.pairwise import euclidean_distances

vectorizer = CountVectorizer()

corpus = [

‘UNC played Duke in basketball’,

‘Duke lost the basketball game’,

‘I ate a sandwich’

counts = vectorizer.fit_transform(corpus).todense()

for x,y in [[0,1],[0,2],[1,2]]:

dist = euclidean_distances(counts[x],counts[y])

print(‘文档{}与文档{}的距离{}’.format(x,y,dist))

文档0与文档1的距离[[2.44948974]]

文档0与文档2的距离[[2.64575131]]

文档1与文档2的距离[[2.64575131]]

图片特征的提取

数字图像通常是一张光栅图或像素图,将颜色映射到网格坐标里。一张图片可以看成是一个每个元素都是颜色值的矩阵。表示图像基本特征就是将矩阵每行连起来变成一个行向量。光学文字识别(Optical character recognition,OCR)是机器学习的经典问题。

scikit-learn的digits数字集包括至少1700种0-9的手写数字图像。每个图像都有8x8像像素构成。每个像素的值是0-16,白色是0,黑色是16。

# 通过像素提取特征值

from sklearn import datasets

import matplotlib.pyplot as plt

digits = datasets.load_digits()

print(‘Digit:’,digits.target[0])

print (digits.images[0])

plt.figure()

plt.axis(‘off’)

plt.imshow(digits.images[0], cmap=plt.cm.gray_r, interpolation=‘nearest’)

plt.show()

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 二进制
    +关注

    关注

    2

    文章

    801

    浏览量

    41779
  • 数字图像
    +关注

    关注

    2

    文章

    119

    浏览量

    18876
  • 编码
    +关注

    关注

    6

    文章

    959

    浏览量

    54982
收藏 人收藏

    评论

    相关推荐

    模数转换电路的四个过程

    模数转换(Analog-to-Digital Conversion,简称ADC)是将模拟信号转换为数字信号的关键过程,广泛应用于通信、数据采集、信号处理等领域。模数转换电路的设计与实现涉及多个关键步骤,通常可以分为四个主要过程:采样、保持、量化和编码。本文将详细分析这四个
    的头像 发表于 02-03 16:12 193次阅读

    ADS1158 MUXOUT、MUXOUTP、ADCINP和ADCINN这四个管脚什么作用呢?

    ADS1158 MUXOUT、MUXOUTP、ADCINP和ADCINN这四个管脚什么作用呢,如果我用单端5V供电,2.5V基准源,是否要按照datasheet里那种用运放的接法吗?
    发表于 01-01 06:39

    智谱推出四个全新端侧模型 携英特尔按下AI普及加速键

    ,GLM-Edge-4B-chat、GLM-Edge-1.5B-chat为端侧大语言模型,GLM-Edge-V-5B、GLM-Edge-V-2B为端侧多模态模型,这四个模型分别具有4.3B/1.5B
    的头像 发表于 12-02 17:13 286次阅读
    智谱推出<b class='flag-5'>四个</b>全新端侧模型 携英特尔按下AI普及加速键

    有两组I2S信号送入到CS48540(DSP)中处理,在这四个IC中是依据什么来设置主从关系的呢?

    如上图所示,有两组I2S 信号(CS8416与PCM1808)送入到CS48540(DSP)中处理,在这四个IC中是依据什么来设置主从关系的呢?谢谢!
    发表于 11-04 06:47

    用PPS编译生成了一.h文件,文件里头的接口段代码{44,28,0,0}这四个数字分别代表什么意思啊?

    VOLUME_control_names[] = { \"Volume_1\" }; 我想问的是{44,28,0,0}这四个数字分别代表什么意思啊?还请大家指教,不胜感激~!
    发表于 10-30 06:37

    使用OPA180运放构建差分放大器,如何确定四个电阻的大小?

    我目前打算使用OPA180运放构建差分放大器。如下图所示 如果我的放大倍数取0.4,那么取R1=R2=300K,RF=RG=120K,和R1=R2=30K,RF=RG=12K这两选取哪一组比较好。或者有什么方法可以用来确定这四个电阻的大小。谢谢!
    发表于 08-16 12:36

    IGBT的四个主要参数

    IGBT的四个主要参数对于选择合适的IGBT器件至关重要。本文将介绍IGBT的四个主要参数:电压等级、电流等级、开关频率和热性能。 1. 电压等级 电压等级是IGBT的一重要参数,它决定了IGBT能够承受的最大电压。电压等级的
    的头像 发表于 07-25 11:05 4644次阅读

    四个2输入异或门数据表

    电子发烧友网站提供《四个2输入异或门数据表.pdf》资料免费下载
    发表于 05-22 09:58 0次下载
    <b class='flag-5'>四个</b>2输入异或门数据表

    四个2输入正极和栅极数据表

    电子发烧友网站提供《四个2输入正极和栅极数据表.pdf》资料免费下载
    发表于 05-17 10:28 0次下载
    <b class='flag-5'>四个</b>2输入正极和栅极数据表

    四个2输入正极和栅极数据表

    电子发烧友网站提供《四个2输入正极和栅极数据表.pdf》资料免费下载
    发表于 05-16 10:22 0次下载
    <b class='flag-5'>四个</b>2输入正极和栅极数据表

    四个2输入异或门数据表

    电子发烧友网站提供《四个2输入异或门数据表.pdf》资料免费下载
    发表于 05-13 11:04 0次下载
    <b class='flag-5'>四个</b>2输入异或门数据表

    四个2输入正极和栅极数据表

    电子发烧友网站提供《四个2输入正极和栅极数据表.pdf》资料免费下载
    发表于 05-10 10:10 0次下载
    <b class='flag-5'>四个</b>2输入正极和栅极数据表

    为什么UM0424的FS-USB的库文件里面丢失了几个文件?

    在V3.3的版本里面有以下几个文件: otgd_fs_cal.c otgd_fs_dev.c otgd_fs_pcd.c otgd_fs_int.c 以及对应的.h文件。 但是升级到V4.0.0的版本后,这四个文件以及对应的.h文件都去掉了。
    发表于 05-07 07:55

    半导体发展的四个时代

    台积电的 Suk Lee 发表了题为“摩尔定律和半导体行业的第四个时代”的主题演讲。Suk Lee表示,任何试图从半导体行业传奇而动荡的历史中发掘出一些意义的事情都会引起我的注意。正如台积电所解释
    发表于 03-27 16:17

    电容6大特性参数,知道几个

    硬件设计好不好,电容参数知多少? 原文整理自书籍《硬件设计指南》 电容是我们电子电路设计中最常用的元件之一,除了基本的电容容值之外,电容还有其他6大参数,知道几个呢?本文章介绍MLCC陶瓷电容6
    的头像 发表于 02-21 15:10 1326次阅读
    电容6大特性参数,<b class='flag-5'>你</b><b class='flag-5'>知道</b><b class='flag-5'>几个</b>?