统计机器学习方法：基于HMM的中文词性标注

前言

最近在重刷李航老师的《统计机器学习方法》尝试将其与NLP结合，通过具体的NLP应用场景，强化对书中公式的理解，最终形成「统计机器学习方法 for NLP」的系列。这篇将介绍隐马尔可夫模型HMM（「绝对给你一次讲明白」）并基于HMM完成一个中文词性标注的任务。

HMM是什么

「隐马尔可夫模型（Hidden Markov Model, HMM)」 是做NLP的同学绕不过去的一个基础模型, 是一个生成式模型, 通过训练数据学习隐变量和观测变量的联合概率分布。

HMM具有「两个基本假设」：

齐次马尔可夫性假设：时刻的隐变量只跟前一个时刻的隐变量有关

观测独立性: 任意时刻的观测变量只与该时刻的隐变量有关。所以可以构成下面一个有向图, 从而可以分解成图上边的概率乘积。

「训练阶段」：通过对训练数据进行极大似然估计, 得到HMM模型的参数：初始概率向量 (对应图中的 )，隐变量之间的转移概率矩阵 (对应图中的，隐变量到观测变量之前的转移概率矩阵 ((对应图中的。

「预测阶段」: 给定观测变量，解出使概率最大的隐变量。因为HMM是一个生成模型, 所以模型在预测阶段需要从全部可能的隐变量中找到使得最大的那个。然而假设步长为 , 对于每一步，隐变量可能的取值有个, 那么全部可能的隐变量个数为 , 这是一个指数级的时间复杂度,穷举肯定是不现实的。所以就引入了维特比算法(Viterbi algorithm)进行剪枝。

维特比算法的简单的说就是「提前终止了不可能路径」。具体而言, 在每一步遍历全部的个节点,对于每一个节点继续遍历可能来源于上一步的个节点, 只保留上一步 () 个节点中概率最大的路径, 裁剪其余的条路径。所以时间复杂度降低到 , 相比指数级的暴力枚举, 这是可接受的。

值得注意的是现在在深度学习在解码阶段基本不用「维特比算法」解码而更多的是使用「beam search」解码。这是因为「维特比算法」需要一个很强的假设：当前节点只与上一个点有关, 这也正是齐次马尔可夫性假设, 所以路径整体概率才可以表示成各个子路径相乘的形式。但是深度学习时代的解码则不满足这个假设, 即, 而需要整体考虑, 所以beam search始终保留「整体最优」的个结果。

基于HMM的词性标注

词性标注是指给定一句话(已经完成了分词)，给这个句子中的每个词标记上词性，例如名词，动词，形容词等。这是一项最基础的NLP任务，可以给很多高级的NLP任务例如信息抽取，语音识别等提供有用的先验信息。

这个任务中我们认为隐变量是词性(名词，动词等)，观测变量是中文的词语，需要进行的建模。

下面将分为：「数据处理，模型训练，模型预测」 三个部分来介绍如果利用HMM实现词性标注

数据处理

这里采用「1998人民日报词性标注语料库」进行模型的训练，包括44个基本词性以及19484个句子。具体可以参考这里：https://www.heywhale.com/mw/dataset/5ce7983cd10470002b334de3

PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的，严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记（名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w）外，从语料库应用的角度，增加了专有名词（人名nr、地名ns、机构名称nt、其他专有名词nz）；从语言学角度也增加了一些标记，总共使用了40多个个标记。

2. 模型训练

根据数据估计HMM的模型参数：全部的词性集合，全部的词集合，初始概率向量，词性到词性的转移矩阵，词性到词的转移矩阵。这里直接采用频率估计概率的方法，但是对于会存在大量的0，所以需要进一步采用「拉普拉斯平滑处理」。

# 统计words和tags
words = set()
tags = set()
for words_with_tag in sentences:
    for word_with_tag in words_with_tag:
        word, tag = word_with_tag
        words.add(word)
        tags.add(tag)
words = list(words)
tags = list(tags)
# 统计 词性到词性转移矩阵A 词性到词转移矩阵B 初始向量pi
# 先初始化
A = {tag: {tag: 0 for tag in tags} for tag in tags}
B = {tag: {word: 0 for word in words} for tag in tags}
pi = {tag: 0 for tag in tags}
# 统计A，B
for words_with_tag in sentences:
    head_word, head_tag = words_with_tag[0]
    pi[head_tag] += 1
    B[head_tag][head_word] += 1
    for i in range(1, len(words_with_tag)):
        A[words_with_tag[i-1][1]][words_with_tag[i][1]] += 1
        B[words_with_tag[i][1]][words_with_tag[i][0]] += 1
# 拉普拉斯平滑处理并转换成概率
sum_pi_tag = sum(pi.values())
for tag in tags:
    pi[tag] = (pi[tag] + 1) / (sum_pi_tag + len(tags))
    sum_A_tag = sum(A[tag].values())
    sum_B_tag = sum(B[tag].values())
    for next_tag in tags:
        A[tag][next_tag] = (A[tag][next_tag] + 1) / (sum_A_tag + len(tags))
    for word in words:
        B[tag][word] = (B[tag][word] + 1) / (sum_B_tag + len(words))

看一下词性转移矩阵

3. 模型预测

在预测阶段基于维特比算法进行解码

def decode_by_viterbi(sentence):
    words = sentence.split()
    sen_length = len(words)
    T1 = [{tag: float('-inf') for tag in tags} for i in range(sen_length)]
    T2 = [{tag: None for tag in tags} for i in range(sen_length)]
    # 先进行第一步
    for tag in tags:
        T1[0][tag] = math.log(pi[tag]) + math.log(B[tag][words[0]])
    # 继续后续解码
    for i in range(1, sen_length):
        for tag in tags:
            for pre_tag in tags:
                current_prob = T1[i-1][pre_tag] + math.log(A[pre_tag][tag]) + math.log(B[tag][words[i]])
                if current_prob > T1[i][tag]:
                    T1[i][tag] = current_prob
                    T2[i][tag] = pre_tag
    # 获取最后一步的解码结果
    last_step_result = [(tag, prob) for tag, prob in T1[sen_length-1].items()]
    last_step_result.sort(key=lambda x: -1*x[1])
    last_step_tag = last_step_result[0][0]
    # 向前解码
    step = sen_length - 1
    result = [last_step_tag]
    while step > 0:
        last_step_tag = T2[step][last_step_tag]
        result.append(last_step_tag)
        step -= 1
    result.reverse()
    return list(zip(words, result))

最后进行简单的测试

decode_by_viterbi('我 和 我 的 祖国')
[('我', 'r/代词'), 
 ('和', 'c/连词'), 
 ('我', 'r'/代词), 
 ('的', 'u'/助词), 
 ('祖国', 'n'/名词)]

decode_by_viterbi('中国 经济 迅速 发展 ， 对 世界 经济 贡献 很 大') 
[('中国', 'ns/地名'),
 ('经济', 'n/名词'),
 ('迅速', 'ad/形容词'),
 ('发展', 'v/动词'),
 ('，', 'w/其他'),
 ('对', 'p/介词'),
 ('世界', 'n/名词'),
 ('经济', 'n/名词'),
 ('贡献', 'n/名词'),
 ('很', 'd'/副词),
 ('大', 'a'/形容词)]

可以看到基本都是正确的，根据文献HMM一般中文词性标注的准确率能够达到85%以上 :)

当然「HMM的缺陷也很明显」，主要是两个强假设在实际中是不成立的。因为隐变量不仅仅跟前一个状态的隐变量有关（跟之前全部的隐藏变量和观测变量有关），同时当前观测变量也不仅仅跟当前的隐变量有关（跟之前全部的隐藏变量和观测变量有关），这也是后面深度学习中RNN等模型尝试解决的问题了。

编辑：黄飞

阅读全文

HMM(9856) HMM(9856)
机器学习(130423) 机器学习(130423)
nlp(21784) nlp(21784)

中文分词研究难点-词语切分和语言规范

学习模型学习词语切分的规律（称为训练），从而实现对未知文本的切分。随着大规模语料库的建立，统计机器学习方法的研究和发展，基于统计的中文分词方法渐渐成为了主流方法。中文分词的研究难点中文分词难点主要体现在

2019-09-04 17:39:58

机器学习分类算法之支持向量机SVM

统计学习方法C++实现之六支持向量机（SVM）

2019-04-29 10:47:58

机器学习对中文的理解

机器学习基础教程实践(一)——中文的向量化

2019-08-27 14:19:29

统计的学习方法

统计学习方法感知机

2020-07-15 10:33:49

统计学习方法数据挖掘

统计学习方法C1概论

2019-10-29 09:12:28

FPGA学习方法及发展方向

FPGA学习快一年了，感觉达到了一定的瓶颈，没人带，自学很吃力，现在只会简单地做一些小东西，想更加系统的学习一下FPGA将来从事FPGA有没有好的学习方法或者发展方向什么的？求不吝赐教。

2015-11-24 17:58:14

FPGA技术的学习方法

。那么究竟如何才能高效学习好FPGA技术呢？本期邀请到的FPGA专家梅雪松，将为大家解答FPGA有效学习方法。专家观点：学习FPGA技术，或者不仅局限于FPGA，学习任何一个新技术只要运用科学

2017-01-11 13:58:34

FPGA新手求推荐书籍，学习方法

由于自己基础差，之前接触的电子方面的东西也比较少，现在学习FPGA，求大婶推荐学习方法及书籍！！！

2013-12-23 12:59:49

HanLP分词命名实体提取详解

参考 HanLP词性标注集招中标项目文本样式多变、内容复杂，我们无法直接定位文本中的某一位置来提取实体。小编采用基于统计和基于规则相融合的机器学习方法。首先，统计这些实体出现的前后文单词和词性，并考虑

2019-01-11 14:32:15

Hanlp分词之CRF中文词法分析详解

;);System.out.println(wordList);不传入模型路径时将默认加载配置文件指定的模型。词性标注CRF词性标注器的训练与加载与中文分词类似，对应CRFPOSTagger。命名实体识别CRF命名实体识别也是类似的用法

2019-02-18 15:28:50

Hanlp等七种优秀的开源中文分词库推荐

：l索引全切分模式l用户自定义词典l兼容繁体中文l训练用户自己的领域模型l 词性标注lHMM词性标注（速度快）l感知机词性标注、CRF词性标注（精度高）l 命名实体识别l基于HMM角色标注的命名实体识别

2018-10-12 11:23:25

Linux建议的学习方法

宋宝华：迭代螺旋法——关于Linux学习方法的血泪建议

2020-04-15 11:38:59

Linux的学习方法及学习注意事项介绍

结合自己的几年的个人开发经验，及对 Linux，更是类UNIX系统，及开源软件文化，谈谈Linux的学习方法与学习中应该注意的一些事。

2019-07-15 06:01:54

MCU的学习方法

刚才在q群上有人发表了关于MCU的学习方法，在此分享下，看规格书（datasheet、errata sheet），看懂了，背熟了，看原理图，理解了，看例子程序，理解透了，修改，开始自己写程序，不知大家有没有其他方法，可以在此分享下。

2013-05-23 10:01:52

Python NLTK学习方法

Python NLTK学习5（词性标注）

2020-05-29 10:39:56

STM32的学习方法

STM32学习方法

2023-09-28 06:18:03

STM32的学习方法分享？

STM32的学习方法

2020-08-14 04:00:51

arm单片机学习方法

大家给推荐下 arm 学习方法

2012-03-30 09:10:09

dsp 的学习方法收集：如何学习dsp

最近把dsp的本科教材《dsp原理及应用》学习完了，也重新复习了一下信号与系统予数字信号处理。不晓得如何继续深入下去，毕竟手边没有实践机会。在网上找了一些dsp的学习方法，收录于此。百度知道中看

2012-03-01 13:55:18

labview有什么比较好的学习方法，求赐教？

labview有什么比较好的学习方法，求赐教？感谢大家分享。

2013-04-15 14:47:55

linux 新手入门求助，求各位好友推介好的资料和学习方法

linux 新手入门求助，求各位好友推介好的资料和学习方法，本人跪谢{:12:}

2014-03-13 23:29:37

stm32学习方法以及资料

2016-11-30 11:42:50

stm32学习方法及资料

这学习stm32的是越来越多，但是没有学习方法的话还真不好学，一看一懵，还在努力的学友们加油努力，迈过这个坎我弄了几个视频的资具体是哪的我就就说了避嫌省的给人家做了广告！就不好了

2018-11-09 13:20:39

【下载】《机器学习》+《机器学习实战》

读者, 本书附录给出了一些相关数学基础知识简介.目录：全书共16 章，大致分为3 个部分：第1 部分（第1～3 章）介绍机器学习的基础知识；第2 部分（第4～10 章）讨论一些经典而常用的机器学习方法

2017-06-01 15:49:24

【卡酷机器人】——基础学习方法

`` 这里和大伙儿讲解一下卡酷机器人基础学习方法，如果有错误，欢迎大家指点哟。``

2015-01-09 18:01:34

关于STM32的学习方法

分享一下自己的学习思路，是关于我的STM32的学习方法，以STM32硬件编程思想为例第一点：编程首先应该清楚的是“需要什么”。需求包括①上级（自己）开出的要求、条件。②硬件应实现的功能。③是否符合

2021-08-11 06:55:59

初学STM32是否有推荐的学习方法、教程和开发板

大家好，本人只学过AVR单片机，对C语言没有学过，想学习一下STM32，是否有推荐的学习方法、教程和开发板！非常感谢

2018-09-14 09:40:27

单片机学习方法和步骤相关资料推荐

学习单片机的动机不外乎有四种：一是为兴趣爱好而学，二是为专业而学；三是为饭碗而学；四是在工作中被逼而学。不管是哪种动机，因主修专业的不同以及电子基础的深浅不同，对于不同的人可能采用不同的学习方法

2021-11-22 08:31:58

单片机的学习方法和步骤

2021-07-15 09:11:11

单片机的学习方法和步骤

不同的学习方法，根据笔者的亲身学习经验，提出笔者的学习方法和步骤。Part 1 基础理论知识学习基础理论知识包括模拟电路、数字电路和C语言知识。模拟电路和数字电路属于抽象学科，要把它学好还得费点精神。在你

2021-11-30 06:38:31

基于CRF序列标注的中文依存句法分析器的Java实现

速度翻了一倍，达到了1262.8655 sent/s开源项目本文代码已集成到HanLP中开源项目中，最新hanlp1.7版本已经发布CRF简介CRF是序列标注场景中常用的模型，比HMM能利用更多的特征

2019-01-16 14:21:03

基于结构化平均感知机的分词器Java实现

的讲义《The Structured Perceptron》。本文实现的AP分词器预测是整个句子的BMES标注序列，当然属于结构化预测问题了。感知机二分类感知机的基础形式如《统计学习方法》所述，是定义在

2019-01-14 11:15:41

基于结构化感知机的词性标注与命名实体识别框架

`上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具Hanlp基于感知机的中文分词框架》，本篇接上一篇内容，继续分享词性标注与命名实体识别框架的内容。词性标注训练词性标注是分词后紧接着

2019-04-08 14:57:23

嵌入式ARM+Linux的学习方法是什么？

ARM菜鸟跪求嵌入式ARM+Linux的学习方法是什么？学习嵌入式ARM+linux有什么方法么？学习路线是什么？路过的朋友可否简单说下？

2020-07-16 08:09:29

嵌入式Linux学习方法

2012-08-20 15:26:55

嵌入式开发板的学习方法

本文转自：http://www.topeetboard.com 嵌入式知识体系庞大，下面介绍并了解嵌入式开发的体系及学习方法，学习嵌入式开发需要有很好的指引，也就是方法，嵌入式开发学习必须掌握方法

2016-03-30 17:21:43

嵌入式系统学习方法

很多新手都问过嵌入式系统学习方法，好的学习方法可以事半功倍，学习嵌入式系统，掌握了好的学习方法，自然可以水到渠成。本篇文章就来说说嵌入式系统学习方法，新手必看哦!　　第一，学习基本的裸机编程　　对于

2021-12-17 06:42:07

快速的学习方法?

有老师跟我说学习方法,直接从模块化电路一个一个的学,不明白的再看电路基础的相关章节,这样好吗?有没有具体有哪些模块,求详细说下,,或有其他快速学习的方法.请指点下.

2016-06-25 22:28:08

文本信息抽取的分阶段详细介绍

文本信息抽取作为监督学习的一项具体运用。文本信息抽取可以分为两个阶段：学习阶段和抽取阶段。其过程如下图所示：学习阶段，首先有一些带标注的数据集，每一个样本包含文字单元序列和标注序列组成，机器学子

2019-09-16 15:03:58

最简单的电路图学习方法

最简单的电路图学习方法

2013-06-18 10:59:01

求128单片机学习方法

求128单片机学习方法

2013-01-06 22:38:17

求大神分享esp8266的一些学习方法与笔记

求大神分享esp8266的一些学习方法与笔记

2021-09-28 09:14:17

目前常用的自然语言处理开源项目/开发包大汇总

的中文词法分析工具包，具有中文分词和词性标注功能。开发语言：网址：THULAC：一个高效的中文词法分析工具包开发机构：清华大学自然语言处理与社会人文计算实验室协议：研究目的免费开放源代码，商用目的需洽谈

2018-11-26 10:31:45

自然语言处理技术介绍

实体识别也可以看做是标注问题，因此可以采用HMM、CRF等进行模型的训练。基于统计的命名实体识别需要基于分词、词性标注等技术。命名实体可以有多种分类方法，ACE08评测计划里定义了五大类实体类型：设施

2018-09-27 09:57:14

自然语言处理的词性标注方法

自然语言处理——78 词性标注方法

2020-04-21 11:38:38

萌新求助，求大佬分享单片机学习方法

萌新求助，求大佬分享单片机学习方法

2021-11-08 08:36:47

计算机视觉应用深度学习

怎样从传统机器学习方法过渡到深度学习？

2021-10-14 06:51:23

请教STM32开发板的学习方法

请教STM32开发板的学习方法，请教快速高效的方法

2019-04-22 06:35:06

请问STM32单片机的学习方法有哪些？

请问STM32单片机的学习方法有哪些？

2021-10-26 06:59:15

集成学习和Boosting提升方法

李航《统计学习方法》——第八章Boosting提升方法【补充集成学习】+习题答案

2019-06-05 09:49:28

模拟电子电路的学习方法

模拟电子电路的学习方法

2009-08-07 15:49:55

252

基于无向图序列标注模型的中文分词词性标注一体化系统

在中文词法分析中，分词是词性标注必须经历的阶段。为了能在分词阶段就充分利用词性标注的信息和减少两阶段错误的累计，最好的方法是将两个阶段，整合到一个架构中。该文

2010-03-06 11:22:46

嵌入式linux学习方法总结

嵌入式linux学习方法总结嵌入式linux的学习现在挺流行

2008-09-10 10:44:57

3442

电子技术自学的学习方法

电子技术自学的学习方法人的一生中使用自立学习法的时间最长，自己看书、自己动手就是自立学习法。1．具备基本条件事半功倍为了高效率运用自

2009-04-07 09:34:54

25033

第1章 ZigBee简介和学习方法

ZigBee简介和学习方法很适合入门级别的人学习。

2015-12-07 18:36:58

[学习嵌入式]嵌入式系统学习方法，轻松入门嵌入式

[学习嵌入式]嵌入式系统学习方法，轻松入门嵌入式。

2016-03-28 15:29:21

ZigBee 简介和学习方法

zigbee简介以及学习方法，ZigBee的历史发展前景。

2016-04-15 14:07:57

AVR单片机学习方法详解

详细介绍AVR单片机学习方法，很适合初学者！

2016-05-16 17:15:25

专栏 | 深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统

从分词、词性等基础模块，到机器翻译、知识问答等领域，本文列举并分析一些深度学习在 NLP 领域的具体运用，希望对大家研究深度学习和 NLP 有所帮助。

2017-08-18 17:06:58

7295

基于表示学习方法的中文分词系统

为提高中文分词的准确率和未登录词（ OOV）识别率，提出了一种基于字表示学习方法的中文分词系统。首先使用Skip-gram模型将文本中的词映射为高维向量空间中的向量；其次用K-means聚类算法

2017-12-11 14:35:57

模型驱动深度学习的标准流程与学习方法解析

模型驱动的深度学习方法近年来，深度学习在人工智能领域一系列困难问题上取得了突破性成功应用。

2018-01-24 11:30:13

4608

深度解析机器学习三类学习方法

在机器学习(Machine learning)领域。主要有三类不同的学习方法：监督学习(Supervised learning)、非监督学习(Unsupervised learning)、半监督学习(Semi-supervised learning)。

2018-05-07 09:09:01

13404

《机器学习与数据挖掘：方法和应用》

和应用》的介绍及下载地址赞助本站《机器学习与数据挖掘：方法和应用》分为5个部分，共18章，较为全面地介绍了机器学习的基本概念，并讨论了数据挖掘和知识发现中的有关问题及多策略学习方法，具体地阐述了机器学习与数据挖掘在工程设计，文本、图像和音乐，网页分析、计算机病毒和

2018-06-27 18:38:01

639

机器学习心得总结

接触机器学习有一年了，是从上张敏老师的课开始的。后来师兄推荐了一本《统计学习理论的本质》，还记得第一印象觉得“统计”二字很奇怪。之后就渐渐习以为常了，接触到的机器学习方法都是基于统计的，以至于统计学习与机器学习成了一个概念，以至于最近看了一些东西突然觉得自己长见识了。

2018-07-07 09:40:00

12722

《统计学习方法》李航详细电子教材免费下载

详细介绍支持向量机、Boosting、最大熵、条件随机场等十个统计学习方法。

2018-08-22 17:55:15

如何学好机器学习？机器学习的学习方法4个关键点整理概述

。对于想要了解或从事AI行业工作的小伙伴们来说，能够快速、深入的掌握机器学习相关知识显得尤为重要，小编给大家整理机器学习的学习方法。

2018-09-24 19:29:00

5867

基于隐马尔科夫模型和卷积神经网络的图像标注方法

开发大规模图像库的搜索和浏览算法，使得图像自动标注的重要性日益增强。基于隐马尔科夫模型（HMM）与卷积神经网络（CNN），我们提出了一种新的图像标注方法HMM + CNN。首先，训练一个多标签学习

2018-11-16 17:17:18

机器学习入门宝典《统计学习方法》的介绍

《统计学习方法》可以说是机器学习的入门宝典，许多机器学习培训班、互联网企业的面试、笔试题目，很多都参考这本书。本文根据网上资料用python复现了课程内容，并提供本书的代码实现、课件及电子书下载。

2018-11-25 09:24:13

4250

谷歌推出基于机器学习的图像标注方式

近日，谷歌公司推出了一款新型图像标注方式 “流体标注”，即采用机器学习来注释分类标签并勾勒出图片中的每个对象和背景区域。谷歌表示其可将标记数据集的速度提高3倍。

2018-11-27 15:36:19

3503

面向人工智能的机器学习方法体系总结

此处梳理出面向人工智能的机器学习方法体系，主要体现机器学习方法和逻辑关系，理清机器学习脉络，后续文章会针对机器学习系列讲解算法原理和实战。抱着一颗严谨学习之心，有不当之处欢迎斧正。

2018-12-17 15:10:22

3095

如何使用纹理信息进行室内场景语义标注的学习方法资料说明

针对目前室内场景视频中关键物体的检测、跟踪及信息编辑等方面主要是采用人工处理方式，存在效率低、精度不高等问题，提出了一种基于纹理信息的室内场景语义标注学习方法。首先，采用光流方法获取视频帧间的运动

2018-12-19 17:08:42

区块链数据集有怎样的机器学习方法

区块链数据集提供了一个与加密货币资产行为相关的独特的数据宇宙，因此，为机器学习方法的应用提供了独特的机会。

2019-11-26 09:49:14

758

如何使用机器学习来分析区块链数据集

区块链数据集提供了一个与加密货币资产行为相关的独特的数据宇宙，因此，为机器学习方法的应用提供了独特的机会。然而，区块链数据集的性质和结构给机器学习方法带来了独特的挑战。

2019-11-26 11:38:52

1600

随着人工智能的落地自动化机器学习方法AutoML应运而生

随着概念的普及，科技公司对人工智能的要求越来越高，成本、准确度、效率都影响着人工智能能否落地融入日常的使用中。对人工智能应用的快速增长也进而催生了对影响人工智能水平的关键要素——机器学习方法的需求。自动化机器学习方法AutoML应运而生。

2019-12-02 15:03:01

655

深度讨论集成学习方法，解决AI实践难题

集成学习方法是一类先进的机器学习方法，这类方法训练多个学习器并将它们结合起来解决一个问题，在实践中获得了巨大成功，并成为机器学习领域的“常青树”，受到学术界和产业界的广泛关注。

2020-08-16 11:40:51

616

运用多种机器学习方法比较短文本分类处理过程与结果差别

目标从头开始实践中文短文本分类，记录一下实验流程与遇到的坑运用多种机器学习（深度学习 + 传统机器学习）方法比较短文本分类处理过程与结果差别工具深度学习：keras 传统机器学习

2020-11-02 15:37:15

4798

深度学习：四种利用少量标注数据进行命名实体识别的方法

导读近年来，深度学习方法在特征抽取深度和模型精度上表现优异，已经超过了传统方法，但无论是传统机器学习还是深度学习方法都依赖大量标注数据来训练模型，而现有的研究对少量标注数据学习问题探讨较少。本文

2021-01-03 09:35:00

9404

188万中文词库包括了输入法和机器学习与训练

本文档的主要内容详细介绍的是188万中文词库包括了输入法和机器学习与训练。

2021-02-26 15:01:57

基于强化学习的壮语词标注方法

目前壮语智能信息处理研究处于起步阶段，缺乏自动词性标注方法。针对壮语标注语料匮乏、人工标注费时费力而机器标注性能较差的现状，提出一种基于强化学习的壮语词性标注方法。依据壮语的文法特点和中文宾州

2021-05-14 11:29:35

基于机器学习的中文隐式实体关系抽取方法

2021-06-02 14:42:14

基于脑电信号扫视轨迹的异质迁移学习方法

基于脑电信号扫视轨迹的异质迁移学习方法

2021-06-07 15:41:04

面向异质信息的网络表示学习方法综述

面向异质信息的网络表示学习方法综述

2021-06-09 14:12:29

单片机学习方法总结资料分享

单片机学习方法总结资料分享

2021-11-13 20:36:05

单片机学习笔记————单片机学习方法和步骤

2021-11-14 14:06:04

水声被动定位中的机器学习方法研究进展综述

水声被动定位中的机器学习方法研究进展综述来源：《信号处理》，作者牛海强等摘要：本文对基于机器学习方法的水声被动定位研究进展进行了综述。所涉及的机器学习方法有多层感知机(前馈神经网络)、支持

2021-12-24 11:18:27

468

融合零样本学习和小样本学习的弱监督学习方法综述

融合零样本学习和小样本学习的弱监督学习方法综述来源：《系统工程与电子技术》，作者潘崇煜等摘要: 深度学习模型严重依赖于大量人工标注的数据，使得其在数据缺乏的特殊领域内应用严重受限。面对数据缺乏

2022-02-09 11:22:37

1731

基于优化的元学习方法

为了解决上述问题，本文将目光从任务专用的soft prompt模型设计转移到任务通用的模型参数初始化点搜索，以帮助模型快速适应到不同的少标注任务上。本文采用近年提出的基于优化的元学习方法，例如MAML[4]、Reptile[5]等

2022-12-15 15:19:30

830

联合学习在传统机器学习方法中的应用

联合学习在传统机器学习方法中的应用

2023-07-05 16:30:28

489

统计学习方法代码集

统计学习所含部分代码合集

2023-09-07 09:24:21

梳理单片机学习方法、产品开发流程

梳理单片机学习方法、产品开发流程

2023-09-21 17:20:07

362

已全部加载完成

搜索历史

统计机器学习方法：基于HMM的中文词性标注

评论