构建中文网页分类器对网页进行文本分类-电子发烧友网

网络原指用一个巨大的虚拟画面，把所有东西连接起来，也可以作为动词使用。在计算机领域中，网络就是用物理链路将各个孤立的工作站或主机相连在一起，组成数据链路，从而达到资源共享和通信的目的。凡将地理位置不同，并具有独立功能的多个计算机系统通过通信设备和线路而连接起来，且以功能完善的网络软件（网络协议、信息交换方式及网络操作系统等）实现网络资源共享的系统，可称为计算机网络。网络的迅速发展，使人们不仅面临信息爆炸，同时也面临着如何从浩如烟海的信息中获取自己所需信息的难题。如何有效地组织和处理海量的信息，并过滤和管理网络资源，已成为必须面对的问题。

为了网页信息的有效组织和检索，人们开发了各种网络信息搜索器，在一定程度上确实提高了网络信息的利用率。与文本分类技术相比较，网页分类更加复杂，这是由网页的结构特征决定的，但是网页的信息主要是通过文本的方式向人们传递的，所以在对网页分类之前，首先要对其中的文本进行提取，对所提取的文本分类，最终使网页分类问题转化为文本分类问题。

目前，文本分类技术的研究比较活跃，已经出现了多种文本分类算法，并且被广泛应用于多个领域：信息检索、搜索引擎、文本数据库等。文本分类算法基本是基于概率统计模型，本文就是基于互信息（MI）提出一种改进的特征提取方法，并根据TFIDF提出一种新的特征权值计算方法构建中文网页分类器。

1 网页预处理

网页分类之前首先要进行预处理，实际上就是HTML解析，把解析出来的内容用于文本分类，选取网页中的下面这些文本用于分类：

（1）锚文本。锚文本是网页中用于指示所连接网页内容的提示，由于后面要对提取的文本进行分类，所以只提取文字形式的锚文本。

（2）title文本。这样的文本可能是网页中最重要的标签，必须取得。

（3）meta标签。其重要的功能就是设置关键字，网页的制作者往往都设置了关键字，来提高网页的搜索点击率。可以利用meta标签中的有关文本内容进行网页分类。

（4）主文本。上面这些信息获取之后，网页中剩余的文本信息还在各种HTML标签中，在HTML源文件中，主文本有可能不是连续出现的。主文本一般是网页中文字最集中的较长的字符串，查看源文件，那些比较长的字符串是整个出现在1个标签中的。

文本首先要确定的问题就是表示文本的基本单位，用于表示文本的基本单位通常称为文本的特征或特征项。中文文本不同于英文文本，英文文本以空格为分隔符，非常明确。而中文文本需要对其进行分词处理才能得出每个特征。本文采用中科院计算技术研究所汉语词法分析系统ICTCLAS3.0进行分词。如果把这些对文本分类没有意义的虚词作为特征，将会带来很大噪音，降低文本分类的效率和准确率。因此，在提取文本特征时，应首先考虑剔除这些对文本分类没有用处的虚词，而在实词中，又以名词和动词对于文本的类别特性的表现力最强。

2 特征提取

特征提取就是提取出最能代表某篇文章或某类的特征项，以达到降维的效果从而减少文本分类的计算量。典型特征提取方法：信息增益（Information Gain），互信息（MI）、文档频度（DF）。传统的MI特征提取方法：

计算出所有特征词的统计值后，从大到小进行排序，然后根据需要从上到下选取一定数量的特征词构建文本分类的特征词库。

3 特征加权及向量化

TFIDF算法及其改进型[5]有多种公式，本文使用一种新的改进的TF-IDF公式来计算特征词的权重。TF-IDF公式有很多变种，比较常见的TF-IDF公式：

文本分类

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

HTML

HTML

+关注

关注
0

文章
278

浏览量
37045
分类器

分类器

+关注

关注
0

文章
152

浏览量
13250
文本

文本

+关注

关注
0

文章
118

浏览量
17164

pyhanlp文本分类与情感分析

得到一个分类器，利用该分类器，我们就可以进行文本分类了。IClassifier classifier = new NaiveBayesCla

发表于 02-20 15:37

TensorFlow的CNN文本分类

在TensorFlow中实现CNN进行文本分类(译)

发表于 10-31 09:27

NLPIR平台在文本分类方面的技术解析

一下NLPIR大数据语义智能分析系统是怎样实现文本分类的。NLPIR大数据语义智能分析平台的文本分类有两种模式：专家规则分类与机器学习分类。专家规则

发表于 11-18 17:46

基于文本分类的网页排序算法

随着web 技术的发展，好的网页排序算法越来越重要。本文主要讨论了网页排序应当考虑的因素如网页更新时间等。在对这些因素

发表于 09-12 11:29 •8次下载

基于AdaBoost_Bayes算法的中文文本分类系统

基于AdaBoost_Bayes算法的中文文本分类系统_徐凯

发表于 01-07 18:56 •2次下载

融合词语类别特征和语义的短文本分类方法

LDA主题模型从背景知识中选择最优主题形成新的短文本特征，在此基础上建立分类器进行分类。采用支持向量机SVM与是近邻法k-NN

发表于 11-22 16:29 •0次下载

基于级联式分类器的网页分类方法

针对海量网页在线自动高效获取网页分类系统设计中如何更有效地平衡准确度与资源开销之间的矛盾问题，提出一种基于级联式分类器的

发表于 12-05 08:44 •0次下载

textCNN论文与原理——短文本分类

是处理图片的torchvision，而处理文本的少有提及，快速处理文本数据的包也是有的，那就是torchtext［1］。下面还是结合上一个案例：【深度学习】textCNN论文与原理——短文本分类（基于pytorch）［2］，使用

发表于 12-31 10:08 •2582次阅读

基于深度神经网络的文本分类分析

　　随着深度学习技术的快速发展，许多研究者尝试利用深度学习来解决文本分类问题，特别是在卷积神经网络和循环神经网络方面，出现了许多新颖且有效的分类方法。对基于深度神经网络的文本分类问题进行

发表于 03-10 16:56 •37次下载

结合BERT模型的中文文本分类算法

针对现有中文短文夲分类算法通常存在特征稀疏、用词不规范和数据海量等问题，提出一种基于Transformer的双向编码器表示（BERT）的中文短文本分

发表于 03-11 16:10 •6次下载

基于LSTM的表示学习-文本分类模型

的关键。为了获得妤的文本表示，提高文本分类性能，构建了基于LSTM的表示学习-文本分类模型，其中表示学习模型利用语言模型为文本分类模型提供初

发表于 06-15 16:17 •18次下载

带你从头构建文本分类器

文本分类是 NLP 中最常见的任务之一，它可用于广泛的应用或者开发成程序，例如将用户反馈文本标记为某种类别，或者根据客户文本语言自动归类。另外向我们平时见到的邮件垃圾过滤器也是文本分类

发表于 03-22 10:49 •3712次阅读

深度学习——如何用LSTM进行文本分类

简介主要内容包括如何将文本处理为Tensorflow LSTM的输入如何定义LSTM 用训练好的LSTM进行文本分类代码导入相关库 #coding=utf-8 import

发表于 10-21 09:57 •1715次阅读

PyTorch文本分类任务的基本流程

文本分类是NLP领域的较为容易的入门问题，本文记录文本分类任务的基本流程，大部分操作使用了**torch**和**torchtext**两个库。 ## 1. 文本数据预处理

发表于 02-22 14:23 •1177次阅读

NLP中的迁移学习：利用预训练模型进行文本分类

迁移学习彻底改变了自然语言处理（NLP）领域，允许从业者利用预先训练的模型来完成自己的任务，从而大大减少了训练时间和计算资源。在本文中，我们将讨论迁移学习的概念，探索一些流行的预训练模型，并通过实际示例演示如何使用这些模型进行文本分类。我们将使用拥抱面转换器库来实现。

发表于 06-14 09:30 •488次阅读