常见的11个分类变量编码方法-电子发烧友网

机器学习算法只接受数值输入，所以如果我们遇到分类特征的时候都会对分类特征进行编码，本文总结了常见的11个分类变量编码方法。

1、ONE HOT ENCODING

最流行且常用的编码方法是One Hot Enoding。一个具有n个观测值和d个不同值的单一变量被转换成具有n个观测值的d个二元变量，每个二元变量使用一位（0，1）进行标识。

例如：

编码后：

最简单的实现是使用pandas的' get_dummies

new_df=pd.get_dummies(columns=[‘Sex’], data=df)

2、Label Encoding

为分类数据变量分配一个唯一标识的整数。这种方法非常简单，但对于表示无序数据的分类变量是可能会产生问题。比如：具有高值的标签可以比具有低值的标签具有更高的优先级。

例如上面的数据，我们编码后得到了下面的结果：

sklearn的LabelEncoder 可以直接进行转换：

from sklearn.preprocessing import LabelEncoder le=LabelEncoder() df[‘Sex’]=le.fit_transform(df[‘Sex’])

3、Label Binarizer

LabelBinarizer 是一个用来从多类别列表创建标签矩阵的工具类，它将把一个列表转换成一个列数与输入集合中惟一值的列数完全相同的矩阵。

例如这个数据：

转化后结果为：

from sklearn.preprocessing import LabelBinarizer lb = LabelBinarizer() new_df[‘Sex’]=lb.fit_transform(df[‘Sex’])

4、Leave one out Encoding

Leave One Out 编码时，目标分类特征变量对具有相同值的所有记录会被平均以确定目标变量的平均值。在训练数据集和测试数据集之间，编码算法略有不同。因为考虑到分类的特征记录被排除在训练数据集外，因此被称为“Leave One Out”。

对特定类别变量的特定值的编码如下。

ci = (Σj != i tj / (n — 1 + R)) x (1 + εi) where ci = encoded value for ith record tj = target variable value for jth record n = number of records with the same categorical variable value R = regularization factor εi = zero mean random variable with normal distribution N(0, s)

例如下面的数据：

编码后:

为了演示这个编码过程，我们创建数据集：

importpandasaspd; data = [[‘1’, 120], [‘2’, 120], [‘3’, 140], [‘2’, 100], [‘3’, 70], [‘1’, 100],[‘2’, 60], [‘3’, 110], [‘1’, 100],[‘3’, 70] ] df = pd.DataFrame(data, columns = [‘Dept’,’Yearly Salary’])

然后进行编码：

import category_encoders as ce tenc=ce.TargetEncoder() df_dep=tenc.fit_transform(df[‘Dept’],df[‘Yearly Salary’]) df_dep=df_dep.rename({‘Dept’:’Value’}, axis=1) df_new = df.join(df_dep)

这样就得到了上面的结果。

5、Hashing

当使用哈希函数时，字符串将被转换为一个惟一的哈希值。因为它使用的内存很少可以处理更多的分类数据。对于管理机器学习中的稀疏高维特征，特征哈希是一种有效的方法。它适用于在线学习场景，具有快速、简单、高效、快速的特点。

例如下面的数据：

编码后：

代码如下：

from sklearn.feature_extraction import FeatureHasher # n_features contains the number of bits you want in your hash value. h = FeatureHasher(n_features = 3, input_type =’string’) # transforming the column after fitting hashed_Feature = h.fit_transform(df[‘nom_0’]) hashed_Feature = hashed_Feature.toarray() df = pd.concat([df, pd.DataFrame(hashed_Feature)], axis = 1) df.head(10)

6、Weight of Evidence Encoding

(WoE) 开发的主要目标是创建一个预测模型，用于评估信贷和金融行业的贷款违约风险。证据支持或驳斥理论的程度取决于其证据权重或 WOE。

如果P(Goods) / P(Bads) = 1，则WoE为0。如果这个组的结果是随机的，那么P(Bads) > P(Goods)，比值比为1，证据的权重(WoE)为0。如果一组中P(Goods) > P(bad)，则WoE大于0。

因为Logit转换只是概率的对数，或ln(P(Goods)/P(bad))，所以WoE非常适合于逻辑回归。当在逻辑回归中使用wo编码的预测因子时，预测因子被处理成与编码到相同的尺度，这样可以直接比较线性逻辑回归方程中的变量。

例如下面的数据：

会被编码为：

代码如下：

from category_encoders import WOEEncoder df = pd.DataFrame({‘cat’: [‘a’, ‘b’, ‘a’, ‘b’, ‘a’, ‘a’, ‘b’, ‘c’, ‘c’], ‘target’: [1, 0, 0, 1, 0, 0, 1, 1, 0]}) woe = WOEEncoder(cols=[‘cat’], random_state=42) X = df[‘cat’] y = df.target encoded_df = woe.fit_transform(X, y)

7、Helmert Encoding

Helmert Encoding将一个级别的因变量的平均值与该编码中所有先前水平的因变量的平均值进行比较。

反向 Helmert 编码是类别编码器中变体的另一个名称。它将因变量的特定水平平均值与其所有先前水平的水平的平均值进行比较。

会被编码为：

代码如下：

import category_encoders as ce encoder=ce.HelmertEncoder(cols=’Dept’) new_df=encoder.fit_transform(df[‘Dept’]) new_hdf=pd.concat([df,new_df], axis=1) new_hdf

8、Cat Boost Encoding

是CatBoost编码器试图解决的是目标泄漏问题，除了目标编码外，还使用了一个排序概念。它的工作原理与时间序列数据验证类似。当前特征的目标概率仅从它之前的行(观测值)计算，这意味着目标统计值依赖于观测历史。

TargetCount:某个类别特性的目标值的总和(到当前为止)。

Prior:它的值是恒定的，用(数据集中的观察总数(即行))/(整个数据集中的目标值之和)表示。

featucalculate:到目前为止已经看到的、具有与此相同值的分类特征的总数。

编码后的结果如下：

代码：

import category_encoders category_encoders.cat_boost.CatBoostEncoder(verbose=0, cols=None, drop_invariant=False, return_df=True, handle_unknown=’value’, handle_missing=’value’, random_state=None, sigma=None, a=1) target = df[[‘target’]] train = df.drop(‘target’, axis = 1) # Define catboost encoder cbe_encoder = ce.cat_boost.CatBoostEncoder() # Fit encoder and transform the features cbe_encoder.fit(train, target) train_cbe = cbe_encoder.transform(train)

9、James Stein Encoding

James-Stein 为特征值提供以下加权平均值：

观察到的特征值的平均目标值。

平均期望值（与特征值无关）。

James-Stein 编码器将平均值缩小到全局的平均值。该编码器是基于目标的。但是James-Stein 估计器有缺点：它只支持正态分布。

它只能在给定正态分布的情况下定义（实时情况并非如此）。为了防止这种情况，我们可以使用 beta 分布或使用对数-比值比转换二元目标，就像在 WOE 编码器中所做的那样（默认使用它，因为它很简单）。

10、M Estimator Encoding:

Target Encoder的一个更直接的变体是M Estimator Encoding。它只包含一个超参数m，它代表正则化幂。m值越大收缩越强。建议m的取值范围为1 ~ 100。

11、 Sum Encoder

Sum Encoder将类别列的特定级别的因变量(目标)的平均值与目标的总体平均值进行比较。在线性回归(LR)的模型中，Sum Encoder和ONE HOT ENCODING都是常用的方法。两种模型对LR系数的解释是不同的，Sum Encoder模型的截距代表了总体平均值(在所有条件下)，而系数很容易被理解为主要效应。在OHE模型中，截距代表基线条件的平均值，系数代表简单效应(一个特定条件与基线之间的差)。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码

编码

+关注

关注
6

文章
962

浏览量
55058
变量

变量

+关注

关注
0

文章
613

浏览量
28558

原文标题：11 个常见的分类特征的编码技术

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

编码器常见的故障问题及案例分析

编码器作为自动化控制系统中的重要组件，负责将机械位移转换为电信号，以供上位机、PLC或驱动器等设备读取和处理。然而，在使用过程中，编码器可能会遇到多种故障。以下是对编码器常见故障及案例

发表于 03-07 11:05 •50次阅读

半导体激光器的常见分类

半导体激光器的用途非常广泛，按照不同的类型，有不同的分类方式。松盛光电来介绍半导体激光器的常见分类情况，来了解一下吧。

发表于 03-05 11:47 •97次阅读

常见xgboost错误及解决方案

XGBoost（eXtreme Gradient Boosting）是一种流行的机器学习算法，用于解决分类和回归问题。尽管它非常强大和灵活，但在使用过程中可能会遇到一些常见的错误。以下是一些常见

发表于 01-19 11:22 •944次阅读

bcd编码的优缺点 bcd编码的常见错误

。以下是BCD编码的一些优缺点以及常见的错误： BCD编码的优点：直观易懂：BCD编码直接将十进制数转换为二进制，对于人类来说非常直观，易于理解和检查。减少错误：由于BCD

发表于 12-20 17:17 •770次阅读

磁编码器常见故障及解决方法

，磁编码器也不例外。以下是一些磁编码器的常见故障及其解决方法： 1. 信号输出异常故障现象：编码器输出信号不稳定或无输出。信号输出与实

发表于 11-23 09:11 •865次阅读

如何优化base64编码的性能

Base64编码是一种广泛使用的编码方法，用于将二进制数据转换为ASCII字符串。它在许多场景中非常有用，例如在电子邮件、网页和存储系统中传输二进制数据。然而，Base64编码和解码可能会对性能

发表于 11-10 14:17 •1374次阅读

base64与URL编码的区别和联系

景和特点。 Base64编码 Base64是一种基于64个可打印字符来表示二进制数据的编码方法。它最初被设计用于在电子邮件中传输二进制数据，但后来也被广泛应用于其他领域，如网络通信、数据存储等。特点兼容性：Base64

发表于 11-10 11:11 •949次阅读

base64编码和解码的使用方法

Base64编码是一种基于64个可打印字符来表示二进制数据的编码方法。它将每3个字节的二进制数据编码为4

发表于 11-10 10:48 •2779次阅读

编码器常见的类型有哪些?

不同的分类标准，可以有以下几种主要类型：一、按工作原理分类增量式编码器：将位移转换成周期性的电信号，再把这个电信号转变成计数脉冲，用脉冲的个数表示位移的大小。增量式编码器在旋

发表于 10-25 09:30 •1305次阅读

Linux环境变量配置方法

Linux上环境变量配置分为设置永久变量和临时变量两种。环境变量设置方法同时要考虑环境Shell类型，不同类型的SHELL设置临时

发表于 10-23 13:39 •294次阅读

雷达的基本分类方法

电子发烧友网站提供《雷达的基本分类方法.pdf》资料免费下载

发表于 09-11 09:09 •6次下载

伺服控制系统的分类方式和常见伺服控制系统介绍

伺服控制系统是一种能对试验装置的机械运动按预定要求进行自动控制的操作系统。伺服系统的分类方法很多，常见的分类方法有以下三种：1、按被控量参数

发表于 08-26 17:46 •1001次阅读

伺服控制系统的<b class='flag-5'>分类</b>方式和<b class='flag-5'>常见</b>伺服控制系统介绍

编码器的常见故障及解决方法

编码器作为工业自动化系统中不可或缺的一部分，其稳定性和可靠性对于整个系统的运行至关重要。然而，在实际应用中，编码器也时常会遇到各种故障，导致系统性能下降甚至无法正常运行。本文将详细探讨编码器的

发表于 05-29 16:01 •5251次阅读

旋转编码器的常见类型

详细介绍旋转编码器的常见类型，包括增量式编码器和绝对式编码器两大类，并对它们的特点、工作原理、应用场合等进行深入探讨。

发表于 05-29 15:59 •1119次阅读

波形编码是？常见的波形编码方法主要包括哪些？

波形编码是基于对语音信号波形的数字化处理，试图使处理后重建的语音信号波形与原语音信号波形保持一致。

发表于 05-01 17:17 •3248次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

常见的11个分类变量编码方法

评论

编码器常见的故障问题及案例分析

半导体激光器的常见分类

常见xgboost错误及解决方案

bcd编码的优缺点 bcd编码的常见错误

磁编码器常见故障及解决方法

如何优化base64编码的性能

base64与URL编码的区别和联系

base64编码和解码的使用方法

编码器常见的类型有哪些?

Linux环境变量配置方法

雷达的基本分类方法

伺服控制系统的分类方式和常见伺服控制系统介绍

编码器的常见故障及解决方法

旋转编码器的常见类型

波形编码是？常见的波形编码方法主要包括哪些？