词向量系列之One-Hot编码详解--688IT编程网

词向量系列之One-Hot编码详解

⽬录

0.前⾔

在回归，分类，聚类等机器学习算法中，各个特征之间的距离(相似度)计算是⾮常重要的，然⽽常⽤的距离计算都是在欧式空间内计算，例如计算余弦相似性。但是在欧式空间内计算相似性要求数据是连续的，有序的。在很多机器学习的任务中，数据都是离散的，例如星期⼀，星期⼆，···，星期天，⼈的性别有男⼥，祖国有中国，美国，法国等。这些特征值并不是连续的，⽽是离散的，⽆序的。

如果要作为机器学习算法的输⼊，通常我们需要对其进⾏特征数字化。什么是特征数字化呢？例如：

性别特征：["男"，"⼥"]

祖国特征：["中国"，"美国，"法国"]

运动特征：["⾜球"，"篮球"，"⽻⽑球"，"乒乓球"]

怎么将上诉特征数字化呢？有个⼈他的特征是 [“男”,“中国”,“乒乓球”]，怎么表⽰他呢？

1. 独热编码

独热编码即 One-Hot Encoding，⼜称⼀位有效编码，其⽅法是使⽤N位状态寄存器来对N个状态进⾏编码，每个状态都由他独⽴的寄存器位，并且在任意时候，其中只有⼀位有效。one-hot向量将类别变量转换为机器学习算法易于利⽤的⼀种形式的过程，这个向量的表⽰为⼀项属性的特征向量，也就是同⼀时间只有⼀个激活点（不为0），这个向量只有⼀个特征是不为0的，其他都是0，特别稀疏。

1.1 独热编码例⼦

例1：

我们有四个样本，每个样本有三个特征，如图：

特征1特征2特征3样本1143

样本2232

样本3122

样本4211

上诉样本特征1有两种可能的取值，若代表性别，⽐如1代表男性2代表⼥性，特征2有4种，可以代表另⼀种特征，同样的特征3也可以有他的含义。

独热编码保证每个样本中的单个特征只有1位数字为1，其余全部为0，编码后表⽰为：

特征1特征2特征3样本1011000100

样本2100100010

样本3010010010

样本4100001001

对每个特征都使⽤独热编码表⽰，特征有2种取值就⽤两位表⽰，4种取值就⽤4位表⽰

对于前⾔中的例⼦，可以将特征与具体的特征对应：

性别特征：[“男”,“⼥”] （这⾥只有两个特征，所以 N=2）：

男 => 10

⼥ => 01

祖国特征：[“中国”，"美国，“法国”]（N=3）：

中国 => 100

美国 => 010

法国 => 001

运动特征：[“⾜球”，“篮球”，“⽻⽑球”，“乒乓球”]（N=4）：

⾜球 => 1000

篮球 => 0100

⽻⽑球 => 0010

乒乓球 => 0001

所以，当⼀个样本为 [“男”,“中国”,“乒乓球”] 的时候，完整的特征数字化的结果为：

[1，0，1，0，0，0，0，0，1]

前两位代表性别，中间三位代表国家，后四位代表运动。

1.2 独热编码的优点

能够处理机器学习算法不好处理的离散特征值。

在⼀定程度上增加了特征的维度，⽐如性别本⾝是⼀个特征，经过one hot编码以后，就变成了男或⼥两个特征。

将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使⽤one-hot编码，可以会让特征之间的距离计算更加合理。

1.3 独热编码的缺点

如果原本的标签编码是有序的，那么one-hot编码就会丢失顺序信息。

如果特征值的数⽬特别多，就会产⽣⼤量冗余的稀疏矩阵

维度（单词）间的关系没有得到体现，每个单词都是⼀个维度，彼此相互独⽴，然⽽每个单词彼此⽆关这个特点明显不符合现实情况。

⼤量的单词都是有关的。⽐如：

语义：girl和woman虽然⽤在不同年龄上，但指的都是⼥性。

复数：word和words仅仅是复数和单数的差别。

时态：buy和bought表达的都是“买”，但发⽣的时间不同。

所以⽤one hot representation的编码⽅式，上⾯的特性都没有被考虑到。

1.4 独热编码适⽤的情况

One Hot Encoding⽤来解决类别数据的离散值问题，如果特征是离散的，并且不⽤One Hot Encoding就可以很合理的计算出距离，那么就没必要进⾏One Hot Encoding。

有些基于树的算法在处理变量时，并不是基于向量空间度量，数值只是类别符号，即没有偏序关系，所以不⽤One Hot Encoding，树模型不太需要One Hot Encoding，对于决策树来说，没有特征⼤⼩的概念，只有特征处于哪个部分的概念，One Hot Encoding的本质是增加树的深度。如GBDT处理⾼维稀疏矩阵的时候效果并不好，即使是低维的稀疏矩阵也未必⽐SVM好。

2. 独热编码的实现

2.1 python简单实现one-hot编码

import numpy as np

samples =['I like playing basketball','I played football yesterday morning']

token_index ={}

for sample in samples:

for word in sample.split():

if word not in token_index:

token_index[word]=len(token_index)+1

max_length =10

results = np.zeros(shape=(len(samples),

max_length,

max(token_index.values())+1))

for i, sample in enumerate(samples):

for j, word in list(enumerate(sample.split()))[:max_length]:

print(j)

index = (word)

results[i, j, index]=1

print(results)

2.2 sklearn

通过sklearn的OneHotEncoder()来得到独热编码，但是只适⽤于数值型的数据。OneHotEncoder()的 feature_indices_ 可以知道哪⼏列对应哪个原来的特征。

使⽤ numpy.hstack() 将多次结果拼接起来得到变换后的结果

问题：不能直接编码字符串类型数据（LabelEncoder() + OneHotEncoder() 可实现，但需数据格式转换）

from sklearn import preprocessing

enc = OneHotEncoder()

enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])

print("enc.n_values_ is:",enc.n_values_)

print("enc.feature_indices_ is:",enc.feature_indices_)

ansform([[0,1,1]]).toarray())

ansform([[1,1,1]]).toarray())

ansform([[1,2,1]]).toarray())

输出的结果：

enc.n_values_ is:[234]

enc.feature_indices_ is:[0259]#特征坐标

[[1.0.0.1.0.0.1.0.0.]]

[[0.1.0.1.0.0.1.0.0.]]

enc.n_values_ is ：每个特征值的特征数⽬，第⼀个特征数⽬是2，第⼆个特征数⽬是3，第三个特征数⽬是4。

enc.feature_indices_ is ：表明每个特征在one-hot向量中的坐标范围，0-2 是第⼀个特征，2-5就是第⼆个特征，5-9是第三个特征。后⾯三个就是把特征值转换为 one-hot编码，我们可以对⽐结果看看one-hot差别。

2.3 Keras

from import Tokenizer

samples =['I like playing basketball','I played football yesterday morning']

tokenizer = Tokenizer(num_words=1000)

tokenizer.fit_on_texts(samples)

sequences = s_to_sequences(samples)

one_hot_results = _to_matrix(samples, mode="binary")

word_index = tokenizer.word_index

print('Found %s unique tokens.'%len(word_index))

2.4 tensorflow

官⽅⽂档：

<_hot(

indices,

depth,

on_value=None,

off_value=None,

axis=None,

dtype=None,

name=None

)

Returns a one-hot tensor(返回⼀个one_hot张量).

The locations represented by indices in indices take value on_value,while all other locations take value off_value.

(由indices指定的位置将被on_value填充，其他位置被off_value填充).

on_value and off_value must have matching data types. If dtype is also provided, they must be the same data type as specified by dtype.

(on_value和off_value必须具有相同的数据类型).

If on_value is not provided, it will default to the value 1with type dtype.

If off_value is not provided, it will default to the value 0with type dtype.

If the input indices is rank N, the output will have rank N+1. The new axis is created at dimension axis (default: the new axis is appended at the end). (如果indices是N维张量，那么函数输出将是N+1维张量，默认在最后⼀维添加新的维度).

If indices is a scalar the output shape will be a vector of length depth.

(如果indices是⼀个标量，函数输出将是⼀个长度为depth的向量)

If indices is a vector of length features, the output shape will be:

features x depth if axis ==-1.

(如果indices是⼀个长度为features的向量，则默认输出⼀个features*depth形状的张量)

depth x features if axis ==0.

(如果indices是⼀个长度为features的向量,axis=0，则输出⼀个depth*features形状的张量)

If indices is a matrix (batch)with shape [batch, features], the output shape will be:

batch x features x depth if axis ==-1

(如果indices是⼀个形状为[batch, features]的矩阵,axis=-1(默认)，则输出⼀个batch * features * depth形状的张量)

batch x depth x features if axis ==1

(如果indices是⼀个形状为[batch, features]的矩阵,axis=1，则输出⼀个batch * depth * features形状的张量)

depth x batch x features if axis ==0

(如果indices是⼀个形状为[batch, features]的矩阵,axis=0，则输出⼀个depth * batch * features形状的张量)

实现：

indices =[0,1,2]#输⼊数据(是个向量)需要编码的索引是[0,1,2]

depth =3

<_hot(indices, depth)# output: [3 x 3]

# [[1., 0., 0.],

# [0., 1., 0.],

# [0., 0., 1.]]

indices =[0,2,-1,1]#输⼊数据(是个向量)的需要编码的索引是[0,2,-1,1]

depth =3

index复数

<_hot(indices, depth,

on_value=5.0, off_value=0.0,

axis=-1)# output: [4 x 3]

# [[5.0, 0.0, 0.0], # one_hot(0) 对位置0处的数据进⾏one_hot编码

# [0.0, 0.0, 5.0], # one_hot(2) 对位置2处的数据进⾏one_hot编码

# [0.0, 0.0, 0.0], # one_hot(-1) 对位置-1处的数据进⾏one_hot编码

# [0.0, 5.0, 0.0]] # one_hot(1) 对位置1处的数据进⾏one_hot编码

indices =[[0,2],[1,-1]]#输⼊数据是个矩阵

depth =3

<_hot(indices, depth,

on_value=1.0, off_value=0.0,

axis=-1)# output: [2 x 2 x 3]

# [[[1.0, 0.0, 0.0], # one_hot(0) 对位置(0,0)处的数据进⾏one_hot编码

# [0.0, 0.0, 1.0]], # one_hot(2) 对位置(0,2)处的数据进⾏one_hot编码

# [[0.0, 1.0, 0.0], # one_hot(1) 对位置(1,1)处的数据进⾏one_hot编码

# [0.0, 0.0, 0.0]]] # one_hot(-1) 对位置(1,-1)处的数据进⾏one_hot编码

3 NLP中的独热表⽰

独热表⽰以往在NLP中很流⾏，但是随着TF-IDF以及词向量的出现，已经渐渐变得不再适⽤了，主要的缺点：

不考虑词与词之间的顺序（⽂本中词的顺序信息也是很重要的）；

假设词与词相互独⽴，每个词之间的距离都是。（在⼤多数情况下，词与词是相互影响的）；

它得到的特征是离散稀疏的，词表多少个单词，向量的维度就是多少。 (这个问题最严重)。

688IT编程网

词向量系列之One-Hot编码详解

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

词向量系列之One-Hot编码详解

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式