特征工程(四)HashingVectorizer--688IT编程网

特征⼯程（四）HashingVectorizer

'''import pickle

将原始数据的word特征数字化为hash特征，并将结果保存到本地

article特征可做类似处理

'''

import pandas as pd

from sklearn. import HashingVectorizer

import pickle

import time

t_start = time.time()

"""===================================================================================================================== 1 加载原始数据

"""

# 读取原始数据train和test⽂件

df_ad_csv('train_set.csv')

df_ad_csv('test_set.csv')

# 删除特征article，只保留特征word

df_train.drop(columns='article', inplace=True)

df_test.drop(columns='article', inplace=True)

# 按⾏拼接df_train和df_test

df_all = pd.concat(objs=[df_train, df_test], axis=0, sort=True)

# 获取train⽂件中的特征class

y_train = (df_train['class'] - 1).values

"""===================================================================================================================== 2 特征⼯程

"""

print('2 特征⼯程')

# 将原始数据数字化为hash特征

vectorizer = HashingVectorizer(ngram_range=(1, 2), n_features=200)

d_all = vectorizer.fit_transform(df_all['word_seg'])

x_train = d_all[:len(y_train)]

x_test = d_all[len(y_train):]

"""===================================================================================================================== 3 保存⾄本地

"""

print('3 保存特征')

data = (array(), y_train, array())

with open('hash_word.pkl', 'wb') as f:

pickle.dump(data,f)

t_end = time.time()

print("共耗时：{}min".format((t_end-t_start)/60))

# 共耗时：4.8min

发表评论

688IT编程网

特征工程(四)HashingVectorizer

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

特征工程(四)HashingVectorizer

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式