python深度学习在加载数据时num_words=10000是什么意思--688IT编程网

python深度学习在加载数据时num_words=10000是什么意思

python深度学习在加载数据时（num_words=10000）所代表的意义

⾸先写⼀段深度学习加载数据集的代码：

from keras.datasets import reuters

(train_data, train_labels),(test_data, test_labels)= reuters.load_data(num_words=10000)

#(train_data, train_labels), (test_data, test_labels) = reuters.load_data()

如代码中所⽰：第⼆⾏和第三⾏的差别在于load_data() 函数中的参数num_words=10000

解释：参数（num_words=10000）将数据限定为前10000个最常出现的单词，如果数据集中存在⼤于10000的单词，则令其为2，看不太明⽩的话接着往下看。

⽤代码解释：上⾯的代码中我⽤来举例的数据集是路透社数据集（reuters），该数据集中共包含8982条训练数据和其标签以及2246条测试数据和其标签，也就是说：

print(len(train_data))

手机unknown是什么意思

输出：8982

要证明演⽰num_words=10000的作⽤，我到了train_data中第1125条数据的第200个单词的单词编号为10003

print(train_data[1225][195:205])

输出1：[190,2636,8,268,1648,10003,3027,24,4,294]

输出2：[190,2636,8,268,1648,2,3027,24,4,294]

其中输出1：是没有设定num_words=10000 的输出结果

输出2：是设定了参数num_words=10000 的输出结果

很显然：train_data中第1125条数据的第200个单词的单词编号为10003，超出了10000，因此在设置了参数num_words=10000之后，如输出2所⽰，将10003修改为了2

为什么是2呢（对2的解释）

在这类数据集中，每条数据本应该是单词组成的句⼦，但是⽤单词来表⽰⼀条样本输⼊到神经⽹络中

并没有太⼤的意义，因此，将所有可能的单词按照使⽤的频繁程度建⽴⼀个单词字典。这样，⼀条样本就可以⽤⼀串数字编号表⽰。

其中0：是为“padding”（填充）所保留的索引

1：是为“start of sequence”（序列开始）所保留的索引

2：是为“unknown”（未知词）所保留的索引

因此在设置了参数num_words=10000（数字编号不能超过10000）之后，所有⾼于10000的单词编号都被⽤2（未知词）所代替

发表评论

688IT编程网

python深度学习在加载数据时num_words=10000是什么意思

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

688IT编程网

python深度学习在加载数据时num_words=10000是什么意思

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林 的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

随机森林的算法