邓志扬,廖强,邵淑娟,等. 基于自然语言处理的山楂果实品种近红外无损鉴别方法[J]. 食品工业科技,2023,44(22):249−256.doi: 10.13386/j.issn1002-0306.2023010132
DENG Zhiyang, LIAO Qiang, SHAO Shujuan, et al. Nondestructive Near-infrared Identification of Hawthorn Fruit Cultivars Based on Natural Language Processing[J]. Science and Technology of Food Industry, 2023, 44(22): 249−256. (in Chinese with English abstract).doi: 10.13386/j.issn1002-0306.2023010132
· 分析检测 ·
基于自然语言处理的山楂果实品种近红外
无损鉴别方法
邓志扬1,廖 强1,邵淑娟2,刘 军1,
*
(1.中国农业大学食品科学与营养工程学院,北京 100083;2.菏泽市食品药品检验检测研究院,山东菏泽 274000)
摘 要:不同品种的山楂果实在营养组成、感官品质等方面存在差异,在工业生产中适用不同的加工方式。传统的检测方法耗时长、具有破坏性以及成本高,为适应规模化生产山楂果实制品的需要,需对山楂果实品种进行无损鉴别。研究共收集了4个品种240个山楂果实样本的近红外光谱数据,采用不同的预处理算法处理光谱数据后,使用自然语言处理(Natural Language Processing ,NLP )模型进行分析,以实现山楂果实品种的无损鉴别。结果表明,长短期记忆网络(Long Short-Term Memory ,LSTM )以及门控循环单元(Gated Recurrent Unit ,GRU )神经网络模型对主成分分析法(Principal Component Analysis ,PCA )预处理后的光谱的鉴别准确率高,验证集的准确率均为99.46%±0.00%,测试集的准确率均为100%±0.00%。逻辑回归模型对山楂果实光谱鉴别能力优异,除对二阶差分(Difference Of Second Order ,D2)预处理的光谱鉴别能力较差外(验证集准确率96.65%,测试集准确率89.58%),其他预处理方式验证集、测试集的准确率均达到或极接近100%。朴素贝叶斯模型对经PCA 处理后的光谱的鉴别效果较优,验证集准确率为95.65%,测试集准确率为95.83%。本研究证实了NLP 运用于山楂果实近红外无损鉴别是可行的。
关键词:自然语言处理,机器学习,山楂果实,近红外,无损检测
本文网刊:
while语句怎么用自然语言中图分类号:TS207.3 文献标识码:A 文章编号:1002−0306(2023)22−0249−08DOI: 10.13386/j.issn1002-0306.2023010132
Nondestructive Near-infrared Identification of Hawthorn Fruit
Cultivars Based on Natural Language Processing
DENG Zhiyang 1,LIAO Qiang 1,SHAO Shujuan 2,LIU Jun 1, *
(1.College of Food Science and Nutritional Engineering, China Agricultural University, Beijing 100083, China ;
2.Heze City of Food and Drug Inspection and Testing Institute, Heze 274000, China )
Abstract :Hawthorn fruits of different varieties have varied nutritional composition, sensory properties etc., thus required for different processing for product development. Due to the limitations of traditional analytical methods of time-consuming, destructive sample preparation, and high cost ect., non-destructive techniques for variety identification are needed which would benefit for large scale production of foods with hawthorn fruits. In this study, a total of 240 hawthorn fruit samples from four different varieties were subjected for near-infrared spectroscopy analysis and the collected spectral data were pre-processed by different algorithms. In order to achieve non-destructive identification of hawthorn varieties,natural language processing (NLP) model was applied for data anal
ysis, including long short-term memory (LSTM), gated recurrent unit (GRU) neural network, logistic regression, native Bayes, decision trees, and k-nearest neighbors. The results showed that the two deep learning models both had the best discrimination effect on the spectral preprocessed by principal component analysis (PCA) with the accuracy of the validation set and test set reached 99.46%±0.00% and 100%±0.00%.
收稿日期:2023−02−01
作者简介:邓志扬(1999−),男,硕士,研究方向:生物信息学,E-mail :**************。
* 通信作者:刘军(1986−),男,博士,副教授,研究方向:食品生物技术,E-mail :************** 。
第 44 卷 第 22 期食品工业科技
Vol. 44 No. 22
2023 年 11 月
Science and Technology of Food Industry
Nov. 2023
While, the logistic regression model showed excellent discrimination ability for hawthorn fruit spectra but poor discrimination ability for the difference of second order (D2) pretreatment spectra (accuracy of 96.65% in the validation set and 89.58% in the test set). The naive Bayes model also showed excellent discrimination effect on the spectra processed by PCA, and the accuracy of the validation set was 95.65%, and the accuracy of the test set was 95.83%. Results gained in this study confirmed the feasibility of applying NLP to the near-infrared non-destructive identification of hawthorn fruits.
Key words:natural language processing;machine learning;hawthorn fruit;near infrared spectroscopy;nondestructive identification
山楂(Crataegus pinnatifida Bunge)在我国具有悠久的药用以及食用历史,山楂果实及其制品深受消费者欢迎[1]。我国的山楂品种资源丰富,据不完全统计约有500余份,经《中国果树志·山楂卷》核实收载的代表性品种资源有142份[2]。不同品种的山楂果实往往在感官品质、营养成分等方面存在差异,适合不同的加工食用方式。例如,昌黎紫肉山楂果实大而整齐、果肉紫红、味酸微甜,适宜鲜食;敞口山楂果实常加工制成山楂片,出片率高且质量好[2]。因此,在加工前有必要对山楂果实品种进行鉴别,以适应不同加工食用方式的要求。传统的农产品鉴别分类主要依赖感官品评或者理化鉴定,感官品评受主
观影响较大,而理化鉴定则步骤繁琐且成本高[3]。近红外光谱检测技术具有无损、快速、高效、操作简便等特点[4]。近红外光谱在农产品检测中具有广泛应用,如产地鉴别[5],营养成分定量分析[6−8],霉变鉴定[9]等。
近红外光谱数据包含信息复杂,解析困难。近红外光谱主要采集C-H、O-H、N-H等含氢基团的化学键伸缩振动的倍频或合频吸收所反映的光谱信息,该区域谱峰较宽且重叠严重,加之吸收强度低,因此难以得到分子中官能团的特征吸收峰[10]。合适的数据处理方法可有效分析光谱信息,构建准确率较高的预测模型。常用于鉴别农产品品种的模型有偏最小二乘判别分析法(Partial Least Squares Discriminant Analysis,PLS-DA)、支持向量机(Support Vector Machine,SVM)和最小二乘支持向量机(Least Squ-ares-Support Vector Machines,LS-SVM)等[11]。
自然语言处理(Natural Language Processing,NLP)的主要对象具有序列特性,如文本信息是文字按照语法规则的逻辑顺序排列;语音信息是单位时间的音频信号按照时间顺序排列构成的。NLP模型大多有较强的序列信息处理能力[12]。近红外光谱数据亦是一种序列数据,是按照波长或波数的大小,将吸光度按顺序排列构成,因此,可考虑将NLP运用到近红外光谱数据解析。目前已有研究者将NLP运用到农产品的无损检测中并取得了良好的效果,如长短期记忆网络(Long Short-Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)神经网络、时间卷积网络(Temporal Convolutional Network,TCN)模型可根据草莓酱的中红外光谱数据实现对草莓酱掺假的鉴别[13];卷积神经网络(C
onvolutional Neural Networks,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)以及CNN-LSTM模型可分析近红外高光谱数据,实现对新鲜茶叶中掺入陈年茶叶的鉴别[14]。
本研究将NLP应用于山楂果实的近红外光谱数据解析,实现对山楂果实品种的无损鉴别。共采集了4个品种240个山楂果实样本的近红外光谱,训练模型,检验模型鉴别的准确率,旨在为基于近红外光谱的农产品无损鉴别分析提供参考。
1 材料与方法
1.1 材料与仪器
山里红大果山楂果实 产自吉林四平;五棱大果山楂果实 产自山东烟台;棉球大果山楂果实 产自山东临沂;甜红子樱桃山楂果实 产自山东临沂。
Antaris II型傅立叶变换近红外光谱仪 赛默飞世尔(上海)仪器有限公司。
1.2 实验方法
1.2.1 样品预处理与近红外光谱数据采集 对收集所得的不同品种山楂果实进行随机取样(n=60),山楂果实清水洗净后擦去果实表面水分,将果实放置于近红外光谱仪的光源中央,确保光源平行于山楂果
实的赤道面照射,采集山楂果实的近红外光谱数据。光谱采集参数为:分辨率4 cm−1;扫描信号次数32次;扫描范围10000~4000 cm−1。每次采集后将山楂果实以果柄为轴线旋转120°,每个山楂果实样本采集三个不同角度的光谱数据,取对应波数吸光度的平均值作为该样本的近红外光谱。
1.2.2 光谱数据的预处理 为提升模型的准确性,使用主成分分析结合马氏距离法剔除异常光谱[15],使用主成分分析法(Principal Component Analysis,PCA)、SG滤波法(Savitzky-Golay,SG)、一阶差分(Differ-ence of First Order,D1)、二阶差分(Difference of Second Order,D2)对山楂果实的近红外光谱数据进行预处理,以提升模型的分类效果。
1.2.3 深度学习模型的搭建
1.2.3.1 长短期记忆网络 LSTM是由循环神经网络(Recurrent Neural Network,RNN)改进而来。RNN 广泛应用于时间序列信息的处理,但其在训练中存在梯度消失的问题,即某一时刻的梯度无法很久地影响结果[16]。而LSTM可通过添加的“遗忘机制”使得网络对长序列信息的记忆更好,可有效解决长序列训练过程中的梯度消失和梯度爆炸问题[16]。LSTM网络的单元结构如图1所示。
其中x t为当前时刻的输入数据,上一时刻的存
· 250 ·食品工业科技2023年 11 月
储单元信息c t−1以及上一时刻的隐藏层信息h t−1也作为t 时刻的输入;当前时刻的存储单元信息c t 以
及隐藏层信息h t 为t 时刻的输出。i t 为输入门,f t 为遗忘门,o t 为输出门,通过遗忘门可以选择性地记忆
信息,从而对长序列信息有更好的记忆效果[12];激活函数tanh 可将实数输入映射到[−1,1]范围内[18],σ表示sigmoid 激活函数,可将实数输入映射到[0,1]范围,激活函数的作用为加入非线性因素,提高神经网络解决非线性问题的能力[19]。
本研究的山楂果实样本数为240个,采集的山楂果实的近红外光谱数据序列较长,每个样本的近红
外光谱数据包含1556个波数下的吸光度,即为1556维的向量,为序列数据,因此采用LSTM 网络模型对其进行分析。本研究中搭建的LSTM 模型结构如图2所示。
图 2 LSTM 网络模型Fig.2 LSTM network model
每个样本的近红外光谱数据按照时间步长被分成若干个向量(x 1,x 2,x t )后按顺序输入LSTM 单元中,最后输入全连接层Dense ,再经过Sigmoid 函数计算后获得分类结果。
1.2.3.2 门控循环单元网络 GRU 是LSTM 单元结构的一种变体,是将LSTM 单元结构的输入门和遗忘门合并为更新门(Z t ),输出门改为重置门(r t )(图3
)[20]。因此,GRU 相较于LSTM 单元结构简单,参数更少,更便于训练。图3中X t 为本时刻输入的向量,h t−1为上一时刻的输出,h t 为本时刻的输出[21]。用GRU 代替图2中的LSTM 单元,可构成GRU 神经网络模型。
h 图 3 门控循环单元
[21]
Fig.3 Gated recurrent unit [21]
1.2.4 传统机器学习模型建立 本研究采用逻辑回归、朴素贝叶斯、决策树、K 近邻算法四种NLP 常用的传统机器学习模型对山楂果实的近红外光谱数
据进行分析。
1.2.4.1 逻辑回归模型 逻辑回归模型[22]的数学表达式如下所示:
ˆy
=h(x)=g(w 1x 1+w 2x 2+···+w n x n +b)其中,x 是自变量,w 是参数,ŷ是估计值。本研究将山楂果实的近红外光谱特征作为多维自变量x ,品种作为因变量y ,建立逻辑回归模型预测山楂果实的品种。
1.2.4.2 朴素贝叶斯模型 采用朴素贝叶斯模型对山楂果实样本的近红外光谱数据进行分析,以期实现山楂果实品种分类。设C 为山楂果实品种的集合,n 为品种数,则集合为C={c 1,c 2, n }。x 为某一
待分类山楂果实样本的光谱特征集合x={a 1,a 2,a m },m 为光谱的特征数,依据贝叶斯定理,计算每个山楂果实品种对于该待分类山楂果实样本的光谱特征集合x 的条件概率P (c j |a 1,a m
),其中j=1,2,.....m ,条件概率中最大的一项的类即为待分类山楂果实样本所属的品种[23]。
1.2.4.3 决策树模型 采用决策树模型从根节点出
发对待分析山楂果实样本的近红外光谱的一个特征进行判断,根据判断的结果分配到子节点中,进而对山楂果实样本的近红外光谱的下一个特征进行判断分类,如此循环,直到将最后一个特征分配到带有山楂果实品种标签的叶子节点中,实现山楂果实品种的分类[24]。
c h t
t
图 1 LSTM 单元结构[17]Fig.1 Structure of LSTM unit [17]
第 44 卷 第 22 期
邓志扬 ,等: 基于自然语言处理的山楂果实品种近红外无损鉴别方法
· 251 ·
1.2.4.4 K近邻算法 K近邻算法根据距离函数计算待分类的山楂果实样本近红外光谱X与训练集中每个山楂果实样本的近红外光谱之间的距离,选择与待分类山楂果实样本距离最小的K个样本作为X的K个最近邻,最后依据X的近邻中的大多数样本的类别作为X的类别[25]。
1.2.5 数据集划分与模型评价验证 将数据集按照训练集:验证集:测试集=6:2:2划分,训练集用于模型的拟合调试,验证集用于模型超参数的调整,测试集不参与模型的调试只用于检验模型的预测能力。采用外部验证法以验证集和测试集预测的准确率来评价模型的预测能力[26]。
1.3 数据处理
在Jupyter Notebook 6.0.1开发环境下,利用Python 3.7.0对近红外光谱数据进行分析建模,深度学习框架采用Keras 2.3.1,机器学习库采用Scikit-learn 0.21.3,异常光谱检验采用SciPy 1.3.1。
2 结果与分析
2.1 山楂果实的近红外光谱
本研究采用PCA结合马氏距离法进行异常光谱的检测与剔除。共从光谱样本中剔除异常样本9个,其中甜红子樱桃、山里红大果样本各剔除3个,棉球大果样本剔除1个,五棱大果样本剔除2个。图4为剔除异常光谱后的山楂果实的近红外光谱图,由图4可知在5200 cm−1附近有吸收峰,可能与C-H和C=O伸缩振动的合频有关[10];7000 cm−1附近的吸收峰可能与水中O-H的一级倍频有关[27]。该光谱图与Dong等[27]收集的山楂果实的近红外光谱图形状相近。由于山楂果实的近红外光谱吸收峰范围相近,形状相似,难以直接区分品种。
2.2 模型构建
2.2.1 深度学习模型训练 利用四个品种山楂果实的近红外光谱数据训练LSTM与GRU神经网络模型进行品种鉴别,优化后的两种深度学习模型的训练参数与训练结果如表1所示。由表1可知,LSTM 与GRU神经网络模型在训练集中的准确率分别为98.30%±0.46%和97.87%±0.46%,在验证集中的准确率分别为95.47%±0.83%与96.01%±0.63%。
采用混淆矩阵对验证集预测结果进行可视化处理,进一步分析深度学习模型对山楂果实品种鉴别的
准确率。如图5所示,LSTM与GRU神经网络模型对棉球大果鉴别的准确率均较高,均为100%。LSTM 对甜红子樱桃、五棱大果品种的鉴别能力较差,准确率低于90%。GRU神经网络模型对四种山楂果实品种的鉴别准确率较为稳定,均在90%以上。本研究中GRU神经网络模型的准确率略优于LSTM模型,原因推测为数据集规模较小,GRU神经网络模型在较小规模的数据集中的性能往往优于LSTM[28]。
A
1.6
4000
1.4
5000
1.2
6000
1.0
7000
0.8
8000
0.6
9000
0.4
10000
0.2
吸
光
度
波数 (cm−1)
B
1.4
1.2
1.0
0.8
0.6
0.4
0.2
吸
光
度
40005000600070008000900010000
波数 (cm−1)
C
1.4
1.2
1.0
0.8
0.6
0.4
0.2
吸
光
度
40005000600070008000900010000
波数 (cm−1)
D 1.4
1.2
1.0
0.8
0.6
0.4
0.2
吸
光
度
40005000600070008000900010000
波数 (cm−1)
图 4 不同品种山楂果实样本的近红外光谱图
Fig.4 Near-infrared spectra of four hawthorn species 注:A:棉球大果光谱;B:山里红大果光谱;C:五棱大果光谱;D:甜红子樱桃光谱。
表 1 LSTM与GRU神经网络模型的训练参数与结果
Table 1 Training parameters and results of LSTM and GRU neural network models
模型名称训练批次训练轮次时间步长优化器Dropout训练集准确率(%)验证集准确率(%)LSTM5013004Adam0.0098.30±0.4695.47±0.83 GRU神经网络5013004Adam0.0097.87±0.4696.01±0.63 · 252 ·食品工业科技2023年 11 月
2.2.2 不同预处理方法对深度学习模型训练结果的影响 对光谱进行预处理往往可以提升近红外分析模型的准确性,因此,本研究尝试在训练深度学习模型之前对近红外光谱数据进行预处理。光谱进行预处理后,由于数据发生了变化,深度学习模型的参数需要优化调整才能得到较优的效果。优化后的参数如表2所示,深度学习模型在验证集中的准确率如图6所示。
在未预处理的条件下,LSTM 与GRU 神经网络模型的山楂果实品种鉴别的准确率分别为95.47%±0.83%与96.01%±0.63%,准确率高,表明两种NLP 常用的深度学习模型对序列数据特征提取能力强[29],即使在无预处理情况下,也可以充分提取分析不同品种山楂果实近红外光谱数据特征。因此,LSTM 与GRU 神经网络模型不但对文本数据有强的分析能力,对光谱序列数据也有较好的分析效果。经过PCA 预处理后,两种模型的准确率提升至99.46%±0.00%,可见PCA 预处理进一步提升LSTM 与GRU 神经网络模型对不同品种山楂果实光谱特征的提取能力。利用D1预处理后,两种模型的山楂果实品种鉴别的准确率分别提升至98.55%±0.31%、98.73%±0.31%,较之于PCA 略低。利用D2预处理后,两种模型的准确率下降,分别降为93.12%±1.37%、92.57%±0.31%。利用SG 预处理后,LSTM 模型的准确率下降,GRU 神经网络模型的准确率略有提升,准确率分别为93.66%±1.13%、96.20%±1.09%。光谱经预
处理后,准确率下降的可能原因为,SG 、D2预处理虽降低了噪声,但影响了模型对近红外光谱数据的特征提取能力,导致模型对山楂果实品种鉴别的准确率降低[30]。
2.2.3 传统机器学习模型的构建 传统机器学习模型在验证集中的准确率如图7所示,常用于文本分类问题的逻辑回归模型在本研究中的准确率最高,其在无预处理条件下,采用PCA 或SG 算法预处理光谱数据后准确率均为100%。
朴素贝叶斯模型在无预处理的条件下对山楂果实品种鉴别的准确率仅为76.09%,推测原因为朴素贝叶斯模型的假设条件是特征之间相互独立[31],而山楂果实近红外光谱各波长的吸光度数据之间存在着多重共线性问题,即具有较强的相关性[32],不满足朴素贝叶斯模型的假设条件。光谱数据经过PCA 预处理后,朴素贝叶斯模型在验证集中的准确率提升至95.65%。PCA 预处理可将光谱特征降维,组成若干相互独立的、新的一组特征,符合朴素贝叶斯模型成立的假设条件[33]。而D1预处理近红外光谱数据后,朴素贝叶斯模型的准确率提升至89.13%。D1预
棉球大果山里红大果
五棱大果
甜红子樱桃
棉球大果山里红大果
五棱大果
甜红子樱桃
真实值
1.0
0.80.60.40.2
预测值
84.85%
0.00%0.00%
0.00%
0.00%0.00%0.00%0.00%12.12%0.00%
0.00%
100.00%8.33%91.67%15.15%
87.88%
A
棉球大果山里红大果
五棱大果
甜红子樱桃
棉球大果山里红大果
五棱大果
甜红子樱桃
真实值
1.00.80.60.40.2
预测值
0.00%0.00%
0.00%0.00%
0.00%
0.00%0.00%
0.00%
9.09%100.00%2.78%90.91%
90.91%9.09%
91.67% 5.56%
B
图 5 LSTM 与GRU 神经网络模型验证集混淆矩阵Fig.5 Confusion matrix of validation sets for LSTM and GRU
neural network models
注:A :LSTM 模型;B :GRU 神经网络模型。
表 2 深度学习模型的训练参数
Table 2 Training parameters of the deep learning model
预处理方法与模型训练批次训练轮次时间步长优化器Dropout 输出维度LSTM 5013004Adam 0389GRU 神经网络5013004Adam 0389PCA+LSTM 505002Adam 050PCA+GRU 神经网络
505002Adam 050D1+LSTM 5010001Adam 0311D1+GRU 神经网络
5010001Adam 0311D2+LSTM 5010003Adam 0.15311D2+GRU 神经网络
5010003Adam 0.15311SG+LSTM 5010004Adam 0389SG+GRU 神经网络
50
1000
4
Adam
389
10095908580
准确率 (%)
无PCA
D1D2SG
预处理方法
LSTM GRU
图 6 不同预处理方法对深度学习模型验证集准确率的影响Fig.6 Influence of different preprocessing methods on the
validation set accuracy of deep learning models 第 44 卷 第 22 期
邓志扬 ,等: 基于自然语言处理的山楂果实品种近红外无损鉴别方法
· 253 ·
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论