⼈⼯智能、机器学习及深度学习的起源和发展
发展时间线
第⼀阶段:⼈⼯智能起步期1956—1980s
1956达特茅斯会议标志AI诞⽣
1957神经⽹络Perceptron被罗森布拉特发明
1970受限于计算能⼒,进⼊第⼀个寒冬
第⼆阶段:专家系统推⼴1980s—1990s
1980 XCON专家系统出现,每年节约4000万美元
1986 BP ,Geoffrey Hinton提出了前馈算法,⼀个通过对输⼊数据按照重要进⾏排序的精准神经⽹络。
1989 卷积,Yann LeCun写了另外⼀篇旷世之作,描述了卷积神经⽹络。这些发现突破了计算机难以解决的问题,譬如从⼀张照⽚中到⼀只猫。
1990——1991 ⼈⼯智能计算机DARPA没能实现,政府投⼊缩减,进⼊第⼆次低⾕
1997 IBM的DeepBlue战胜国际象棋冠军
1997 Schmidhuber发明了长短期记忆⽹络(LSTM)
第三阶段:深度学习2000s—⾄今
2006 Hinton提出“深度学习”的神经⽹络
2011 苹果的Siri问世,技术上不断创新
2012
Google⽆⼈驾驶汽车上路(2009年宣布)
2012年,计算机视觉界顶级⽐赛ILSVRC中,多伦多⼤学Hinton团队所提出的深度卷积神经⽹络结构AlexNet⼀鸣惊
⼈,同时也拉开了深度卷积神经⽹络在计算机视觉领域⼴泛应⽤的序幕。成功原因
⼤量数据,Deep Learning领域应该感谢李飞飞团队搞出来如此⼤的标注数据集合ImageNet;
GPU,这种⾼度并⾏的计算神器确实助了洪荒之⼒,没有神器在⼿,Alex估计不敢搞太复杂的模型;
算法的改进,包括⽹络变深、数据增强、ReLU、Dropout等。
2013 深度学习算法在语⾳和视觉识别上有重⼤突破,识别率超过99%和95%
2014
GoogleNet VGGNet ,Google公司的GoogleNet和⽜津⼤学视觉⼏何组的VGGNet在当年的ILSVRC中再⼀次各⾃使
⽤深度卷积神经⽹络取得了优异的成绩,并在分类错误率上优于AlexNet数个百分点,再⼀次将深度卷积神经⽹络推
上了新的巅峰。
GAN Ian Goodfellow因提出了⽣成对抗⽹络(GANs)⽽闻名,他被誉为“GANs之⽗”,甚⾄被推举为⼈⼯智能领域的
顶级专家。
2015 ResNet 微软亚洲研究院何恺明等发明ResNet,ResNet的核⼼思想是引⼊所谓的“⾝份近路连接(identity shortcut
connection)”,可以跳过⼀层或多层,从⽽解决梯度下降问题。
残差⽹络有这样⼏个特点:
1. ⽹络较瘦,控制了参数数量;
2. 存在明显层级,特征图个数逐层递进,保证输出特征表达能⼒;
3. 使⽤了较少的池化层,⼤量使⽤下采样,提⾼传播效率;
4. 没有使⽤Dropout,利⽤BN和全局平均池化进⾏正则化,加快了训练速度;
5. 层数较⾼时减少了3x3卷积个数,并⽤1x1卷积控制了3x3卷积的输⼊输出特征图数量,称这种结构为“瓶
颈”(bottleneck)。
2016 Deepmind团队的AlphaGo运⽤深度学习算法战胜围棋冠军
概念
⼈⼯智能、机器学习和深度学习的关系
严格意义上来讲,⼈⼯智能和机器学习没有直接关系
⼈⼯智能(AI)是⽬标
机器学习是实现⼿段
深度学习源于机器学习的⼀个技术⽅向:ANN(Artificial Neural Networks,⼈⼯神经⽹络)
⼈⼯智能
⼈⼯智能是计算机科学的⼀个分⽀,它企图了解智能的实质,并⽣产出⼀种新的能以⼈类智能相似的⽅式做出反应的智能机器,该领域的研究包括语⾳识别、图像识别、机器⼈、⾃然语⾔处理、智能搜索和专家系统等。
学派
符号主义
功能模拟⽅法
从定理机器证明、归结⽅法到⾮单调推理理论等⼀系列成就
符号主义学派认为⼈⼯智能源于数学逻辑。数学逻辑从19世纪末起就获得迅速发展,到20世纪30年代开始⽤于
描述智能⾏为。计算机出现后,⼜在计算机上实现了逻辑演绎系统。该学派认为⼈类认知和思维的基本单元是
符号,⽽认知过程就是在符号表⽰上的⼀种运算。符号主义致⼒于⽤计算机的符号操作来模拟⼈的认知过程
其,实质就是模拟⼈的左脑抽象逻辑思维,通过研究⼈类认知系统的功能机理,⽤某种符号来描述⼈类的认知
过程,并把这种符号输⼊到能处理符号的计算机中,从⽽模拟⼈类的认知过程,实现⼈⼯智能。
连接主义
结构模拟⽅法
归纳学习
连接主义(Connectionism)⼜称为仿⽣学派(Bionicsism)或⽣理学派(Physiologism)。是⼀种基于神经⽹络及
⽹络间的连接机制与学习算法的智能模拟⽅法。其原理主要为神经⽹络和神经⽹络间的连接机制和学习算法。
这⼀学派认为⼈⼯智能源于仿⽣学,特别是⼈脑模型的研究。
联结主义学派从神经⽣理学和认知科学的研究成果出发,把⼈的智能归结为⼈脑的⾼层活动的结果,强调智能
活动是由⼤量简单的单元通过复杂的相互连接后并⾏运⾏的结果。其中⼈⼯神经⽹络就是其典型代表性技术。
⾏为主义
⾏为模拟⽅法
反馈控制模式及⼴义遗传算法
智能控制和智能机器⼈系统。
认为智能是系统与环境的交互⾏为,是对外界复杂环境的⼀种适应。这些理论与范式在实践之中都形成了⾃⼰
特有的问题解决⽅法体系,并在不同时期都有成功的实践范例。⾏为主义最早来源于20世纪初的⼀个⼼理学流
派,认为⾏为是有机体⽤以适应环境变化的各种⾝体反应的组合,它的理论⽬标在于预见和控制⾏为。
实现⽅法
⼈⼯智能在计算机上实现时有2种不同的⽅式。
⼀种是采⽤传统的编程技术,使系统呈现智能的效果,⽽不考虑所⽤⽅法是否与⼈或动物机体所⽤的⽅法相
同。这种⽅法叫⼯程学⽅法(ENGINEERING APPROACH),它已在⼀些领域内作出了成果,如⽂字识别、
电脑下棋等。
采⽤这种⽅法,需要⼈⼯详细规定程序逻辑,如果游戏简单,还是⽅便的。如果游戏复杂,⾓⾊数量和活
动空间增加,相应的逻辑就会很复杂(按指数式增长),⼈⼯编程就⾮常繁琐,容易出错。⽽⼀旦出错,
就必须修改原程序,重新编译、调试,最后为⽤户提供⼀个新的版本或提供⼀个新补丁,⾮常⿇烦。
⼀种是模拟法(MODELING APPROACH),它不仅要看效果,还要求实现⽅法也和⼈类或⽣物机体所⽤的⽅
法相同或相类似。
遗传算法(GENERIC ALGORITHM,简称GA)和⼈⼯神经⽹络(ARTIFICIAL NEURAL NETWORK,
简称ANN)均属后⼀类型。遗传算法模拟⼈类或⽣物的遗传-进化机制,⼈⼯神经⽹络则是模拟⼈类或动
物⼤脑中神经细胞的活动⽅式。为了得到相同智能效果,两种⽅式通常都可使⽤。
采⽤这种⽅法时,编程者要为每⼀⾓⾊设计⼀个智能系统(⼀个模块)来进⾏控制,这个智能系统(模
块)开始什么也不懂,就像初⽣婴⼉那样,但它能够学习,能渐渐地适应环境,应付各种复杂情况。这种
系统开始也常犯错误,但它能吸取教训,下⼀次运⾏时就可能改正,⾄少不会永远错下去,⽤不到发布新
版本或打补丁。利⽤这种⽅法来实现⼈⼯智能,要求编程者具有⽣物学的思考⽅法,⼊门难度⼤⼀点。但
⼀旦⼊了门,就可得到⼴泛应⽤。由于这种⽅法编程时⽆须对⾓⾊的活动规律做详细规定,应⽤于复杂问
题,通常会⽐前⼀种⽅法更省⼒。
机器学习
概念
机器学习(Machine Learning)是指⽤某些算法指导计算机利⽤已知数据得出适当的模型,并利⽤此模型对新的情境给出判断的过程。
传统机器学习的研究⽅向主要包括决策树、随机森林、⼈⼯神经⽹络、贝叶斯学习等⽅⾯的研究。
机器学习的思想并不复杂,它仅仅是对⼈类⽣活中学习过程的⼀个模拟。⽽在这整个过程中,最关键的是数据。
基于学习⽅式的分类
(1) 监督学习(有导师学习):输⼊数据中有导师信号,以概率函数、代数函数或⼈⼯神经⽹络为基函数模型,采⽤迭代
计算⽅法,学习结果为函数。[
(2) ⽆监督学习(⽆导师学习):输⼊数据中⽆导师信号,采⽤聚类⽅法,学习结果为类别。典型的⽆导师学习有发现学
习、聚类、竞争学习等。[2]
(3) 强化学习(增强学习):以环境反惯(奖/惩信号)作为输⼈,以统计和动态规划技术为指导的⼀种学习⽅法。[2]
基于学习⽬标的分类
(1) 概念学习:学习的⽬标和结果为概念,或者说是为了获得概念的学习。典型的概念学习主要有⽰例学习。
(2) 规则学习:学习的⽬标和结果为规则,或者为了获得规则的学习。典型规则学习主要有决策树学习。
(3) 函数学习:学习的⽬标和结果为函数,或者说是为了获得函数的学习。典型函数学习主要有神经⽹络学习。[2]
(4) 类别学习:学习的⽬标和结果为对象类,或者说是为了获得类别的学习。典型类别学习主要有聚类分析。
(5) 贝叶斯⽹络学习:学习的⽬标和结果是贝叶斯⽹络,或者说是为了获得贝叶斯⽹络的⼀种学习。其⼜可分为结构
学习和多数学习。[2]
基于学习策略的分类
(1) 模拟⼈脑的机器学习
符号学习:模拟⼈脑的宏现⼼理级学习过程,以认知⼼理学原理为基础,以符号数据为输⼊,以符号运算为⽅
法,⽤推理过程在图或状态空间中搜索,学习的⽬标为概念或规则等。符号学习的典型⽅法有记忆学习、⽰例
学习、演绎学习.类⽐学习、解释学习等。
神经⽹络学习(或连接学习):模拟⼈脑的微观⽣理级学习过程,以脑和神经科学原理为基础,以⼈⼯神经⽹络为
函数结构模型,以数值数据为输⼈,以数值运算为⽅法,⽤迭代过程在系数向量空间中搜索,学习的⽬标为函
数。典型的连接学习有权值修正学习、拓扑结构学习。
(2) 直接采⽤数学⽅法的机器学习
主要有统计机器学习。[2]
统计机器学习是基于对数据的初步认识以及学习⽬的的分析,选择合适的数学模型,拟定超参数,并输⼊
样本数据,依据⼀定的策略,运⽤合适的学习算法对模型进⾏训练,最后运⽤训练好的模型对数据进⾏分
析预测。
统计机器学习三个要素:
模型(model):模型在未进⾏训练前,其可能的参数是多个甚⾄⽆穷的,故可能的模型也是多个甚⾄⽆穷
的,这些模型构成的集合就是假设空间。
策略(strategy):即从假设空间中挑选出参数最优的模型的准则。模型的分类或预测结果与实际情况的误差
(损失函数)越⼩,模型就越好。那么策略就是误差最⼩。
算法(algorithm):即从假设空间中挑选模型的⽅法(等同于求解最佳的模型参数)。机器学习的参数求解通
常都会转化为最优化问题,故学习算法通常是最优化算法,例如最速梯度下降法、⽜顿法以及拟⽜顿法
等。
任何通过数据训练的学习算法的相关研究都属于机器学习,包括很多已经发展多年的技术,⽐如
线性回归(Linear Regression)
K均值(K-means,基于原型的⽬标函数聚类⽅法)
决策树(Decision Trees,运⽤概率分析的⼀种图解法)
随机森林(Random Forest,运⽤概率分析的⼀种图解法)
PCA(Principal Component Analysis,主成分分析)
SVM(Support Vector Machine,⽀持向量机)
ANN(Artificial Neural Networks,⼈⼯神经⽹络)
常见算法
决策树算法
决策树及其变种是⼀类将输⼊空间分成不同的区域,每个区域有独⽴参数的算法。决策树算法充分利⽤了树形
模型,根节点到⼀个叶⼦节点是⼀条分类的路径规则,每个叶⼦节点象征⼀个判断类别。先将样本分成不同的
⼦集,再进⾏分割递推,直⾄每个⼦集得到同类型的样本,从根节点开始测试,到⼦树再到叶⼦节点,即可得
出预测类别。此⽅法的特点是结构简单、处理数据效率较⾼。[4]
朴素贝叶斯算法
朴素贝叶斯算法是⼀种分类算法。它不是单⼀算法,⽽是⼀系列算法,它们都有⼀个共同的原则,即被分类的
每个特征都与任何其他特征的值⽆关。朴素贝叶斯分类器认为这些“特征”中的每⼀个都独⽴地贡献概率,⽽不管
特征之间的任何相关性。然⽽,特征并不总是独⽴的,这通常被视为朴素贝叶斯算法的缺点。简⽽⾔之,朴素
贝叶斯算法允许我们使⽤概率给出⼀组特征来预测⼀个类。与其他常见的分类⽅法相⽐,朴素贝叶斯算法需要
的训练很少。在进⾏预测之前必须完成的唯⼀⼯作是到特征的个体概率分布的参数,这通常可以快速且确定
地完成。这意味着即使对于⾼维数据点或⼤量数据点,朴素贝叶斯分类器也可以表现良好。[4]⽀持向量机算法
基本思想可概括如下:⾸先,要利⽤⼀种变换将空间⾼维化,当然这种变换是⾮线性的,然后,在新的复杂空
间取最优线性分类表⾯[8]。由此种⽅式获得的分类函数在形式上类似于神经⽹络算法。⽀持向量机是统计学习
领域中⼀个代表性算法,但它与传统⽅式的思维⽅法很不同,输⼊空间、提⾼维度从⽽将问题简短化,使问题
归结为线性可分的经典解问题。⽀持向量机应⽤于垃圾邮件识别,⼈脸识别等多种分类问题。[4]随机森林算法
控制数据树⽣成的⽅式有多种,根据前⼈的经验,⼤多数时候更倾向选择分裂属性和剪枝,但这并不能解决所
有问题,偶尔会遇到噪声或分裂属性过多的问题。基于这种情况,总结每次的结果可以得到袋外数据的估计误
差,将它和测试样本的估计误差相结合可以评估组合树学习器的拟合及预测精度。此⽅法的优点有很多,可以
产⽣⾼精度的分类器,并能够处理⼤量的变数,也可以平衡分类资料集之间的误差。[4]
⼈⼯神经⽹络算法
⼈⼯神经⽹络与神经元组成的异常复杂的⽹络此⼤体相似,是个体单元互相连接⽽成,每个单元有数值量的输
⼊和输出,形式可以为实数或线性组合函数。它先要以⼀种学习准则去学习,然后才能进⾏⼯作。当⽹络判断
错误时,通过学习使其减少犯同样错误的可能性。此⽅法有很强的泛化能⼒和⾮线性映射能⼒,可以对信息量
少的系统进⾏模型处理。从功能模拟⾓度看具有并⾏性,且传递信息速度极快。[4]
Boosting与Bagging算法
Boosting是种通⽤的增强基础算法性能的回归分析算法。不需构造⼀个⾼精度的回归分析,只需⼀个粗糙的基
础算法即可,再反复调整基础算法就可以得到较好的组合回归模型。它可以将弱学习算法提⾼为强学习算法,
可以应⽤到其它基础回归算法,如线性回归、神经⽹络等,来提⾼精度。Bagging和前⼀种算法⼤体相似但⼜略
有差别,主要想法是给出已知的弱学习算法和训练集,它需要经过多轮的计算,才可以得到预测函数列,最后
采⽤投票⽅式对⽰例进⾏判别。[4]
关联规则算法
关联规则是⽤规则去描述两个变量或多个变量之间的关系,是客观反映数据本⾝性质的⽅法。它是机器学习的
⼀⼤类任务,可分为两个阶段,先从资料集中到⾼频项⽬组,再去研究它们的关联规则。其得到的分析结果
正则化可以产生稀疏权值即是对变量间规律的总结。[4]
EM(期望最⼤化)算法
在进⾏机器学习的过程中需要⽤到极⼤似然估计等参数估计⽅法,在有潜在变量的情况下,通常选择EM算法,
不是直接对函数对象进⾏极⼤估计,⽽是添加⼀些数据进⾏简化计算,再进⾏极⼤化模拟。它是对本⾝受限制
或⽐较难直接处理的数据的极⼤似然估计算法。[4]
深度学习
深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中⼀个新的研究⽅向,它被引⼊机器学习
使其更接近于最初的⽬标——⼈⼯智能(AI, Artificial Intelligence)。
深度学习是学习样本数据的内在规律和表⽰层次,这些学习过程中获得的信息对诸如⽂字,图像和声⾳等数据
的解释有很⼤的帮助。它的最终⽬标是让机器能够像⼈⼀样具有分析学习能⼒,能够识别⽂字、图像和声⾳等
数据。深度学习是⼀个复杂的机器学习算法,在语⾳和图像识别⽅⾯取得的效果,远远超过先前相关技术。
深度学习在搜索技术、数据挖掘、机器学习、机器翻译、⾃然语⾔处理、多媒体学习、语⾳、推荐和个性化技
术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等⼈类的活动,解决了很多复杂的
模式识别难题,使得⼈⼯智能相关技术取得了很⼤进步。
深度学习
⼈⼯神经⽹络的研究的概念
通过多层处理,逐渐将初始的“低层”特征表⽰转化为“⾼层”特征表⽰后,⽤“简单模型”即可完成复杂的分类等学习任
务。由此可将深度学习理解为进⾏“特征学习”(feature learning)或“表⽰学习”(representation learning)
以往在机器学习⽤于现实任务时,描述样本的特征通常需由⼈类专家来设计,这成为“特征⼯程”(feature
engineering)
特征学习(表征学习)则通过机器学习技术⾃⾝来产⽣好特征,这使机器学习向“全⾃动数据分析”⼜前进了⼀步
深度学习是机器学习现在⽐较⽕的⼀个⽅向,其本⾝是神经⽹络算法的衍⽣,在图像、语⾳等富媒体的分类和识别上取得了⾮常好的效果。
根据统计学习的⼀般规律知道,模型参数越多,需要参与训练的数据量也越⼤
⾃从2006年, Hinton等提出快速计算受限玻⽿兹曼机(RBM)⽹络权值及偏差的CD-K算法以后,RBM就成了增加神经
⽹络深度的有⼒⼯具,导致后⾯使⽤⼴泛的DBN(由 Hinton等开发并已被微软等公司⽤于语⾳识别中)等深度⽹络的出
现。与此同时,稀疏编码等由于能⾃动从数据中提取特征也被应⽤于深度学习中。基于局部数据区域的卷积神经⽹络
⽅法今年来也被⼤量研究。 [2]
典型模型
CNN:卷积神经⽹络( convolutional neural network)
基于卷积运算的神经⽹络系统
在⽆监督预训练出现之前,训练深度神经⽹络通常⾮常困难,⽽其中⼀个特例是卷积神经⽹络。卷积神经⽹络
受视觉系统的结构启发⽽产⽣。第⼀个卷积神经⽹络计算模型是在Fukushima(D的神经认知机中提出的,基于
神经元之间的局部连接和分层组织图像转换,将有相同参数的神经元应⽤于前⼀层神经⽹络的不同位置,得到
⼀种平移不变神经⽹络结构形式。后来,Le Cun等⼈在该思想的基础上,⽤误差梯度设计并训练卷积神经⽹
络,在⼀些模式识别任务上得到优越的性能。⾄今,基于卷积神经⽹络的模式识别系统是最好的实现系统之
⼀,尤其在⼿写体字符识别任务上表现出⾮凡的性能。
DBN:深度置信⽹络
以多层⾃编码神经⽹络的⽅式进⾏预训练,进⽽结合鉴别信息进⼀步优化神经⽹络权值
堆栈⾃编码⽹络模型
⾃编码( Auto encoder)和稀疏编码( Sparse Coding)
基于多层神经元的⾃编码神经⽹络
堆栈⾃编码⽹络的结构与DBN类似,由若⼲结构单元堆栈组成,不同之处在于其结构单元为⾃编码模型( auto-
en-coder)⽽不是RBM。⾃编码模型是⼀个两层的神经⽹络,第⼀层称为编码层,第⼆层称为解码层。 [5] 深度学习训练过程
在⾮监督数据上建⽴多层神经⽹络的⼀个有效⽅法
具体分为两步:⾸先逐层构建单层神经元,这样每次都是训练⼀个单层⽹络;当所有层训练完后,使⽤wake-
sleep算法进⾏调优。[6]
将除最顶层的其他层间的权重变为双向的,这样最顶层仍然是⼀个单层神经⽹络,⽽其他层则变为了图模
型。向上的权重⽤于“认知”,向下的权重⽤于“⽣成”。然后使⽤wake-sleep算法调整所有的权重。让认知
和⽣成达成⼀致,也就是保证⽣成的最顶层表⽰能够尽可能正确的复原底层的节点。⽐如顶层的⼀个节点
表⽰⼈脸,那么所有⼈脸的图像应该激活这个节点,并且这个结果向下⽣成的图像应该能够表现为⼀个⼤
概的⼈脸图像。wake-sleep算法分为醒( wake)和睡(sleep)两个部分。[6]
wake阶段:认知过程,通过外界的特征和向上的权重产⽣每⼀层的抽象表⽰,并且使⽤梯度下降修
改层间的下⾏权重。[6]
sleep阶段:⽣成过程,通过顶层表⽰和向下权重,⽣成底层的状态,同时修改层间向上的权重。[6]⾃下上升的⾮监督学习
就是从底层开始,⼀层⼀层地往顶层训练。采⽤⽆标定数据(有标定数据也可)分层训练各层参数,这⼀步可
以看作是⼀个⽆监督训练过程,这也是和传统神经⽹络区别最⼤的部分,可以看作是特征学习过程。具体的,
先⽤⽆标定数据训练第⼀层,训练时先学习第⼀层的参数,这层可以看作是得到⼀个使得输出和输⼊差别最⼩
的三层神经⽹络的隐层,由于模型容量的限制以及稀疏性约束,使得得到的模型能够学习到数据本⾝的结构,
从⽽得到⽐输⼊更具有表⽰能⼒的特征;在学习得到n-l层后,将n-l层的输出作为第n层的输⼊,训练第n层,由
此分别得到各层的参数。[6]
⾃顶向下的监督学习
就是通过带标签的数据去训练,误差⾃顶向下传输,对⽹络进⾏微调。基于第⼀步得到的各层参数进⼀步优调
整个多层模型的参数,这⼀步是⼀个有监督训练过程。第⼀步类似神经⽹络的随机初始化初值过程,由于第⼀
步不是随机初始化,⽽是通过学习输⼊数据的结构得到的,因⽽这个初值更接近全局最优,从⽽能够取得更好
的效果。所以深度学习的良好效果在很⼤程度上归功于第⼀步的特征学习的过程。[6]
算法
⼈⼯神经⽹络
概念
⼈⼯神经⽹络(Artificial Neural Networks,ANN)系统是 20 世纪 40 年代后出现的。它是由众多的神经元可调的连
接权值连接⽽成,具有⼤规模并⾏处理、分布式信息存储、良好的⾃组织⾃学习能⼒等特点。BP(Back
Propagation)算法⼜称为误差反向传播算法,是⼈⼯神经⽹络中的⼀种监督式的学习算法。BP 神经⽹络算法在理
论上可以逼近任意函数,基本的结构由⾮线性变化单元组成,具有很强的⾮线性映射能⼒。⽽且⽹络的中间层数、各
层的处理单元数及⽹络的学习系数等参数可根据具体情况设定,灵活性很⼤,在优化、信号处理与模式识别、智能控
制、故障诊断等许多领域都有着⼴泛的应⽤前景。
时间发展线
1943年
⼼理学家W·Mcculloch和数理逻辑学家W·Pitts在分析、总结神经元基本特性的基础上⾸先提出神经元的数学模
型。此模型沿⽤⾄今,并且直接影响着这⼀领域研究的进展。因⽽,他们两⼈可称为⼈⼯神经⽹络研究的先
驱。
1945年
冯·诺依曼领导的设计⼩组试制成功存储程序式电⼦计算机,标志着电⼦计算机时代的开始。1948年,他在研究
⼯作中⽐较了⼈脑结构与存储程序式计算机的根本区别,提出了以简单神经元构成的再⽣⾃动机⽹络结构。但
是,由于指令存储式计算机技术的发展⾮常迅速,迫使他放弃了神经⽹络研究的新途径,继续投⾝于指令存储
式计算机技术的研究,并在此领域作出了巨⼤贡献。虽然,冯·诺依曼的名字是与普通计算机联系在⼀起的,但
他也是⼈⼯神经⽹络研究的先驱之⼀。
50年代末
F·Rosenblatt设计制作了“感知机”,它是⼀种多层的神经⽹络。这项⼯作⾸次把⼈⼯神经⽹络的研究从理论探讨
付诸⼯程实践。当时,世界上许多实验室仿效制作感知机,分别应⽤于⽂字识别、声⾳识别、声纳信号识别以
及学习记忆问题的研究。然⽽,这次⼈⼯神经⽹络的研究⾼潮未能持续很久,许多⼈陆续放弃了这⽅⾯的研究
⼯作,这是因为当时数字计算机的发展处于全盛时期,许多⼈误以为数字计算机可以解决⼈⼯智能、模式识
别、专家系统等⽅⾯的⼀切问题,使感知机的⼯作得不到重视;其次,当时的电⼦技术⼯艺⽔平⽐较落后,主
要的元件是电⼦管或晶体管,利⽤它们制作的神经⽹络体积庞⼤,价格昂贵,要制作在规模上与真实的神经⽹
络相似是完全不可能的;另外,在1968年⼀本名为《感知机》的著作中指出线性感知机功能是有限的,它不能
解决如异感这样的基本问题,⽽且多层⽹络还不能到有效的计算⽅法,这些论点促使⼤批研究⼈员对于⼈⼯
神经⽹络的前景失去信⼼。60年代末期,⼈⼯神经⽹络的研究进⼊了低潮。
60年代初期
Widrow提出了⾃适应线性元件⽹络,这是⼀种连续取值的线性加权求和阈值⽹络。后来,在此基础上发展了⾮
线性多层⾃适应⽹络。当时,这些⼯作虽未标出神经⽹络的名称,⽽实际上就是⼀种⼈⼯神经⽹络模型。
80年代初期
模拟与数字混合的超⼤规模集成电路制作技术提⾼到新的⽔平,完全付诸实⽤化,此外,数字计算机的发展在
若⼲应⽤领域遇到困难。这⼀背景预⽰,向⼈⼯神经⽹络寻求出路的时机已经成熟。美国的物理学家Hopfield于1982年和1984年在美国科学院院刊上发表了两篇关于⼈⼯神经⽹络研究的论⽂,引起了巨⼤的反响。⼈们重新认识到神经⽹络的威⼒以及付诸应⽤的现实性。随即,⼀⼤批学者和研究⼈员围绕着 Hopfield提出的⽅法展开
了进⼀步的⼯作,形成了80年代中期以来⼈⼯神经⽹络的研究热潮。
1985年 BM机
Ackley、Hinton和Sejnowski将模拟退⽕算法应⽤到神经⽹络训练中,提出了Boltzmann机,该算法具有逃离极
值的优点,但是训练时间需要很长。
1986年 BP算法
Rumelhart、Hinton和Williams提出了多层前馈神经⽹络的学习算法,即BP算法。它从证明的⾓度推导算法的正确性,是学习算法有理论依据。从学习算法⾓度上看,是⼀个很⼤的进步。
1988年 RBF⽹络
Broomhead和Lowe第⼀次提出了径向基⽹络:RBF⽹络。
模型
前向神经⽹络
DNN:深度神经⽹络
CNN:卷积神经⽹络
反馈神经⽹络
RNN:循环神经⽹络
LSTM:逆递归神经⽹络
玻尔兹曼机
RBM:受限玻尔兹曼机
分类
1基础
1.FNN(前馈神经⽹络)(FP)
2.BP(反向传播算法)浅层
3.DNN
2卷积神经⽹络
4.CNN
3循环神经⽹络
5.RNN
6.LSTM
4⾃编码器
5其他
7.GAN
8.DBN

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。