机器学习常⽤的分类算法优缺点、
⾯试过程中,当与⾯试聊到某种机器学习的算法的时候会提及某种算法的优缺点。
⽬录
正则化算法(Regularization Algorithms)
它是另⼀种⽅法(通常是回归⽅法)的拓展,这种⽅法会基于模型复杂性对其进⾏惩罚,它喜欢相对简单能够更好的泛化的模型。例⼦:
优点:
缺点:
集成算法(Ensemble algorithms)
集成⽅法是由多个较弱的模型集成模型组,其中的模型可以单独进⾏训练,并且它们的预测能以某种⽅式结合起来去做出⼀个总体预测。
该算法主要的问题是要出哪些较弱的模型可以结合起来,以及结合的⽅法。这是⼀个⾮常强⼤的技术集,因此⼴受欢迎。
优点:
缺点:
决策树算法(Decision Tree Algorithm)
决策树学习使⽤⼀个决策树作为⼀个预测模型,它将对⼀个 item(表征在分⽀上)观察所得映射成关于该 item 的⽬标值的结论(表征在叶⼦中)。
树模型中的⽬标是可变的,可以采⼀组有限值,被称为分类树;在这些树结构中,叶⼦表⽰类标签,分⽀表⽰表征这些类标签的连接的特征。
例⼦:
优点:
缺点:
回归(Regression)算法
回归是⽤于估计两种变量之间关系的统计过程。当⽤于分析因变量和⼀个 多个⾃变量之间的关系时,该算法能提供很多建模和分析多个变量的技巧。具体⼀点说,回归分析可以帮助我们理解当任意⼀个⾃变量变化,另⼀个⾃变量不变时,因变量变化的典型值。最常见的是,回归分析能在给定⾃变量的条件下估计出因变量的条件期望。
回归算法是统计学中的主要算法,它已被纳⼊统计机器学习。
例⼦:
优点:
缺点:
⼈⼯神经⽹络
⼈⼯神经⽹络是受⽣物神经⽹络启发⽽构建的算法模型。
它是⼀种模式匹配,常被⽤于回归和分类问题,但拥有庞⼤的⼦域,由数百种算法和各类问题的变体组成。
例⼦:
优点:
缺点:
需要⼤量数据进⾏训练
训练要求很⾼的硬件配置
模型处于「⿊箱状态」,难以理解内部机制
元参数(Metaparameter)与⽹络拓扑选择困难。
深度学习(Deep Learning)
深度学习是⼈⼯神经⽹络的最新分⽀,它受益于当代硬件的快速发展。
众多研究者⽬前的⽅向主要集中于构建更⼤、更复杂的神经⽹络,⽬前有许多⽅法正在聚焦半监督学习问题,其中⽤于训练的⼤数据集只包含很少的标记。
bootstrapped例⼦:
优点/缺点
优点/缺点:见神经⽹络
⽀持向量机(Support Vector Machines)
给定⼀组训练事例,其中每个事例都属于两个类别中的⼀个,⽀持向量机(SVM)训练算法可以在被输⼊新的事例后将其分类到两个类别中的⼀个,使⾃⾝成为⾮概率⼆进制线性分类器。
SVM 模型将训练事例表⽰为空间中的点,它们被映射到⼀幅图中,由⼀条明确的、尽可能宽的间隔分开以区分两个类别。
随后,新的⽰例会被映射到同⼀空间中,并基于它们落在间隔的哪⼀侧来预测它属于的类别。
优点:
在⾮线性可分问题上表现优秀
缺点:
降维算法(Dimensionality Reduction Algorithms)
和集簇⽅法类似,降维追求并利⽤数据的内在结构,⽬的在于使⽤较少的信息总结或描述数据。
这⼀算法可⽤于可视化⾼维数据或简化接下来可⽤于监督学习中的数据。许多这样的⽅法可针对分类和回归的使⽤进⾏调整。
例⼦:
优点:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论