Java机器学习库(JavaML)(⼀、分类)
本⽂章翻译⾄Java ML技术⽂档classification.pdf,代码部分是参考该⽂档使⽤IDEA编写,同时加⼊了运⾏结果。
分类
本⽂介绍与分类相关的功能。
该⽂章假设您已熟悉Java ML的基础知识,如⼊门教程中所述()。数据集下载地址:
download.csdn/download/dbzzcz/12274719
分类基础知识
本⽂介绍了设置分类器、训练算法和评估其性能的基础知识。⾸先我们需要初始化⼀个分类器,然后我们可以⽤⼀些数据来训练它,最后我们可以⽤它来对新的样本进⾏分类。创建⼀个分类器
下⾯的⽰例从iris数据集中加载数据,然后我们构造⼀个K-nearest分类器并⽤数据来训练它。
注:分类器的构建⽅法可能会修改作为参数的数据集。
评估分类器的性能
现在我们已经构造并训练了⼀个分类器,我们可以使⽤它来分类新的实例,在这个例⼦中,我们将重新加载iris数据集,并使⽤训练好的分类器来预测每个实例的类标签.
这个例⼦将遍历iris数据集中的所有样本,并试图通过对其5-nearest的多数投票来预测其分类。在本例中,这将导致145个正确的预测和5个错误的预测。
注:这不是验证该模型是否正确的⽅法。⾄于正确的验证⽅法,请查阅交叉验证法。
在数据集上评估分类器
学习java的学习方法
本⽂向您展⽰如何在数据集上测试分类器的性能。这⾥将介绍两个类。EvaluateDataset,它允许您在数据集上测试分类器。还将引⼊PerformanceMeasure,此类⽤于存储有关分类器性能的信息。
此⽰例加载iris数据集,构造5-nearest分类器并再次加载iris数据。
testDataset⽅法使⽤经过训练的分类器来预测所提供数据集中所有样本的标签。分类器的性能作为映
射返回,映射包含每个类的性能度量。性能度量是围绕着真阳性、真阴性、假阳性和假阴性的值的包装。该类还提供了许多⽅便的⽅法来计算许多聚合度量,如准确性、f-score、召回率、精确度、敏感性、特异性等。
分类交叉验证
在本⽂中,我们将讨论如何使⽤Java-ML执⾏交叉验证。
在本⽂中,我们假设您知道如何从⽂件加载数据、如何创建aclassifier以及如何使⽤PerformanceMeasure。Java ML中的交叉验证可以使⽤CrossValidation类完成。下⾯的代码展⽰了如何使⽤这个类。
本例⾸先加载iris数据集,然后构造⼀个K-nearest分类器,该分类器使⽤5-nearest对样本进⾏分类,在下⼀步中,我们使⽤所构造的分类器创建⼀个交叉验证,最后指⽰交叉验证在加载的数据上运⾏。
默认情况下,将执⾏10倍的交叉验证,每个类的结果将返回到映射类标签到其相应PerformanceMeasure的映射中。
以相同folds执⾏多次
上⾯的⽰例对数据集执⾏三轮交叉验证。前两个使⽤的folds与⽤于创建folds的随机⽣成器使⽤相同的
种⼦初始化的folds完全相同。第三个则运⾏在不同的折叠,因为它使⽤不同的种⼦。
在本例中,我们使⽤了相同的分类器,可以将分类器与不同的分类器交换,并在完全相同的折叠上测试不同的分类器。
Weka分类
通过使⽤Weka Classification桥,可以从Java ML中访问来⾃Weka的分类算法,并使⽤与本机算法相同的⽅法。这个类可以包装在Weka 分类器上,使它们对基于Java ML的程序透明可⽤。
在下⾯的例⼦中,我们⾸先加载iris数据集。接下来,我们使⽤默认设置从Weka创建⼀个⽀持SMO的vectormachine。然后,我们将SMO包裹在WekaClassifierbridge中。最后,我们对分类器进⾏交叉验证并写出结果。
参考⽹站:java-ml.sourceforge/content/classification

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。