《文本挖掘技术》课程教学大纲
一、课程基本信息
课程编号:12183
课程名称:文本挖掘技术
英文名称:Text mining technology
课程类型:专业课
课程要求:选修
学时/学分:48/3(讲课学时:32 实验学时:16)
先修课程:概率论与数理统计、线性代数理论与应用、Python语言程序设计、R语言与应用统计分析
后续课程:毕业设计
适用专业:数据科学与大数据技术
二、课程描述
“文本挖掘技术”是数据科学与大数据技术专业的选修课。作为一种跨领域的应用,文本挖掘综合运用信息检索、信息提取、计算语言、自然语言处理、数据挖掘等多种技术,从非结构或半结构的文本中挖掘出先前未知、隐含而有用的信息。本课程主要讲授文本挖掘中的关键技术,包括文本特征选择、信息采集、文本分类、文本聚类、情感分析、短文本计算、文本关联分析等。以互联网上收集的数据为背景,引导学生利用Python语言和R语言编制程序在实务案例中进行文本挖掘。通过本课程的学习,使学生能够了解文本挖掘技术的应用领域,掌握文本挖掘的基本处理和分析方法,进而为大数据领域的数据分析和数据挖掘应用打下坚实的基础。
三、课程教学目标
1.了解文本挖掘的基本思想和基本技术,能够基于文本挖掘的原理并采用文本特征选择、文本分类、文本聚类、文本关联分析等一系列方法对复杂文本挖掘问题进行研究,包括算法设
计、程序设计、分析与结果解释、并通过信息综合得到合理有效的结论。(支持毕业能力要求2)
2.掌握以Python语言和R语言为工具的数据分析与挖掘系统的开发和设计方法,并能够针对相对复杂的文本挖掘系统设计解决方案,编写程序进行求解。(支持毕业能力要求1)
四、教学内容、安排及教学目标得对应关系
序号 | 教学内容 | 教学要求 | 学时 | 教学 方式 | 对应课程教学目标 |
1 | 一、绪论 1.1 文本挖掘研究背景及意义 1.2 文本挖掘概述 1.3 整合文本挖掘与数据挖掘 | (1)了解文本挖掘研究背景、研究现状、应用领域和发展趋势;(2)能够阐述文本挖掘的过程和文本挖掘核心技术;(3)能够对文本挖掘和数据挖掘进行对比。 | 4 | 讲授 | 1 |
2 | 二、文本特征选择 2.1 常用的文本特征权重计算方法 2.2文本特征选择方法 | (1)了解文本的表示方法;(2)掌握常用的文本特征权重计算方法;(3)能够阐述3种文本特征选择方法的基本思想并能恰当运用。 | 4 | 讲授 | 2 |
3 | 上机实验:验证文本特征选择性能 | 能够运用Python语言实现3种文本特征选择方法,并进行性能比较。 | 2 | 实验 | 2 |
4 | 三、文本挖掘之爬虫 3.1 Rfacebook、Rweibo、R Twitter介绍 3.2 网页爬虫 3.3 SpideR | (1)了解Rfacebook、Rweibo、R Twitter的基本功能;(2)熟悉并会使用爬取一般网页文字和PPT网页文字的实现程序;(3)能够阐述SpideR的工作模式。 | 4 | 讲授 | 1 |
5 | 上机实验:网页爬虫 | 能够运用R语言编写程序在网页上爬取数据。 | 2 | 实验 | 2 |
6 | 四、文本分类 4.1 常用的文本分类器 4.2 基于粗糙集理论的文本分类研究 4.3 ID3算法的优化 | (1)掌握KNN、SVM、Rocchio、Navie Bayes、决策树等五种分类器的性能;(2)理解粗糙集抽取分类规则;(3)ID3算法的改进原理。 | 4 | 讲授 | 2 |
7 | 五、基于监督和半监督的文本情感分类 5.1 常用的监督和半监督文本分类算法 5.2 基于带先验的最大熵歌词情感分类 5.3 基于图的半监督学习文本情感分类算法 | (1)了解常用的监督和半监督文本分类算法的基本思想;(2)了解基于带先验的最大熵歌词情感分类算法的实现过程;(3)了解基于图的半监督学习文本情感分类算法的实现过程。 | 4 | 讲授 | 2 |
8 | 上机实验:Navie Bayes文本分类 | 能够在Python语言环境中实现Navie Bayes文本分类方法。 | 4 | 实验 | 2 |
9 | 六、文本聚类 6.1 主要聚类方法 6.2 K-Means算法的改进 6.3 无监督文本特征选择方法 | (1)理解几类聚类方法的基本思想;(2了解使用ISA算法对K-Means算法的改进思想; (3)能够阐述无监督文本特征选择方法的基本思想。 | 4 | 讲授 | 2 |
10 | 上机实验:K-Means算法实现 | 能够在Python语言环境中实现K-Means聚类算法。 | 4 | 实验 | 2 |
11网页开发课程 | 七、基于统计语言模型的短文本计算 7.1 文本信息处理 7.2 基于N-gram的特征提取和RPCL的短文本聚类算法 | (1)了解文本表示模型和文本特征项权重计算;(2)能够通过N-gram的特征提取和RPCL的短文本聚类算法评价文本挖掘的性能指标。 | 4 | 讲授 | 2 |
12 | 八、文本关联分析 8.1 文本关联规则 8.2 频繁项集挖掘算法 8.3 文本关联规则挖掘 | (1)了解文本关联规则的基本思想;(2)能够阐述Apriori和FP-Growth两种频繁项集挖掘算法的基本原理; (3)能够说明N个最频繁项集挖掘算法和TOP-NSetlnvertedLIst算法的分析过程。 | 4 | 讲授 | 2 |
13 | 上机实验:关联分析Apriori算法实现 | 能够在Python语言环境中实现关联分析Apriori算法。 | 4 | 实验 | 2 |
五、其他教学环节(课外教学环节、要求、目标)
1.自学
文本挖掘之爬虫在授课前自学授课内容,能够掌握Rfacebook、Rweibo、R Twitter基本功能。
2.运用
在文本分类基于监督和半监督的文本情感分类、文本聚类、文本关联分析单元学习后,自行收集资料,阅读文献,分别对某个有实际工程背景的应用问题设计解决方案。
六、教学方法
1. 基于项目案例展开教学,预先设置学习目标,每部分知识学习和技能掌握随课程进程展开,所学内容直接用于解决实际问题。
2. 综合运用各种教学手段,包括电子教案、工程环境、实验平台、网络课堂等,构建立体化的教学环境,引进优质教学资源,促进学生的个性化学习和动手能力的提升。
3. 采用讲授、讨论、集中讲授和分组实验等教学组织形式,有效地调动学生学习的积极性,促进学生积极思考,激发学生的潜能。
4. 利用课外作业加深和拓展技能,提高针对复杂数据管理问题的实验设计、分析与解释、通过信息综合得到有效结论,和独立解决问题的能力。
七、学习评量
最终成绩由平时作业成绩、实验成绩、期末成绩等组合而成。各部分内容及所占比例如下:
1.平时成绩(30%)
(1)平时作业成绩:10%。主要考核对重要知识点的复习、理解和掌握程度;以答题数量和正确率为评价标准。
(2)实验成绩:20%。主要考核学生实验情况。共分为4次实验,每次实验5分。
2. 期末考试成绩(70%)
主要考核分布式计算系统的基本原理和应用。书面考试形式。题型包括:选择题、填空题、简答题、综合题等。
八、教学资源
1.教材
[1]朱颢东.文本挖掘中若干核心技术研究.北京理工大学出版社,2017.
2. 参考数目
[1]谢邦昌等.文本挖掘技术及其应用.厦门大学出版社,2016.
[2]何慧等.Web文本挖掘技术理论与应用.电子工业出版社,2017.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论