文本数据挖掘教学大纲
课程名称:文本数据挖掘
学    分:2
总 学 时:32     理论学时:24         实验学时:8
先修课程:数据库原理与应用、Python高级语言编程、数据结构
适用专业: 数据工程专业
开课学期:第六学期
01课程性质、定位和教学目标
课程性质:文本数据挖掘是数据工程专业的必修课程,本课程以文本数据挖掘为主要内容,讲述实现文本数据挖掘的各主要功能、挖掘算法和应用,并通过对实际数据的分析更加深入地理解常用的文本数据挖掘模型。
课程定位:“文本数据挖掘技术导论”是针对数据工程专业的专业技术课程,同时也是该专业的核心课程,也是本专业创业创新教育课程。在学生专业培养中起到至关重要的作用。
教学目标:通过“文本数据挖掘技术导论”课程的教学,使学生理解文本数据挖掘的基本概念和方法,学习和掌握中的文本数据挖掘的经典方法。使学生能够借助Python高级语言编程工具进行具体文本数据的挖掘分析。
02教学内容与要求
第一章  绪论
【教学目的与要求】 
了解文本挖掘研究背景、意义及国内外研究现状,掌握文本挖掘的概念,了解文本挖掘主要研究领域,了解文本挖掘在制药企业应用案例。
【教学内容】
1.1 文本挖掘研究背景及意义
1.2 文本挖掘的国内外研究现状
1.3 文本挖掘概述
1.4  文本挖掘的过程 
1.5 文本挖掘在制药企业应用案例
【教学重点与难点】 
重点:文本挖掘研究背景、意义国内外研究现状、文本挖掘概念   
难点:文本挖掘的过程
【教学手段】
利用网络环境、多媒体课件,案例教学、实理一体化教学方法等 
【课后作业】
1. 文本挖掘与数据挖掘有何联系和区别?
2. 目前文本挖掘的领域主要涉及到哪些? 
第二章 文本切分及特征词选择
【教学目的与要求】 
掌握文本数据采集的常用方法、了解中文语料库与词典,熟练掌握文本切分和文本特征词选择的方法,熟练掌握Python Jieba分词模块及其用法。
【教学内容】
2.1 文本数据采集
2.2 语料库与词典简介
2.3 文本切分
2.4  文本特征词选择 
python中文文档
2.5 Python Jieba分词模块及其用法
【教学重点与难点】 
重点:文本切分、文本特征词选择、Python Jieba分词模块及其用法   
难点:Python Jieba分词模块及其用法
【教学手段】
利用网络环境、多媒体课件,案例教学、实理一体化教学方法等 
【课后作业】
1 利用现代汉语语料库进行一段中文文本的汉语分词、词性自动标注、字频统计和词频统计。
2 用Python实现双向最大匹配的算法。
3 利用jieba进行一段中文文本的三种模式的分词。
第三章 文本表示模型
【教学目的与要求】 
熟练掌握文本预处理的常用方法、掌握向量模型、概率模型和主题概率模型的概念及Python的实现。
【教学内容】
3.1 文本预处理
3.2 向量空间模型
3.3 概率模型
3.4 主题概率模型 
【教学重点与难点】 
重点:文本预处理、向量空间模型、概率模型、主题概率模型   
难点:主题概率模型
【教学手段】
利用网络环境、多媒体课件,案例教学、实理一体化教学方法等 
【课后作业】
1 给出一段中文文本,利用Python的re.split() 函数,分隔所有短句。
2 给出一段中文文本,去除停用词,完成操作后将结果读出来。
第四章 文本分类
【教学目的与要求】 
了解文本分类意义、国内外研究现状与发展趋势,掌握文本分类的定义,熟练掌握文本分类的流程和文本分类预处理。掌握典型的常用文本分类器,了解分类模型的性能评估。
【教学内容】
4.1 文本分类概述 
4.2 常用文本分类器
4.3 分类模型的性能评估
【教学重点与难点】 
重点:常用文本分类器 
难点:常用文本分类器 
【教学手段】
利用网络环境、多媒体课件,案例教学、实理一体化教学方法等 
【课后作业】
1 给定有类别标注的文本向量集,参考例4.2,对于一组待分类的文本,判断分别属于哪一类。
2 利用Python编程,对给定相关数据验证SVM算法。
3 Python编程,利用朴素贝叶斯分类器实现垃圾邮件过滤。
4 给定相关数据,利用Python编程,验证ID3和C4.5算法。
第五章 文本聚类
【教学目的与要求】 
了解文本聚类意义、国内外研究现状与发展趋势,掌握文本聚类的定义,熟练掌握文本聚类的流程和文本聚类预处理。掌握典型的常用文本聚类器,了解聚类模型的性能评估。
【教学内容】
5.1 文本聚类概述 
5.2 文本聚类原理与方法
5.3 文本聚类评估
【教学重点与难点】 
重点:文本聚类原理与方法 
难点:文本聚类原理与方法 
【教学手段】
利用网络环境、多媒体课件,案例教学、实理一体化教学方法等 
【课后作业】
1 描述基于划分的聚类方法,并分别验证例5.1和例5.2中的k-means、k-medoids聚类。
2 描述基于层次的聚类方法。验证例5.6中AGNES算法。
3 参照例5.9 ,给定一组文档集的向量,利用python实现DBSCAN算法。
第六章 文本关联分析
【教学目的与要求】 
了解文本关联规则基本概念和意义,掌握关联规则分类和关联规则挖掘算法,熟练掌握Apriori 算法,了解FP-Growth算法。
【教学内容】
6.1 引言 
6.2 文本关联规则
6.3 关联规则挖掘算法 
【教学重点与难点】 
重点:文本关联规则、关联规则挖掘算法 
难点:关联规则挖掘算法 
【教学手段】
利用网络环境、多媒体课件,案例教学、实理一体化教学方法等 
【课后作业】
1 简述研究文本关联规则的意义。
2 根据例6.1,理解 Apriori算法的步骤。
第七章 Python处理文本数据简单应用
【教学目的与要求】 
掌握文本集的情感分析、关键词和摘要自动生成的Python实现,掌握使用 SnowNLP 进行商品评价的Python实现,掌握利用Python生成“词云”。
【教学内容】
7.1 情感分析 
7.2自动生成关键词和摘要
7.3 使用 SnowNLP 进行商品评价
7.4 生成“词云” 

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。