《Python自然语言处理入门与实战》教学大纲
课程名称:Python自然语言处理入门与实战
课程类别:必修
适用专业:大数据技术类相关专业
总学时:64学时(其中理论34学时,实验30学时)
总学分:4.0学分
一、课程的性质
自然语言处理作为人工智能的一个重要分支,促进了社会传播学的发展,并且在新闻传播领域中的影响也越来越深刻。社会传播学是一门研究人类交流形式的学问,新闻包含于传播之中,而语言交流和文字交流是人类最重要的交流方式。分析语言的成分和结构,理解语义和深层意义,是社会传播学与自然语言处理的共同任务。自然语言处理与社会传播学的融合研究正在成为新的趋势,中文自然语言处理能够迅速且有效地处理新媒体特别是网络和社交媒
体中海量的内容与知识,能够有效加速社会传播学的研究进展。由于中文自然语言处理的研究起步较晚,加上中文语句本身结构更为松散,语法和语义更为灵活,因此无法直接套用英文自然语言处理中较成熟的理论和技术。与具有相对完善理论框架的社会传播学进行结合能够为中文自然语言处理的发展带来新的机遇。为了推动我国大数据,云计算,人工智能和新闻传媒行业的发展,满足日益增长的数据分析人才需求,特开设Python自然语言处理入门与实战。
二、课程的任务
通过本课程的学习,使学生学会使用Python进行数据爬取、分词与词性标注、命名实体识别、关键词提取、文本向量化、文本相似度计算、文本分类与聚类,并详细拆解学习情感分类、文本分类和智能推荐三个实际案例,将理论与实践相结合,为将来从事数据分析挖掘研究、工作奠定基础。
三、课程学时分配
序号 | 教学内容 | 理论学时 | 实验学时 | 其它 |
1 | 第1章 导论 | 2 | 1 | |
2 | 第2章 文本数据爬取 | 4 | 2 | |
3 | 第3章 文本基础处理 | 8 | 4 | |
4 | 第4章 文本进阶处理 | 8 | 4 | |
5 | 第5章 天问一号事件中的网民评论情感分析 | 4 | 5 | |
6 | 第6章 新闻文本分类 | 4 | 6 | |
7 | 第7章 基于浏览记录的个性化 新闻推荐 | 4 | 6 | |
8 | 第8章基于TipDM大数据挖掘建模平台实现新闻文本分类 | 0 | 2 | |
总计 | 威斯布鲁克关键球 34 | 30 | ||
四、教学内容及学时安排
光盘安装linux系统步骤1.理论教学
序号 | 章节名称 | 主要内容 | 教学目标 | 学时 |
1 | 导论 | 1. 了解自然语言处理的概念 2. 了解自然语言处理的发展历程 3. 了解自然语言处理的主要内容 4. 了解自然语言处理的常用工具 5. 了解Python数据分析的优势 6. 了解Python数据分析的常用类库 7. 在Windows操作系统上安装Anaconda 8. 创建自然语言处理虚拟环境 | 1. 了解自然语言处理的概念、发展历程与主要内容 2. 了解自然语言处理的常用库 3. 掌握Windows系统下Anaconda安装 4. 掌握自然语言处理虚拟环境的创建方法 | 2 |
2 | 文本数据爬取 | 1. 熟悉HTTP的常见请求方法 2. 熟悉HTTP的与过程 3. 熟悉常见的HTTP状态码 4. 熟悉常见的HTTP头字段 5. 熟悉HTTP的Cookie机制 exformation6. 爬取静态网页的数据 7. 了解静态网页和动态网页的区别 8. 使用逆向分析和Selenium库爬取动态网页 | 1. 熟悉HTTP请求方法与过程 2. 熟悉常见的HTTP状态码、头字段和Cookie 3. 掌握静态网页数据的爬取方法 4. 了解静态网页和动态网页的区别。 5. 掌握逆向分析和使用Selenium库爬取动态网页的方法。 | 4 |
3 | 文本基础处理 | 1. 了解语料库的基本概念、用途、类型 2. 构建语料库 3. 了解中文分词的基本概念和常用方法 4. 使用中文分词工具jieba库进行分词 5. 了解词性标注和命名实体识别的基本概念 6. 使用jieba进行词性标注 7. 使用jieba进行命名实体识别 8. 了解关键词提取的基本概念 9. 提取文本中的关键词 | 1. 了解语料库的基本概念、用途、类型和构建原则 2. 了解中文分词的基本概念和常用方法 3. 掌握中文分词工具jieba库的使用方法 4. 了解词性标注和命名实体识别的基本概念 5. 熟悉jieba词性标注的流程和命名实体识别的实现流程 6. 了解关键词提取的基本概念 7. 掌握关键词提取的方法。 | 8 |
4 | 文本进阶处理 | 1. 了解文本向量化的基本概念。 2. 了解文本离散表示的常用方法 3. 熟悉文本向量化模型Word2Vec和Doc2Vec的基本原理 4. 掌握Word2Vec和Doc2Vec模型的训练流程和网络结构 5. 计算文本的相似度 6. 了解文本挖掘的基本概念 7. 熟悉常用的文本分类和聚类算法 python入门教程(非常详细)书8. 实现文本分类 9. 实现文本聚类 | 1. 了解文本向量化的基本概念 2. 了解文本离散表示的常用方法 3. 熟悉文本向量化模型Word2Vec和Doc2Vec的基本原理 4. 掌握Word2Vec和Doc2Vec模型的训练流程和网络结构,以及文本相似度的计算方法 5. 了解文本挖掘的基本概念 6. 熟悉常用的文本分类和聚类算法 7. 掌握实现文本分类和聚类的步骤 | 8 |
5 | 天问一号事件中的网民评论情感分析 | 1. 了解案例背景 2. 了解数据现状 3. 了解案例的目标 4. 对数据进行可视化分析 5. 对文本进行中文分词、去停用词等处理 6. 对预处理后的文本进行向量化 7. 使用朴素贝叶斯分类算法构建分类模型 8. 对构建的分类模型进行模型评估 | 1. 了解天问一号事件bilibili网站用户评论情感分析案例背景、数据和目标 2. 掌握数据探索的方法 livesplit怎么保存3. 掌握文本预处理的方法 4. 掌握朴素贝叶斯分类算法的使用方法,构建分类模型和进行模型优化的方法 5. 掌握分类模型评估方法 | 4 |
6 | 新闻文本分类 | 1. 了解案例的业务背景 2. 熟悉数据说明 3. 了解分析目标 4. 对数据进行基本的清洗 5. 进行可视化展示 6. 对文本进行基础处理和向量化 7. 基于支持向量机分类算法构建分类模型 8. 对构建的分类模型进行模型评价 | 1. 了解新闻文本分类案例的业务背景、数据说明和分析目标 2. 掌握数据探索的方法 3. 掌握文本预处理的方法 4. 熟悉支持向量机分类算法,构建分类模型和模型优化的方法 5. 掌握分类模型的评价方法 | 4 |
7 | 基于浏览记录的个性化新闻推荐 | 1. 了解个性化新闻推荐案例的背景 2. 熟悉案例数 3. 了解分析目标。 4. 探索数据的基本情况并进行可视化展示 5. 对浏览数据进行基础处理 6. 基于物品的协同过滤推荐算法构建推荐模型。 7. 对构建的推荐模型进行模型评估。 | 1. 了解个性化新闻推荐案例的背景、数据和分析目标。 2. 掌握常用数据探索方法 3. 掌握常用数据预处理的方法 4. 掌握基于物品的协同过滤推荐算法的使用方法。 5. 掌握协同过滤推荐算法的评价方法 | 4 |
学 时 合 计 | 30 | |||
2.实验教学
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论