(19)中华人民共和国国家知识产权局
(12)发明专利说明书 | ||
(10)申请公布号 CN 111104552 A (43)申请公布日 2020.05.05 | ||
(21)申请号 CN201911347391.3
正则匹配公司名称(22)申请日 2019.12.24
(71)申请人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘路866号
(72)发明人 詹珂 杜歆
(74)专利代理机构 杭州求是专利事务所有限公司
代理人 邱启旺
(51)Int.CI
权利要求说明书 说明书 幅图 |
(54)发明名称
一种基于电影结构化信息和简介预测电影评分类别的方法 | |
(57)摘要
本发明公开了一种基于电影结构化信息和简介预测电影评分类别的方法。该方法首先对电影的结构化信息和电影的简介进行清洗和预处理,构建电影结构化信息的“电影实体‑关系‑信息实体”三元组以及电影简介的文本数据集。利用电影结构化信息生成的三元组训练电影实体向量,利用电影简介的文本数据训练出文档向量。将电影实体向量和文档向量拼接组成的电影特征向量输入电影对应的评分训练分类模型,预测电影评分的类别。本发明通过结合电影自身信息构建分类模型,没有涉及用户相关的评价和情感偏好,提升了预测电影评分分类的准确率,可以有效解决进行新片评分预测的“冷启动”问题。 | |
法律状态
法律状态公告日 | 法律状态信息 | 法律状态 |
权 利 要 求 说 明 书
1.一种基于电影结构化信息和简介预测电影评分类别的方法,其特征在于,该方法包含以下步骤:
(1)对电影的结构化信息和简介进行清洗和预处理。具体包括以下子步骤:
(1.1)删除电影简介过少、电影简介异常或者缺失电影简介的电影样本;
(1.2)删除电影简介中的特殊符号等非文本信息;
(1.3)将结构化信息中演员、导演等人名加入词库,对电影简介进行分词处理,并删除停用词;
(1.4)删除缺失类型、语言、导演、演员、编剧等结构化信息的电影样本,得到清洗过的结构化信息;
(1.5)将清洗过的结构化信息生成“电影实体-关系-信息实体”的三元组,所述电影实体为电影名称,信息实体包括电影的类型、语言、导演、演员、编剧等。
(2)使用电影结构化信息生成的三元组训练生成电影实体向量。具体包括以下子步骤:
(2.1)每个电影实体分配唯一的电影实体向量f,每个关系分配唯一的关系向量r,每个信息实体分配唯一的信息实体向量i;
(2.2)设置电影实体向量、关系向量和信息实体向量的维度,训练轮数,批量大小等参数,使用“电影实体-关系-信息实体”的三元组作为正样本,同时通过结构化信息自动生成负样本采样,将正样本和负样本同时输入定义实体向量生成模型,训练生成电影实体向量。
(3)使用电影简介训练生成文档向量。具体包括以下子步骤:
(3.1)每条电影简介分配唯一的文档ID,根据文档ID生成文档向量,每个单词分配唯一的单词ID,根据单词ID生成单词向量;
(3.2)设置doc2vec文档向量模型的窗口大小,负样本数等参数,使用电影的文档向量、单词向量作为doc2vec文档向量模型的输入,训练生成文档向量。
(4)使用训练生成的电影实体向量和文档向量训练电影评分预测分类模型,使用训练好的电影评分预测分类模型预测新电影的评分类别。具体包括以下子步骤:
(4.1)将训练生成的电影实体向量和文档向量依次拼接,作为电影评分预测分类模型输入,将电影的评分分为低、中、高三类作为对应的类别训练出评分预测分类模型;
(4.2)新电影的评分分类预测,通过步骤1的方法生成“实体-关系-实体”的三元组,再经步骤2,步骤3的方法生成电影实体向量和文档向量,然后将拼接好的向量输入训练好的评分预测分类模型输出新电影的评分类别。
2.根据权利要求1所述预测电影评分类别的方法,其特征在于,所述定义实体向量生成模型通过以下方法训练:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论