专利名称:基于细划分MapReduce的文本语义提取方法专利类型:发明专利
发明人:曾嘉,高阳,严建峰,刘晓升,杨璐,刘志强
申请号:CN201410379847.5
申请日:20140804
公开号:CN104156350A
公开日:
20141119
专利内容由知识产权出版社提供
摘要:本发明涉及一种基于细划分MapReduce的文本语义提取方法。所述方法包括:将待处理文本集按照文档维度和单词表维度进行双重划分,每个划分是部分文本的部分内容;申请一定数量的Mapper,使用LDA主题模型SparseLDA算法分别训练文本集的每个划分,得到局部参数,并对不同的参数给予不同的标记,记录其所对应的Reducer;申请一定数量的Reducer,不同种类的Reducer 融合不同标记的局部参数,得到全局参数,输出到文件;重复此Mapper和Reducer过程直到达到收敛条件,得到最终训练模型,用于新文本的语义解释与表达。
申请人:苏州大学
地址:215000 江苏省苏州市相城区济学路8号
国籍:CN
代理机构:苏州市中南伟业知识产权代理事务所(普通合伙)
代理人:杨明
更多信息请下载全文后查看
逗号分割字符串转数组

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。