Word2Dev 知乎
orangeprince富贵闲人word2vec本质上来说就是一个矩阵分解的模型,简单地说,矩阵刻画了每个词和其上下文的词的集合的相关情况。对这个矩阵进行分解,只取每个词对应在隐含空间的向量。所以word2vec适合的情况就是对于一个序列的数据,在序列局部数据间存在着很强的关联。典型的就是文本的序列了,邻近的词之间关联很强,甚至可以通过一个词的上下文大概预测出中间那个词是什么。学习到的词向量代表了词的语义,可以用来做分类、聚类、也可以做词的相似度计算。此外,Word2vec本身的层次分类器或者采样方式实际上对热门item做了很大的惩罚,所以不会像一般的矩阵分解一样,最后算出来语义接近的都是热门词,这也是word2vec很好的一个特性。对于短文本分类,直接把文档里面所有的word对应的向量线性相加,作为文本的特征训练分类器,效果也很不错。这种方式其实在word2vec的训练过程中也有使用。另外如果换成非线性分类器,比如rbf kernel SVM,分类准确度还能再高,这个也是符合预期的。其他序列的数据也是可以这样做的,记得去年KDD上有一篇DeepWalk的文章,在社交网络上进行随机游走生成一组组节点的序列,然后通过word2vec训练每个节点对应的向量。但是我用这个方法在qq的社交网络上面做了一些实验,发现效果非常不理想,可能和qq社交网络的复杂性有关。我非常满意的一个应用是把word2vec应用在用户app下载序列上,
根据用户下载app的顺序,把app看做单词,也是可以形成这样的序列数据,进而训练处每个app对应的向量。利用这个向量计算app之间的相似度,效果非常好,能够把真正内容相关的app聚合在一起,同事规避热门app的影响。类似的场景应该还有很多,而且应用也很广泛,比如说推荐系统、广告系统都可以用上。编辑于 2015-06-02且听风雨想来成都蚂蚁金服的,可以联系我补充一些当初自己做的尝试举几个我尝试过的。
1. 相似词 我把它比作完型填空2.词的特征扩充 在term weight 里很有用3.关系挖掘 看哈工大论文学习的4.序列点击数据的分析 效果还行
感觉自己是第一个把word2vec应用在电商上的,哈哈。现在感觉很多应用都在使用word2vec。介绍一下自己的工程实践尝试。
1、序列数据不能过长,过长会导致偏移现象,训练的词向量会变差。其实就是用户注意力的问题,用时髦的话说就是attention。现在attention在lstm里混得风生水起。我当时拿到用户log后,先根据session进行数据切割,如果一个session过长,我会进行限制,只允许最大一个长度。尽量保证一个序列的主题(attention)基本一致。这一块还有很多可以优化,session的切分好像也有相关算法。数据没清洗干净,后期也很恼火。
2、淘宝的数据特别多,用户点击数据量特别大,并且商品数也接近10亿,真是让人又爱又恨。10亿的商品如果每个都算200维的话,内存根本撑不住。淘宝的商品id特别长,占用内存多,最开始我对商品进行了重排序节约内存。但是这点优化远远不够,就开始修改源代码,只保存整数,后来发现还是不行,就切换到当时有个很初级的ps版本word2vec(我和xlab的一个同事开发),吭哧吭哧的跑了很久完成。不过效果不如原始的word2vec,有点心灰意冷,后面有其他任务,这方面老大也不是特别上心,没有支持,就停止了这方面的尝试。感觉很是遗憾。5.相关词挖掘 用在品牌词和品牌相似词挖掘中
品牌词的挖掘也特别有意思。背景是淘宝打击盗版,普通商家不敢在淘宝商品详情里写品牌名。他们会进行品牌词的变种,比如Levi'sspider什么意思会变成李家、L家,tommy 会变成汤米、汤家、T家等等来躲避打击。 我先进行文本的 统计分词, 然后用word2vec 进行模型训练、最终把这些盗版品牌出来了。 当时觉得很有意思,但是没到相关部门,然后就放弃了。又放弃。。。 不过我利用这些知识,买了些号称原单的商品,最终有原单,也有仿版,吃过亏,趟过坑,导致后面上淘宝眼光越来越毒,买了一些好货。后来海淘流行,我就不玩这个了。6.句子vector 在gensim 中有代码,论文中效果很好。不过自己测试效果很一般,还不如bayes。。。7.作为其它如火如荼的cnn rnn rnn-lstm 系列的初始化输入特征word 2vec 算这
里面最好的成果了,模型简单,效率高,易调参。编辑于 2017-02-23裴小浩关注推荐、广告、图像、NLP原文:word2vec在工业界的应用场景"); background-size: cover; background-position: 0px 2px;">
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论