一种基于注意力机制的冷启动流量套餐推荐系统--688IT编程网

本文研究的主题是基于注意力机制的冷启动流量套餐推荐系统。与目前流行的冷启动模型采用的深度神经网络（DNN）架构相比，本文提出了一种基于注意力机制的冷启动流量套餐推荐系统。通过引入注意力机制，该系统能够更好地学习并挑选出与客户数据相关性更高的特征，从而提升模型的鲁棒性和准确性。此外，基于注意力的冷启动模型还能够降低运算成本，因为它只关注用户偏好的内容，而非全文，从而提高整体性能。该模型适用于多个场景，并具有较强的泛化能力。在使用注意力机制的冷启动模型中，所采用的注意力机制能够有效训练模型，捕捉到用户的多种需求，并逐步进行优化，从而实现更强的泛化能力。注意力机制能够将信息汇聚到低维向量中，使得模型能够区分用户的特征，从而更好地满足用户的需求。同时，在保存用户信息的过程中，可以更好地理解用户需求，并在不同场景下应用，提升模型的泛化能力。

一、研究背景（一）选题意义

随着移动互联网的普及，流量套餐成为人们日常生活中不可或缺的一部分。流量套餐推荐系统的目的是根据用户的需求和使用习惯为其提供最适合的流量套餐。然而，在冷启动情景下，即用户刚开始使用移动网络时，由于缺乏用户个性化的行为数据，传统的基于协同过滤或内容过滤的推荐算法往往无法有效地进行

套餐推荐。

针对冷启动情景下的流量套餐推荐问题，基于注意力机制的推荐系统能够引入更多的上下文信息，提高推荐效果。通过精准的流量套餐推荐，帮助用户快速到适合自己的套餐，避免出现流量不足或浪费现象，提升用户对移动网络的整体满意度，从而提升用户体验。另一方面，通过精细化的推荐策略，运营商能够更好地理解用户需求，减少套餐变更和退订，提高流量资源的利一种基于注意力机制的冷启动

流量套餐推荐系统

用效率，降低运营商的成本。

因此，开展一种基于注意力机制的冷启动的流量套餐推荐系统的研究具有重要的理论和实际意义，对于提升用户体验、降低运营成本以及推动移动网络市场的发展具有积极的影响。

（二）国内外研究现状

当前的推荐算法依赖于用户－产品行为矩阵，但对于历史交互数据较少的产品，推荐准确性会大幅下降。对于新用户和新增产品，由于缺乏足够丰富的历史行为数据，现有的推荐算法无法应用。此外，现有推荐算法缺乏可解释性，使营销人员无法明确了解模型的决策依据和可靠性。因此，迫切需要使用冷启动和可解释性算法来优化和补充推荐算法。

在2020年，Cheng Zhao 等人提出了一种基于评论的层面用户偏好转移模型。他们引入了一个名为CATN 的跨领域推荐框架，利用评论文本提取用户和产品的多个方面，并通过注意力机制学习方面的相关性。此外，他们还利用志同道合用户的辅助评论来增强用户的方面表示。他们通过端到端的优化框架增强了模型的鲁棒性。在实际数据集上，CATN 在评分预测准确性方面明显优于其他模型，并能够以精细的粒度揭示用户跨领域的方面联系，从而具有可解释性。

在2023年，Shilong Liu 等人提出了一种将注意力机制和元学习相结合的新型冷启动推荐模型。该模型通过学习用户和项目之间的权重来增强个性化用户兴趣建模的能力，从而提高了冷启动推荐的性能。他们在两个公开推荐数据集上验证了该模型，与三种基准方法相比，该模型平均绝对误差和均方根误差至少降低了2.3%和2.5%。

国内外的研究者们已经在基于注意力机制的冷启动流量套餐推荐系统上进行了一些研究，并取得了积极的

摘要：通信公司经常会推出各种类型的流量套餐，针对现有客户将新的套餐精确地推送给他们。系统也会根据用户的需求和现有的流量套餐自动匹配。对于深度推荐系统而言，最严重的问题往往是数据的缺乏和面临冷启动。在推荐系统中，用户错误点击也会对冷启动时用户的关系信息造成噪声，从而影响整个推荐系统的能力。因此，本文针对流量套餐推荐系统开展研究，围绕以下关键问题开展研究：如何解

决给出新用户或新物品完美的推荐，如何更好地使用多种类型的数据，准确、有效地满足用户需求。关键词：注意力机制；冷启动；推荐系统

进展。这些研究工作对于解决冷启动问题、提高推荐准确性和改善用户体验具有重要意义。

（三）研究内容

推荐系统算法可以通过用户偏好，利用大数据进行深度分析，以为用户提供个性化的推荐建议。它的主要功能是根据用户历史记录和偏好，向他们推荐最可能喜欢的项目或服务。然而，推荐算法往往面临数据集不够大的问题。由于收集用户的兴趣和行为数据成本较高，无法构建足够大的用户信息，从而影响推荐系统的准确度。此外，推荐系统也容易受到用户提供的反馈信息不准确的干扰，导致推荐结果的不准确。例如，用户注册后可能没有提供有效信息，或者用户信息可能被错填。目前许多推荐系统对特征处理不够复杂，没有充分考虑不同性别、年龄、行业等细节，也没有进行深入的用户画像分析，这可能导致推荐结果不准确。推荐系统反应时长也是影响用户体验的重要因素。用户使用推荐系统时往往会遇到各种延迟，推荐系统的计算能力有限，导致耗时较长，无法与用户的实时需求同步保持。

本成果通过使用SimCSE优化和Attention优化机制，进行新产品匹配和重要特征提取，由Meta-Embedding、LIME模型定向生成目标订购用户列表、目标推荐理由，实现新产品/优惠包推荐目标客户以及相应的推荐理由、精准营销能力，为产品营销提供数智化支撑。针对现有技术的缺点，本文的目的

和要解决的技术问题如下：

1.基于Meta-Embedding的冷启动推荐提升新产品推广和精准率

基于SimCSE对比学习到新产品的历史相似产品，提取种子用户基本信息、通话、流量、费用等行为特征，通过Meta-Embedding梯度的元学习训练生成新产品ID 的embedding生成器，当推荐新产品时，经过训练的新产品embedding生成器匹配用户生成推荐概率，以此向目标订购用户推荐新产品。重点解决新产品发展初期办理量少、缺少订购标记样本，导致现有推荐模型准确性低问题，提升智能优选模型的泛化能力，大幅提高新产品推广效率和精准率。

2.基于LIME的可解释推荐理由生成助力差异化卖点营销

LIME是一种事后解析方法，即在建立模型之后所做的解释。基于Attention注意力机制优化LIME建立样本时的随机采样机制，得到attention权重计算新生成的样本与想要解释的预测点的距离，以此筛选用来解释的用户特征，基于筛选的用户特征生成可解释推荐理由。营销人员根据推荐理由做出决策是否可靠和对用户有针对性差异化卖点营销，理解用户需求点，辅助营销话术，促进用户订购行为。

二、基于注意力机制的冷启动的流量套餐推荐系统

（一）流量套餐推荐系统

对于深度推荐系统而言，面临的最严重问题之一是数据的缺乏和冷启动。当冷启动物体时，由于交互信息有限，很难学习到合理的关系。同时，在推荐系统中，用户的错误点击也会引入噪声，对冷启动用户关系信息造成影响，从而影响整个推荐系统的能力。为了解决这个问题，MWUF（Meta Warm Up Framework）将冷启动分为Cold-Start和Warm-Up阶段。其中，Cold-Start阶段是完全没有样本的情况，Warm-Up阶段是有少量样本的情况。在cold-start阶段，MWUF使用公共初始化的ID Embedding以及两个Meta Networks。其中，Meta Scaling Network使用物品的特征作为输入，通过Scaling Function将冷启动ID Embedding转化为Warmer Embedding。而Meta Shifting Network使用全局交互的用户作为输入，利用Shifting Function强化物品的表示。Dropout Net则加入了Dropout机制来减少不良ID Embedding的影响，避免模型过度依赖ID Embedding。

为了更好地学习ID Embedding，Meta Embedding框架可以给ID Embedding设置适当的初始值，利用生成器输出ID Embedding的初始化值。MAIL框架由双塔结构组成，其中一个塔解决了冷启动推荐问题，另一个塔专注于常规的排序任务。零样本塔使用双自动编码器进行跨模态重建，通过高度对齐的隐藏特征为新用户获取虚拟的喜好，排序塔则根据零样本塔生成的行为偏好为用户提供推荐结果。MAIL的排序塔和模型结构无关，可以使用任意的基于Embedding的模型实现，并通过端到端的协同训练来达到良好的效果。

使用基于注意力机制的冷启动推荐算法的流量套餐推荐系统，可以根据用户的历史行为、偏好和活跃时

间等信息，有针对性地向用户推荐套餐，提高用户黏性并增加再次选择流量套餐的机会。根据冷启动套餐的特点，可以更有效地为新用户推荐套餐或向用户推荐新套餐。

（二）技术方案

针对现有技术中的问题，本文提供一种基于冷启动的流量套餐推荐系统。该系统利用冷启动算法对现有的用户特征建立关系，从而在样本稀缺的情况下对新出现的物品或用户进行推荐。为解决现存的技术难题，在冷启动算法中引入注意力机制，增加模型对关系数据的建模能力。

为了实现以上技术方案，本文采用如下技术方案：

步骤S1、用户数据获取：由于冷启动算法初期没有实际场景的数据，需要使用历史或抽象数据构造用户数据，以便在没有用户的情况下进行推荐。

步骤S2、建立用户画像：根据用户信息、用户行为、

社交偏好、文本内容、兴趣物品等维度构建用户画像，以满足用户需求。在建立用户画像时需要获取用户的基本信息和历史动作等数据作为基础，并利用数据挖掘等方法构建用户画像。同时，需要定期获取新用户数据来更新用户画像。

步骤S3、推荐模型训练：利用上一步骤S2所建立的高质量数据作为训练集，并引入Attention模块的深度神经网络模型进行训练。

S31、DNN层：通过多层DNN网络将输入特征X 转换为高维特征，该高维特征提取了用户与各个特征之间的关系。

S33、Attention层：在DNN层中引入注意力机制，使模型能够更快地关注重要点，提高准确度。注意力层的应用可以选择多种方式，例如使用通道注意力机制SE Block对特征通道上的相关性建模，强化重要特征以提高准确度。在自然语言处理中，注意力机制主要用于定位关键的token。

在注意力机制层的应用上可以用很多种选择，将高维特征映射为后，情况一利用通道注意力机制SE Block对特征通道上的相关性建模，把重要的特征强化提升准确度，这里将输入特征先经过全局平均池化将数组压缩至1×1×C

在经过激活操作后，通过输入计算出不同通道的权值，并将其乘到之前的特征图上，作为整个Block的输出，从而得到一个重新加权后的特征图。

（2）情况二利用混合注意力模块，例如GAM保留了对空间和通道上信息来增强跨纬度交互的重要性。

输入特征会先后经过通道注意力和空间注意力模块并与各阶段的特征相融合得到最后的输出，具体公式表现为：

output= M s (M c (X ') X ')(M c (X ')X ') （3）情况三利用多尺度注意力模块SK Block，从多尺度的特征角度出发，来引入多个带有不同感受野的并行卷积核分支来学习不同尺度下的特征图权重，使得网络能够挑选出更加合适的尺度特征表示，利用了多分支结构的实际理念避免了获得单一特征的局限性。当输入特征进入SK Block时会利用split操作利用不同卷积核大小的卷积捕获到不同尺度下的语义信息，再将不同尺度的特征进行融合，丰富了当前场景的语义信息，最后进行softmax，为更适合的特征赋予更高的权重。

注意力层的添加方式有多种，一般来说可以根据具体场景下碰到的问题进行添加，从而来达到抑制不相关特征，放大重要特征的作用。

S34、DNN输出层：利用DNN层与Attention层所提取出的特征，再经过一层全连接层，将最后的输出转换为预测值。

S35、损失优化器：损失函数采用二元交叉熵，计算最后的预测值和真实值之间的误差，计算二分类的预测结果是或不是，可以理解为预测标签的概率，当预测样本和真实样本之间的标签值越接近时，损失值越小反

之损失值越大。

采用AdamW优化器并利用反向传播方式不断更新误差和修改权重，AdamW就是在Adam优化器加上L2的正则，这样在计算梯度的时候会加上对正则项求梯度的结果。利用AdamW优化器可以对本身比较大的权重，受到更大的惩罚。

S36、Dropout层：在训练过程中，对于每个输入x，Dropout层会将一部分神经元的输出设置为0。具体来说，对于每个神经元i，生成一个0到1之间的随机数r，如果r小于某个指定的丢弃率p（通常是0.5），则将神经元i的输出设置为

0，否则保持原始输出，具体公式为：

其中x为Dropout x形状相同的二进制掩码矩阵，其中将一部分元素设置为1，部分元素设置为0，mask生成的以概率为基准进行的、p为丢弃率，表示要丢弃神经元的比例、y为Dropout的输出。

在测试阶段，由于不再需要随机丢弃神经元，所以Dropout层不会进行任何操作，并且将所有神经元的

输出乘以 (1-p) 以进行缩放。这种随机丢弃部分神经元的操作，可以看做是在每次训练中都在采样不同的网络子集，从而达到正则化的效果，提高了模型的鲁棒性和泛化能力。

S37、优化模型训练：通过提前停止训练，即在验证集上的性能不再提升时停止训练，可以节省训练时间；使用模型剪枝技术也可以减少模型的复杂性，提高训练速度。在硬件允许的情况下，可以尝试将训练数据划分为多个部分，在多台设备上并行训练模型，从而加快训练速度；同时可以考虑使用预训练模型或迁移学习来初始化模型参数。预训练的模型通常具有较好的初始状态，可以加快训练收敛速度。

步骤S4、推荐模型预测：将模型预测以及文本后处理整合到系统中，给出最优的推荐模型。

具体地，在满足整体移动套餐的推荐前提下，利用数据结合Attention模型调优出最佳的冷启动推荐模型参数。并根据系统设计整体流程，执行并反馈出结果。

（下转第77页）

参考文献

[1]徐沁，梁玉莲，王冬越，等.基于SE-Res2Net 与多尺度空谱融合注意力机制的高光谱图像分类[J].计算机辅助设计与图形学学报,2021,33(11):1726-1734.

[2]欧阳宁，朱婷，林乐平.基于空谱融合网络的高光谱图像分类方法[J].计算机应用,2018,38(7):1888-1892. [3]王雷全，赵欣，秦智超.基于光谱-空间一致性正则化的高光谱图像分类[J].中国电子科学研究院学报,2021,16(8):789-796.

[4]王爱丽，刘美红，薛冬，等.结合动态卷积和三重注意力机制的高光谱图像分类[J].激光与光电子学进展,2022,59(10):341-351.

[5]Hong D,Gao L,Yao J,et al.Graph convolutional networks for hyperspectral image classification[J].IEEE Transactions on Geoscience and Remote Sensing,2020,59(7):5966-5978.

[6]Hang R, Li Z,Liu Q,et al.Hyperspectral image classification with attention-aided CNNs[J].IEEE Transactions on Geoscience and Remote Sensing, 2020,59(3):2281-2293.

表1　对比实验结果Metrics SSRN-Vitransformer

GFDN

LCTL PCA-EPF Indian Pines

OA(%)

93.3590.4492.6089.47AA(%)89.9688.5389.7582.59Kappa×10091.2089.9590.5083.26Pavia University

OA(%)

94.9492.1296.8890.40AA(%)96.0592.6996.9892.05Kappa×10094.1791.3296.5291.49Salinas scene

OA(%)

89.3787.5385.0079.77AA(%)87.4287.9786.0380.20Kappa×100

88.16

89.11

85.93

82.07

本文所提出的SSRN-ViT 方法在Indian Pines、Pavia University、Salinas scene 上实验。从表1中可以看出，

正则化研究背景和意义

所提出方法在Indian Pines 以及Salinas Scene 上取得了最好的结果。此外，在Salinas Scene 数据集上，在OA 指标上比GFDN 高出约2%。这些提升表明SSRN-ViT 联合模块能更好地捕获光谱-空间交互信息，改善了空-谱融合特征的表达能力。

五、结束语

本文所提出的SSRN-ViT 方法首先利用PCA 对高光谱图像进行降维处理，然后利用SSRN 模型构建了高光谱图像光谱-空间特征联合提取模块，同时基于此利用Transformer 模型对高光谱图像进行全局特征提取。最后，所提出的方法不仅在三个高光谱图像数据集上表现出了较好的分类性能，还降低了模型复杂度。

作者单位：黄梦凡南宁师范大学计算机与信息工程学

院

三、结束语

本文围绕基于注意力机制的冷启动的流量套餐推荐系统开展研究。相比于现阶段的冷启动模型所采用的DNN 架构，提出了一种基于Attention 的冷启动的流量套餐推荐系统。加入Attention 机制使得模型具有更强的学习能力，能够从大量的客户数据中挑选出相关性较大的特征，并进行准确的相关性映射输出，

从而提高模型的鲁棒性和准确度。此外，基于Attention 的冷启动模型有助于减少运算成本，因为它只聚焦于用户偏好的部分内容，而不是全文，从而提升整体性能。该模型适用于

参考文献

[1]曹鹏鹏. Q 县移动分公司客户套餐匹配度测算及提升对策研究[D].太原理工大学,2022.[2]梁斐云. 非平衡数据下电信用户套餐智能化推荐研究[D].中南财经政法大学,2021.[3]杜晶. 基于机器学习的电信套餐推荐系统的设计与实现[D].中南财经政法大学,2020.[4]张晓静. 电信用户套餐推荐模型研究[D].云南大学,2020.

多场景，具有很强的泛化能力。

在使用Attention 的冷启动模型中，所采用的Attention 机制可以有效地训练模型，捕捉到用户的多种需求，并逐步优化，从而实现强泛化能力。Attention 机制能够将信息聚合到低维向量中，使得模型能够区分用户特征，能更好地聚焦于用户的需求。同时，在保存用户信息的过程中，可以更好地理解用户需求，能在不同场景下应用，提升模型的泛化能力。

作者单位：白取鑫艾力亚斯江王厚永林强吕冬梅

中国移动通信集团新疆有限公司

（上接第68页）

688IT编程网

一种基于注意力机制的冷启动流量套餐推荐系统

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

一种基于注意力机制的冷启动流量套餐推荐系统

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式