(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 111241496 A
(43)申请公布日 2020.06.05
(21)申请号 CN202010334290.9
(22)申请日 2020.04.24
(71)申请人 支付宝(杭州)信息技术有限公司
    地址 310007 浙江省杭州市西湖区西溪路556号8层B段801-11
(72)发明人 郑黄成 欧阳瑜 李佳佳
(74)专利代理机构 北京汇思诚业知识产权代理有限公司
    代理人 冯伟
(51)Int.CI
     
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      确定小程序特征向量的方法、装置和电子设备
(57)摘要
      本申请实施例提出了一种确定小程序特征向量的方法、装置和电子设备,能够生成机器能够识别的向量来准确的表达小程序的特征。其中,上述确定小程序特征向量的方法包括:在小程序的程序数据中按序抽取多个特征字符串,其中,程序数据包括以下至少一个种类的程序数据:小程序的包文件结构、小程序的静态代码文件、小程序的动态运行数据;根据多个特征字符串以生成小程序的特征字符串序列;将小程序的特征字符串序列转换为特征字符串向量;将特征字符串向量输入到训练好的深度学习模型中,以生成小程序的特征向量。
法律状态
法律状态公告日
法律状态信息
法律状态
2021-06-29
授权
授权
2020-06-30
实质审查的生效
实质审查的生效
2020-06-05
公开
公开
2023-01-20
专利权的转移IPC(主分类):G06F21/12专利号:ZL2020103342909登记生效日:20230109变更事项:专利权人变更前权利人:支付宝(杭州)信息技术有限公司变更后权利人:支付宝(中国)网络技术有限公司变更事项:地址变更前权利人:310007 浙江省杭州市西湖区西溪路556号8层B段801-11变更后权利人:200120 上海市浦东新区中国(上海)自由贸易试验区南泉北路447号15层
专利申请权、专利权的转移
权 利 要 求 说 明 书
1.一种确定小程序特征向量的方法,其中,所述方法包括:
在小程序的程序数据中按序抽取多个特征字符串,其中,所述程序数据包括以下至少一个种类的程序数据:所述小程序的包文件结构、所述小程序的静态代码文件、所述小程序的动态运行数据;
根据所述多个特征字符串生成所述小程序的特征字符串序列;
将所述小程序的特征字符串序列转换为特征字符串向量;
将所述特征字符串向量输入到训练好的深度学习模型中,以生成所述小程序的特征向量。
2.根据权利要求1所述的方法,其中,所述将所述小程序的特征字符串序列转换为特征字符串向量,包括:
根据预设索引映射表中字符串与数字索引码之间的映射关系,将所述特征字符串序列中的每个所述特征字符串替换为对应的数字索引码,以得到所述特征字符串向量。
3.根据权利要求1所述的方法,其中,在所述程序数据包括多个种类的情况下,所述根据所述多个特征字符串生
成所述小程序的特征字符串序列,包括:
分别在每个种类的程序数据对应的特征字符串中,抽取不超过预设数量的特征字符串;
组合抽取出的特征字符串,以得到所述特征字符串序列。
4.根据权利要求1-3任一项所述的方法,其中,所述程序数据包括所述小程序的包文件结构,所述在小程序的程序数据中按序抽取多个特征字符串,包括:
按照所述包文件结构的结构顺序,抽取每个文件的文件名和文件类型后缀,以得到每个文件的文件名特征字符串,其中,每个所述文件名特征字符串包括对应文件的文件名和文件类型后缀。
5.根据权利要求4所述的方法,其中,所述根据所述多个特征字符串生成所述小程序的特征字符串序列,包括:
在根据所述包文件结构得到的所述文件名特征字符串中,抽取目标文件类型后缀的字符串,以得到对应于所述包文件结构的特征字符串;
正则匹配后缀后根据抽取出的字符串生成所述特征字符串序列。
6.根据权利要求1-3任一项所述的方法,其中,所述程序数据包括所述小程序的静态代码文件,所述在小程序的程序数据中按序抽取多个特征字符串,包括:
在所述小程序的静态代码文件中,选取多个目标代码文件;
在每个所述目标代码文件中匹配预设正则表达式,其中,所述预设正则表达式包括一个或多个目标字符串以及每个所述目标字符串的匹配规则;
将每个命中的代码片段拆分为多个字符串,得到所述多个特征字符串。
7.根据权利要求1-3任一项所述的方法,其中,所述程序数据包括所述小程序的动态运行数据,所述在小程序的程序数据中按序抽取多个特征字符串,包括:
运行所述小程序;
抓取所述小程序运行过程中产生的请求;
在所述请求中匹配预设字符串,其中,每个所述预设字符串用于表示所述请求中携带的一种信息的名称;
拆分命中的请求,得到所述多个特征字符串。
8.根据权利要求2-7任一项所述的方法,其中,在根据预设索引映射表中字符串与数字索引码之间的映射关系,将所述特征字符串序列中的每个所述特征字符串替换为对应字符串的数字索引码之前,所述方法还包括:
确定在所述多个特征字符串中出现的、且所述预设索引映射表中未出现的不重复字符串,得到未知字符串;
为每个所述未知字符串分配不重复的数字索引码;
在所述预设索引映射表中存储所述未知字符串与对应的数字索引码之间的映射关系,以更新所述预设索引映射表。
9.根据权利要求8所述的方法,其中,所述根据所述多个特征字符串生成所述小程序的特征字符串序列,包括:
针对更新后的所述预设索引映射表中的每个字符串,计算词频-逆文本频率指数TF-IDF,以得到所述预设索引映射表中每个字符串的分数;
在所述多个特征字符串中,根据分数超过预设分数的特征字符串以生成所述小程序的特征字符串序列。
10.根据权利要求1-9任一项所述的方法,其中,在将所述特征字符串向量输入到训练好的深度学习模型中,以生成所述小程序的特征向量之前,所述方法还包括:
使用多个训练向量训练编码解码模型,其中,每个所述训练向量为一个小程序的所述特征字符串向量,所述编码解码模型包括编码模型和解码模型,所述编码模型用于对所述特征字符串向量进行编码得到所述特征向量,所述解码模型用于将所述特征向量进行解码得到输出向量,训练所述编码解码模型的优化目标为减小根据所述输出向量和所述训练向量计算得到的损失值;

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。