基于 LBS 的风险识别算法
作者:郑雪辉 熊俊
来源:《计算机应用文摘》2022年第19期
        摘要:在风控流程中,需要针对用户提供的各类信息进行资质筛选或风险评估,根据评估结果,提前发现各类潜在风险,一般会利用综合模型和人工审核来实现。而用户在注册、申请等各个环节都会提供基于LBS的信息,人工审核会根据各个环节的LBS信息进行比对,根据经验判断用户案件是否存在欺诈伪冒等各类风险,如在某些账号被盗案件中,用户近期提交的LBS地址会出现异常的偏移。在实际应用过程中,人工审核方式常会出现一些识别误差。鉴于此,文章提出基于LBS的识别算法,其主要作用是取代人工审核对LBS信息进行比
对,通过机器学习的方式提升风险识别效率。本算法通过分析客户在产品使用各个流程的LBS信息来形成用户的行为轨迹,利用机器学习XGBoost算法建立风险识别模型,通过对用户行为轨跡分类来量化识别风险。最后,通过实验详解基于LBS的风险识别算法,证明基于机器学习的算法优于人工审核。
        关键词:LBS;风险识别;XGBoot
        中图法分类号:TP309文献标识码:A
        Risk identification algorithm based on LBS
        ZHENG Xuehui,XIONG Jun
        (Shanghai Urban Construction Vocational College,Shanghai 201415,China)
        Abstract:In the risk control process, it is necessary to conduct qualification screening or risk assessment for all kinds of information provided by users, and according to the assessment results, potential risks are found in advance, and generally comprehe
nsive models and manual audits are used to achieve this process. The user will provide LBS-based information in all aspects of registration, application, etc., and the manual review will compare the LBS information according to each link, and judge whether the user case has various risks such as fraud and forgery according to experience, such as in some account theft cases, the LBS address recently submitted by the user will be abnormally offset. In the actual application process, there are often some identification errors in the manual review method. Therefore, this paper proposes an LBS-based recognition algorithm, which mainly functions instead of manual review of LBS information comparison, and improves the risk identification efficiency through machine learning. This algorithm forms the user's behavior trajectory by analyzing the LBS information of each process used by customers in the product, establishes a risk identification model by using the machine learning XGBoost algorithm, and quantifies and identifies the risk by classifying the user's behavior trajectory. Finally, the LBS-based risk identification algorithm is explained in detail, which proves that the machine learning-based algorithm is better than manual review.
        Key words: LBS, risk identification,XGBoot
        1 引言
        互联网的快速发展以及智能终端的普及,使得人们足不出户就可以通过网络办理很多业务,如网上购物、电子银行等。但随之也会面临一些风险,如欺诈、伪冒、盗用、用户资质低等。
        现有的技术对于 LBS 信息的使用基本还停留在地址的比对上,LBS 信息使用的维度比较单一,并且每次出现一个新的案件后,需要由审核人员查看多条 LBS 信息,勾稽比对后判断案件风险性质。用户在注册、申请等各个流程环节都会提供基于 LBS 的信息,其中基于位置的服务( Location Based Services,LBS)能够获取用户移动轨迹,并在一定程度上反应用户位置信息,这导致需要专门人员去做审核,人工判断标准的差异容易造成风险识别率不高,而随着案件量的增大,人工抽样的样本量每天是有限的,容易忽略某些 LBS 信息异常造成的潜在风险。
        使用本文提出的基于 LBS 信息的全流程用户行为轨迹风险识别方法后,通过现有业务
风险的标记,如伪冒、盗用、用户资质低等,将与 LBS 相关的各类信息根据时间维度加入模型中,形成大量 LBS 行为轨迹特征,结合XGBoost算法对样本进行分类。在模型判断出用户 LBS 行为轨迹存在风险后,便可以模型分类结果进行批量自动化审核,释放人力,从而实现智能风险识别的目的。
        本系統能够取代传统人工审核的 LBS 地址比对,实现自动化审核,节省审核的人力资源。本系统能够涵盖 LBS 相关的各个维度信息,由传统的简单 LBS 单点信息,扩展形成全流程各个时间段的 LBS 行为轨迹,更加全面地评估 LBS 存在的潜在风险。本系统基于机器学习XGBoost算法,利用大量 LBS 行为轨迹特征进行模型运算,从而根据模型结果得到更精准的风险识别方法,弥补人工识别准确率的不足。
        2 数据选取方案
        数据获取阶段主要是获取申请用户的设备信息(包括 MAC 和 IMEI 等)、申请时的 LBS 地址信息、用户的通信录信息,并在此过程中判断是否获取成功,如若获取失败,需要做缺失标记的处理,最终存储作为原始数据(图1)。
        3 算法描述
        本算法技术包含4个重要步骤(图2)。正则化是结构风险最小化策略的实现
        步骤1:将风控案件对应的 LBS 信息导入,其中包括回溯时间、LBS 地址、LBS 关联案件、LBS 关联城市标记等。本算法中,所述风控案件的全流程包括风控案件从第一次业务流程到最近一次处理业务流程期间的所有业务流程。其中,所述业务流程包括注册、登录、交易等。以账号被盗案件为例,账号被盗案件的全流程包括从账号注册到最近一次业务期间的所有业务流程,包括该时间段内发送的所有账号注册、账号登录、账号取款、账号转账、账号存款等业务流程。所述与案件风险相关的 LBS 信息涵盖 LBS 相关的各个风险维度的信息,其不仅包括 LBS 地址,还包括与案件风险相关的 LBS 信息。其中,所述风险维度信息是以可能产生风险的因素作为维度的信息,如回溯时间等。本算法中,所述与案件风险相关的 LBS 信息包括回溯时间、LBS 地址、LBS 关联案件、LBS 关联城市标记中的至少一种。所述 LBS 关联案件是指全流程中获取的所有 LBS 地址相同的案件,所述 LBS 关联城市标记是根据风控案件对应账号的常住城市、出差城市、旅游城市等作的标记[1]。例如,将风控案件对应账号的常住城市标记为 C,将风控案件对应账号的出差城市标记为 N,将风控案件对应账号的旅游城市标记为 L。
        步骤2:根据导入的 LBS 信息,通过时间和空间维度加工成案件的各种行为轨迹特征。
        步骤3:采用XGBoost机器学习算法,加入步骤2中的行为轨迹特征进行运算,根据风险类型,调整模型参数,训练得到准确率高稳定性好的模型。具体而言,将行为轨迹特征输入预设模型中进行训练。所述预设模型优选为XGBoost模型。XGBoost算法采用 CART 树作为模型,针对分类问题,由于 CART 树的叶子节点对应的值是一个实际的分数,而非一个确定的类别,这将有利于实现高效的优化算法。此外,XGBoost模型在求解损失函数极值时使用了牛顿法,将损失函数泰勒展开到二阶,另外损失函数中加入了正则化项,从而能更高效地实现包含大量变量特征的分类运算。
        步骤4:部署模型至风控决策系统,之后进入的案件就可以调用训练好的模型,计算出模型结果,并根据模型结果识别潜在的风险。
        4 实验
        该示例性实施例的电子设备400以通用数据处理设备的形式表现。电子设备400的组件可以包括但不限于:至少一个处理单元410、至少一个存储单元420、连接不同电子设备组件(包括存储单元420和处理单元410)的总线430、显示单元440等。其中,所述存储单元420存储有计算机可读程序,其可以是源程序或是只读程序的代码。所述程序可以被处理单元41
0执行,使得所述处理单元410执行本算法各种实施方式的步骤。图3所示为系统结构。
        所述存储单元420可以包括易失性存储单元形式的可读介质,如随机存取存储单元( RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。所述存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作电子设备、一个或者多个应用程序、其他程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
        总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。电子设备400也可以与一个或多个外部设备300(如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备400与该电子设备400交互,和/或使得该电子设备400能与一个或多个其他数据处理设备(如路由器、调制解调器等)进行通信。这种通信可以通过输入/输出(I/O)接口450进行,还可以通过网络适配器460与一个或者多个网络(如局域网( LAN),广域网(WAN)和/或公共网络)进行[2]。网络适配器460可以通过总线430与电子设备400的其他模块通信。从中可知,尽管图3中未示出,但电子设备400中
可使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、 RAID 电子设备、磁带驱动器以及数据备份存储电子设备等。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。