(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 114021641 A
(43)申请公布日 2022.02.08
(21)申请号 CN202111291000.8
(22)申请日 2021.11.03
(71)申请人 中国矿业大学
    地址 221000 江苏省徐州市大学路1号中国矿业大学南湖校区
(72)发明人 褚菲 曹义湾 梁涛 陈俊龙 王雪松 程玉虎 马小平
(74)专利代理机构 32220 徐州市三联专利事务所
    代理人 张斌
(51)Int.CI
      G06K9/62(20220101)
      G06N7/00(20060101)
      G06N20/00(20190101)
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种极大极小概率回归的正则化宽度学习系统
(57)摘要
      本发明公开了一种极大极小概率回归的正则化宽度学习系统,属于人工智能技术领域。本发明包括:获得训练数据,并通过特征映射和增强映射获得原始数据的高维特征,基于特征数据的均值和协方差信息得到预测精度满足误差要求的概率下限。在不存在随机误差分布假设的情况下,通过最大化所得到的概率下界来计算最终的输出权重。然后通过在损失函数中加入弹性网正则化来对输出权重进行进一步的约束,将l1范数和l2范数集成到一个统一的框架中。本发明改善了分布假设对所建立的宽度学习系统模型的泛化和有效性产生影响的问题,并且增强输出权值的稀疏性,控制模型的复杂性,提高了模型的泛化性和鲁棒性。
法律状态
法律状态公告日
法律状态信息
法律状态
2022-02-25
实质审查的生效
实质审查的生效
2022-02-08
公开
公开
正则化是结构风险最小化策略的实现
权 利 要 求 说 明 书


1.一种极大极小概率回归的正则化宽度学习系统,其特征在于:

包括以下步骤:

步骤1:

获得训练输入数据X=[x
1
,x
2
,...,x
N
]
T
∈R
N*M
和训练输出数据Y=[y
1
,y
2
,...,y
N
]
T
∈R
N*C
,

测试输入数据X
t
=[x
1
,
x
2
,...,x
Q
]
T
∈R
Q*M
,测试输出数据Y
t
=[y
1
,y
2
,...,y
N
]
T
∈R
Q*C
;

其中,N为训练数据样本个数;Q为测试数据样本个数;M为输入数据的维数;C为输出数据的维数;R为实数域;上标T表示矩阵的转置;

步骤2:

对获得的输入数据进行特征提取,形成n组特征节点并构造特征节点矩阵Z
n
,将特征节点进行非线性增强共得到m组增强节点,其生成特征节点和增强节点的过程如下:


步骤2.1:随机生成n组权值W
ei
和偏置β
ei
,通过随机映射变换得到特征节点Z
i

i
(XW
ei

ei
)∈R
N*q
,
i=1,2,...n,将特征节点组构造为特征节点矩阵Z
n
=[Z
1
,Z
2
,...,Z
n
];

其中,W
ei
和β
ei
分别为第i个特征组的特征权重和偏差;n为特征节点组数;q为每组特征映射对应的特征节点数
目;φ
i
为线性变换函数;

步骤2.2:随机生成m组权值W
hj
和偏置β
hj
,通过增强变换得到增强节点H
j

j
(Z
n
W
hj

hj
)∈R
N*r
,j=1,2,...m,并将增强节点组构造为增强节点矩阵H
m
=[H
1
,H
2
,...,H
m
];

其中,W
hj
和β
hj
分别为第j个增强节点组的权重和偏差;ξ
j
为增强节点上的非线性函数,取为sigmod激活函数,其表达式为
m为增强节点组数;r为每组非线性增强对应的增强节点数目;

步骤2.3:得到系统的扩展输入矩阵A;

A=[Z
n
,H
m
]


步骤3:构建目标函数,具体步骤如下:

步骤3.1:借助极大极小概率机的思想,将回归问题转化为可在大极小概率机框架下求解的二元分类问题,得到目标函数:

步骤3.1.1:在不存在随机误差分布假设的情况下,通过最大化预测精度满足误差要求的概率下限来构造目标函数:




其中,α表示预测精度满足误差要求的概率下界;
训练过程的预测值;Y是步骤1中获得的训练集的输出数据;ε表示预测误差;inf表示取函数的下确界;Pr表示取函数的概率;


步骤3.1.2:借鉴极大极小概率机的思想,人工生成了公式(2)中的两类数据,将回归问题转化为可在极大极小概率机框架下求解的二元分类问题;




其中,A是步骤2.3得到的扩展输入矩阵,A=[a
1
,a
2
,...a
Q
],Q是特征节点和增强节点的数量和;U的均值与协方差分别为

U
;
V的均值与协方差分别为

V
;

步骤3.1.3:需要确定一个超平面Z
T
β
c
=b
c
来最大概率正确分离公式(2)产生的两种类型的点;

其中,Z=[Y,A]
T
,
Z∈R
n
,均值为
与协方差矩阵为∑;β
c
∈R
n
和b
c
∈R均为超平面的参数。

步骤3.1.4:类U在半空间H
U
={U
T
β
c
≥b
c
}中,类V在另一个半空间H
V
={V
T
β
c
≤b
c
}中,因此,概率α等于正确分类两类点的概率下界的最大值:





其中




公式(4)中的sup表示取函数的上确界;


时,在
处δ
2
=0;当
时,公式(5)表示为:





其中,

根据拉格朗日理论,将公式(6)用公式(7)表示:

l(u,ρ)=u
T
u+ρ(γ-w
T
u) (7)

求解得:





将公式(8)带入公式(6)得




综合在

时的两种情况,把公式(9)转化为:




将公式(10)带入公式(4)得到:






时,
所以α=0;


时,公式(11)转换成:




步骤3.1.5:与步骤3.1.4同理得到在infPr{U
T
β
c
≥b
c
}时U半空间时的计算结果:




通过公式(12)与公式(13)把公式(3)改写为:





把公式(14)简化为:





其中

根据协方差的计算规则,在建模过程中∑=∑
U
=∑
V
;

因此,公式(15)简化为:




步骤3.2:借助拉格朗日乘子法对目标函数进行求解,得到输出权值;

步骤3.2.1:用拉格朗日乘子法对公式(16)进行构造:




其中




通过求解公式(17)得到输出权值:





步骤4:在步骤3得到的目标函数中引入弹性网正则化对输出权值进行约束,并得到输出权值;

步骤4.1:加入弹性网正则化后的目标函数为:




其中λ是正则化参数,η是权衡系数;

步骤4.2:将公式(20)用公式(21)表示




步骤4.3:利用增广拉格朗日乘子将公式(21)转换成公式(22):





其中ρ
1

2
是拉格朗日乘子,μ是一个正的参数;

通过以下方式求解公式(22),获得输出权值:




其中k为迭代次数


β
c(k+1)
由公式(24)得到:




得到




其中

d
k+1
由公式(26)得到:




其中
soft(x,T)是软阈值函数,表达式为:




步骤5:当公式(23)迭代100次或者||β
c(k)

c(k-1)
||
2
≤10
-2
停止迭代;

步骤6:由公式(15)得到概率下确界:




其中

步骤7:由公式(19)和步骤3得输出权值为:





步骤8:由步骤7得到的输出权值计算输出节点的偏差
并得到输出值的预测值Y
predict
=WA+w
0


版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。