yolov5数据增强引发的思考——透视变换矩阵的创建
yolov5的数据增强中,透视、仿射变换统⼀使⽤了random_perspective⼀个函数进⾏处理,包含了旋转、缩放、平移、剪切变换(shear,实际是按坐标轴⽅向变换,具体可看下⽂)、透视。其中下⾯这段代码的这个参数有点疑惑,因此寻了不少透视变换的资料,这⾥记录我⾃⼰的思考。
仿射变换
仿射变换主要包括旋转、缩放、平移、shear等,仿射变换矩阵可以由旋转矩阵、平移矩阵等组合得到,仿射变换矩阵可以⽤如下矩阵表⽰。
旋转、平移等基础变换矩阵如下图所⽰,random_perspective函数内部也是根据相应旋转⾓度等参数构建相应的矩阵并组合起来。
透视变换
回到开始说的,yolov5源码说的透视参数对应矩阵M[2,0],M[2,1],random_perspective函数也只是建议参数范围0~0.001,前⾯的旋转、平移、缩放、shear参数都有具体含义并得到相应的矩阵,透视变换相关的参数却只是给出了数值范围,因此困惑于这个参数具体代表什么含义?
查很多资料,基本都是opencv怎么使⽤透视变换、或者怎么实现求解透视变换矩阵的问题(可参考)。我想知道的是,透视变换矩阵是怎样由旋转、平移等基本操作矩阵组合⽽来的,即矩阵M[2,0],M[2,1]参数是怎样的操作得到的。
于是想到透视变换是把图像投影到新的视平⾯,如上图所⽰,新平⾯如果与原图像平⾯平⾏那就是简单的仿射变换,不平⾏那就是绕x/y轴发⽣了旋转,即空间点的旋转变换。。
因此perspective参数应该是绕x,y轴旋转矩阵产⽣。
测试程序如下
def __mylearn():
colors = [(0, 0, 255), (255, 0, 0)]#红⾊绘制原始框,蓝⾊绘制变换后的框
lw = 1
#voc数据集的⼀张图⽚数据
img = cv2.imread('../examples/2008_000109.jpg')
src = py()
h, w, c = img.shape
cx, cy = w / 2, h / 2
bboxs = np.loadtxt('../examples/')
cw, ch = 0.5 * bboxs[:, 3], 0.5 * bboxs[:, 4]
bboxs[:, 3] = bboxs[:, 1] + cw
bboxs[:, 4] = bboxs[:, 2] + ch
bboxs[:, 1] -= cw
bboxs[:, 2] -= ch
bboxs[:, [1, 3]] *= w
bboxs[:, [2, 4]] *= h
srcboxs = und().astype(np.int)
#原始图像绘制bbox框
for box in srcboxs:
s = f'c{box[0]}'
cv2.putText(src, s, (box[1], box[2] - 2), cv2.FONT_HERSHEY_COMPLEX, 1.0, color=colors[0], thickness=lw)
rotate = 10
shear = 5
scale = 0.8
R, T1, T2, S, SH = np.eye(3), np.eye(3), np.eye(3), np.eye(3), np.eye(3)
cos = s(-rotate / 180 * np.pi) # 图⽚坐标原点在左上⾓,该坐标系的逆时针与⾁眼看照⽚⽅向相反
sin = math.sin(-rotate / 180 * np.pi)
R[0, 0] = R[1, 1] = cos # 旋转矩阵
R[0, 1] = -sin
R[1, 0] = sin
T1[0, 2] = -cx # 平移矩阵
T1[1, 2] = -cy
T2[0, 2] = cx # 平移矩阵
T2[1, 2] = cy
S[0, 0] = S[1, 1] = scale # 缩放矩阵
M = (T2 @ S @ R @ T1) # 注意左乘顺序,对应,平移-》旋转-》缩放-》平移
rectangle函数opencv# M[:2]等价于RotationMatrix2D(center=(cx, cy), angle=rotate, scale=scale)
img = cv2.warpAffine(src, M[:2], (w, h), borderValue=(114, 114, 114))
atenate((src,img),axis=1)
cv2.imwrite('affine.jpg', img)
#再加上shear
SH[0, 1] = SH[1, 0] = math.tan(shear / 180 * np.pi) # 两个⽅向
M = (T2 @ S @ SH @ T1)
img = cv2.warpAffine(src, M[:2], (w, h), borderValue=(114, 114, 114))
#bboxs坐标转换
#srcboxs [n,5]
# M矩阵⽤于列向量相乘,这⾥需要⽤转置处理所有坐标
n=srcboxs.shape[0]
xy = np.ones((n * 4, 3))#齐次坐标
xy[:,:2]=srcboxs[:,[1,2,3,2,3,4,1,4]].reshape((n*4,2)) #顺时针xy,xy,xy,xy坐标
transbox=(xy@M.T)[:,:2].reshape((n,8)).round().astype(np.int)
for idx,box in enumerate(transbox):
s = f'c{srcboxs[idx,0]}'
cv2.line(img,(box[0], box[1]),(box[2], box[3]),color=colors[1],thickness=lw)
cv2.line(img, (box[2], box[3]), (box[4], box[5]), color=colors[1], thickness=lw)
cv2.line(img, (box[4], box[5]), (box[6], box[7]), color=colors[1], thickness=lw)
cv2.line(img, (box[6], box[7]), (box[0], box[1]), color=colors[1], thickness=lw)
cv2.putText(img, s, (box[0], box[1] - 2), cv2.FONT_HERSHEY_COMPLEX, 1.0, color=colors[1], thickness=lw) img = np.concatenate((src, img), axis=1)
cv2.imwrite('shrear.jpg',img)
#透视变换
#src=cv2.imread('../examples/test.png')
P,RX,(3),np.eye(3),np.eye(3)
k=0.9
def get_one_z(a,b,c):#z1,z2 get z (0~1)
z1 = (-b + math.sqrt(b ** 2 - 4 * a * c)) / (2 * a)
z2 = (-b - math.sqrt(b ** 2 - 4 * a * c)) / (2 * a)
if z1>0 and z1<1:
return z1
else:
return z2
# 绕x轴旋转
zx=get_one_z(1+w**2,-2,1-(k*w)**2)#⼀元⼆次⽅程求解
#ax=math.atan((1-zx)/(w*zx))
ax=math.asin((1-zx)/(k*w))
cosx, sinx= s(ax), math.sin(ax)
RX[1, 1] = RX[2, 2] = cosx
RX[1, 2] = -sinx
RX[2, 1] = sinx
img=cv2.warpPerspective(src,RX,(w,h))
cv2.imwrite('perspective_rx.jpg', img)
# 图像中⼼双轴旋转
zy = get_one_z(1 + h ** 2, -2, 1 - (k * h) ** 2) # ⼀元⼆次⽅程求解
ay = math.atan((1 - zy) / (h * zy))
cosy, siny = s(ay), math.sin(ay)
RY[0, 0] = RX[2, 2] = cosy
RY[0, 2] = siny
RY[2, 0] = -siny
P=RX@RY
print(P)
M=T2@P@T1
img = cv2.warpPerspective(src, M, (w, h))
xy=xy @ M.T
transbox = (xy[:, :2] / xy[:, 2:3]).reshape(n, 8).round().astype(np.int)
for idx, box in enumerate(transbox):
s = f'c{srcboxs[idx, 0]}'
cv2.line(img, (box[0], box[1]), (box[2], box[3]), color=colors[1], thickness=lw)
cv2.line(img, (box[2], box[3]), (box[4], box[5]), color=colors[1], thickness=lw)
cv2.line(img, (box[4], box[5]), (box[6], box[7]), color=colors[1], thickness=lw)
cv2.line(img, (box[6], box[7]), (box[0], box[1]), color=colors[1], thickness=lw)
cv2.putText(img, s, (box[0], box[1] - 2), cv2.FONT_HERSHEY_COMPLEX, 1.0, color=colors[1], thickness=lw) img = np.concatenate((src, img), axis=1)
cv2.imwrite('perspective.jpg',img)
其中绕x,y轴的⾓度范围确定⽅式如下图,假设⿊⾊垂直实线为视平⾯,绕x轴旋转alpha⾓度,空间点(0,y,z)透视后在视平⾯位置(0,y/z,1)处,即(0,0,1)~(0,y, z)段透视到视平⾯(0,0,1)~(0,y/z,1)段。我期望图像透视后整个y⽅向还占k⽐率范围。则有(1-z)**2+(hz)**2=(kh)**2,解得z后就可以求alpha⼤⼩
透视变换前后
这样就可以⽤基本操作设计透视矩阵。
k⽐较⼤时,如0.8,0.9,P矩阵如下。
与直接设置M[2,0],M[2,1]数量级接近了,设置k⽐直接设置random_perspective的perspective参数更容易调节透视变换效果。
不过实际图像增强中不会去使⽤旋转、透视等,因为若这样做原始的box变换后是倾斜的不规则的,⽆法获取⽤于训练的外接矩形框。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论