您的当前位置:首页正文

基于改进YOLO_V3模型的车标识别方法[发明专利]

来源:独旅网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 112200186 A(43)申请公布日 2021.01.08

(21)申请号 202011099944.0(22)申请日 2020.10.15

(71)申请人 上海海事大学

地址 201306 上海市浦东新区临港新城海

港大道1550号(72)发明人 郭峰峰 白治江 

(74)专利代理机构 上海互顺专利代理事务所

(普通合伙) 31332

代理人 成秋丽(51)Int.Cl.

G06K 9/32(2006.01)G06K 9/34(2006.01)G06K 9/62(2006.01)G06N 3/04(2006.01)G06N 3/08(2006.01)

权利要求书2页 说明书6页 附图2页

(54)发明名称

基于改进YOLO_V3模型的车标识别方法(57)摘要

本发明涉及一种基于改进YOLO_V3模型的车标识别方法。实现步骤为:制作带有标注和标签的车标图像数据集,数据增强;使用改进后的YOLO_V3模型的卷积神经网络提取数据集中车标的多尺度特征,并训练车标识别模型;输入待检测车标图像,使用车标识别模型对待检测车标进行识别,并获得待检测车标的位置信息;根据训练模型,输出预测图像,完成检测。本发明提供的方法具有较高的鲁棒性,可以对车标进行识别,有助智慧交通系统的建立,从而改善城市交通安全。

CN 112200186 ACN 112200186 A

权 利 要 求 书

1/2页

1.一种基于改进YOLO_V3模型的车标识别方法,其特征在于,包括以下步骤:S1、制作带有标注和标签的车标类型图像的数据集;S2、使用改进后的YOLO_V3模型的卷积神经网络提取数据集中车标的多尺度特征,并训练车标识别模型;

S3、输入待检测车标图像,使用车标识别模型对待检测车标进行识别,并获得待检测车标的位置信息;

S4、根据训练模型,输出预测图像,完成检测。

2.根据权利要求1所述的一种基于YOLO_V3模型的车标识别方法,其特征在于,所述的步骤S1包括以下步骤:

搜集初始图像数据中的车标,使用Random Erase,CutOut,MixUp,旋转,对比度增强等数据增强的方式扩大现有部分车标类型的初始图像数据,并进行标注;

将初始图像数据集的车标图像分辨率裁剪成固定大小,并匹配初始图像数据的标签,得到标注后的车标类型图像和车标标签作为现有车标类型的数据集。

3.根据权利要求2所述的一种基于改进YOLO_V3模型的车标识别方法,其特征在于,所属的现有车标类型的数据集分为训练集和测试集,测试集用来测试YOLO_V3模型的鲁棒性。

4.根据权利要求1所述的一种基于改进YOLO_V3模型的车标识别方法,其特征在于,所述的步骤S2包括以下步骤:

S2.1、改进后的YOLO_V3模型的卷积神经网络对输入的训练集的车标图像进行不同大小的卷积运算,形成车标图像的不同尺度的特征图;

S2.2、卷积神经网络学习车标图像不同尺度的特征,实现对车标多个尺度的检测。5.根据权利要求1所述的一种基于改进YOLO_V3模型的车标识别方法,其特征在于,所述的步骤S3包括以下步骤:

S3.1、待检测车标图像输入到车标识别模型中,使用K-means算法来统计锚框的参数,同时确定边界框的初始位置,在每个尺度上的每个单元的三个锚点框预测边界框;

S3.2、将待检测车标图像分成S×S的网格,每个所述网格预测B个矩形框以及所述矩形框对应的置信度;

其中,S表示划分网格数;B表示每个网格负责的边框个数;S3.3、选择置信度分数值最大的车标先验边界框,通过逻辑回归函数对待检测车标图像的位置进行预测;

通过以下坐标偏移公式来计算出边界框的置信度和位置大小:pr(object)×IOU(b,object)=σ(t0),bx=σ(tx)+cx,by=σ(ty)+cy,bw=pw×etw,bh=ph×eth,

模型的预测输出就是(tx、ty、tw、th),cx和cy表示的网格单元坐标,pw和ph表示预测前边界框的大小;bx、by、bw和bh是预测得到的边界框的中心的坐标和大小;YOLO_v3算法预测每个边界框的分数使用逻辑回归的方法;如果真实框和预测得到的其中一个边界框的重叠度比其他边界框都要好,则该值便可能为1;如果不是最好的,但超过了某个阈值,则忽略这

2

CN 112200186 A

权 利 要 求 书

2/2页

次预测;YOLO_v3算法会为每一个真实的对象分配一个边界框,如果真实的对象与边界框不匹配,就不会产生类别预测损失或坐标,只会产生物体预测损失。

6.根据权利要求9所述的一种基于改进YOLO_V3模型的车标识别方法,其特征在于,所述的K-means方法包括以下步骤:

S3.1.1、从数据对象中随机地选取K个样本,来作为初始的K个质心;S3.1.2、计算剩余所有样本与各个质心之间的欧式距离,将各个样本划分至距离其最近的质心所在的类簇;

S3.1.3、重新计算每一个类簇的质心;S3.1.4、如果所有的K个质心都没有发生变化,就输出类簇划分结果,如果发生变化就返回到第S3.1.2步。

7.根据权利要求1所述的一种基于改进YOLO_V3模型的车标识别方法,其特征在于,所述车标识别模型,是基于darknet-53为底层网络结构的YOLO-V3模型。

8.根据权利要求1所述的一种基于改进YOLO_V3模型的车标识别方法,其特征在于,改进上采样;最近邻插值,这种算法不需要计算,求待选像素是通过将四个方向中的最邻近的像素赋值给它;像素重组算法,通过卷积操作得到通道数为r2的特征图,r为上采样因子,它是图像的扩大倍率,使用周期筛选得到高分辨率的图像;主要功能是将低分辨的特征图,使用多通道间的重组和卷积操作来得到高分辨率的特征图;在这一过程中模型可以不断优化调整r*r个筛选通道权重;本文中的YOLO_V3模型中的上采样方法使用像素重组和最近邻插值交替进行,像素重组执行深度到空间的变换,有助于降低参数量和时间复杂度,最近邻插值执行空域变换。

9.根据权利要求1所述的一种基于改进YOLO_V3模型的车标识别方法,其特征在于,使用归一化坐标尺度,引入一个惩罚因子,在预测框与真实框之间不存在公共面积,预测框会向目标框移动,同时需要考虑中心点距离和边界框的重叠面积,目标框与锚框之间的长宽也是非常重要的,能够提供移动速度并且收敛速度变快,最后需要引入一个目标框长宽比的惩罚因子,其中a是预测框和真实框中心点的欧氏距离,b是锚框的中心点,bt是目标框的中心点,c是将锚框和目标框并集中最小矩形的对角线距离。定义如下:

在此式子中的w和v分别是用来衡量目标框和锚框之间比例的一致性和用来平衡比例的参数,从w的式子中可以看出边界框损失函数会比较倾向于重叠区域比较多的方向优化,其中w和v的计算方法如下:

10.根据权利要求1所述的一种基于改进YOLO_V3模型的车标识别方法,其特征在于,特征图13×13省去,添加104×104尺度的检测。

3

CN 112200186 A

说 明 书

基于改进YOLO_V3模型的车标识别方法

1/6页

技术领域

[0001]本发明属于计算机视觉与人工智能技术领域,具体来说是一种基于改进YOLO_V3模型的车标识别方法,用来检测图像中是否存在车标并区分车标的方法,本质上是目标识别与定位问题。

背景技术

[0002]近年来,基于计算机视觉的车辆检测和识别系统逐渐在智慧城市建设项目中发挥着重要的作用,为了促进智慧城市健康发展,科学技术需要不停的发展来对智能交通系统(IntelligentTransportSystem,ITS)改进完善。在智慧城市中车辆是其重要的一员,是感知的重要对象。因此,除了车牌特征,车标特征也是车辆检测中的重要特征。传统的车辆识别方法是从大量的视频中快速检索目标车辆,主要是通过车牌识别,通过已知车牌号码从海量视频中搜索具有相同车牌号码的车辆图像。然而还是存在各种问题,例如车牌盗用,车牌受损,车牌遮挡等各种影响,不利于车辆车牌的识别。而车标具有明显的特征,代表性强,能够唯一识别车辆品牌,这样通过车标识别确定车辆品牌,缩小识别车辆的范围,实现预分类。实质上车标识别技术就是图像分类技术中的一种,包含特征提取和特征分类两个关键环节。传统的图像描述特征方法包括局部二元模式(Localbinarypattern,LBP)特征,梯度方向直方图特征(histogramoforiented gradient,HOG)特征和Haar特征。常用特征分类方法包括随机森林学习方法,支持向量机(SVM)学习方法和Adaboost学习方法。[0003]在车辆品牌和型号识别中车标识别是一个重要的研究方向,如何实时快速精确的识别车标是本文研究的动机。在车标识别问题中,传统的识别方法包括两个步骤:车标定位和车标识别。关于车标定位,有一种方法是首先通过车牌位置和车牌与车标的相对位置定位到车标,再计算车标候选区域不同方向上的纹理特征来得到车标的边缘信息,最后对车标进行详细的定位,此方法需要车标具有明显的边缘特征,适应环境比较苛刻,一般只有在理想的情况下,才能够达到所需的效果;另一种方法是通过将adaboost学习方法和切比雪夫时刻结合到一块来对车标定位,但是计算方法复杂,耗时久。关于车标识别,有一种方法是使用一种模板匹配和边缘方向直方图方法进行车标分类,这个方法需要大量的模板样本的收集,耗时久,因为图像质量的残差不齐,识别精度低,匹配的时间比较久,实时性差;另一种方法是首先是将SIFT特征提取出来,然后开始训练分类器来进行对车标分类,但是SIFT算法缺点也很明显,较大的计算量,检测到的冗余极值点多,不利于特征点的提取。[0004]近年来,以卷积神经网络(convolutedneuralnetwork,CNN)模型为代表的深度学习方法在计算机视觉领域取得了巨大成果。将卷积神经网络和支持向量机分类器结合到一起使用,先通过卷积神经网络对车标初次筛选,在送入支持向量机进行分类,来到达较高的准确率,然而支持向量机需要人工选择,特征选择对数据集的环境要求比较高,卷积神经网络不需要通过人工进行选择,准确率也比传统的高,但是因为参数较多,计算量比较大,不满足实时性。

[0005]上述的车标识别方法中,很多分类方法都会受到定位方法的影响,如果定位有偏

4

CN 112200186 A

说 明 书

2/6页

差,识别精确度也会有所下降,甚至有些定位没有错误的,识别效率也不行,对图片质量要求高,对环境要求高。发明内容

[0006]为了提高车标识别方法的识别率,鲁棒性和实时性,本文提出一种基于改进YOLO_V3模型的车标识别方法,提高车标识别的精确度,实验表明该模型更加精准、快速的进行车标识别。

[0007]为了达到上述目的,本发明提供了一种基于改进YOLO_V3模型的车标识别方法,包括步骤如下:[0008]S1、制作带有标注和标签的车标类型图像的数据集。[0009]S2、使用改进后的YOLO_V3模型的卷积神经网络提取数据集中车标的多尺度特征,并训练车标识别模型;[0010]S3、输入待检测车标图像,使用车标识别模型对待检测车标进行识别,并获得待检测车标的位置信息;[0011]S4、根据训练模型,输出预测图像,完成检测。[0012]所述的步骤S1包括以下步骤:[0013]搜集初始图像数据中的车标,使用RandomErase,CutOut,MixUp,旋转,对比度增强等数据增强的方式扩大现有部分车标类型的初始图像数据,并进行标注;将初始图像数据集的车标图像分辨率裁剪成固定大小,并匹配初始图像数据的标签,得到标注后的车标类型图像和车标标签作为现有车标类型的数据集。进一步,所述的车标类型的数据集分为训练集和测试集,测试集用来测试车标识别模型的精确性和鲁棒性。进一步,通过准确率(PR)和召回率(RE)和评估车标识别模型鲁棒性。其中,准确率参数PR表示车标识别模型的精度,PR值越高,车标识别模型的鲁棒性越好,召回率RE表示检测到车标且区分车标的正确率,RE值越高,表示检测结果越好,准确率和召回率定义如下式所示:

[0014]

[0015]

其中,T表示车标识别模型正确检测到的车标数量,TF表示车标识别模型误检测的车标数量。FT表示车标识别模型漏检的车标数量。[0017]所述的步骤S2包括以下步骤:

[0018]改进后的YOLO_V3模型的卷积神经网络对输入的训练集的车标图像进行不同大小的卷积运算,形成车标图像的不同尺度的特征图;卷积神经网络学习车标图像不同尺度的特征,实现对车标多个尺度的检测。[0019]所述的步骤S3包括以下步骤:

[0020]待检测车标图像输入到车标识别模型中,使用K-means算法来统计锚框的参数,同时确定边界框的初始位置,在每个尺度上的每个单元的三个锚点框预测边界框;将待检测车标图像分成S×S的网格,每个所述网格预测B个矩形框以及所述矩形框对应的置信度;其

5

[0016]

CN 112200186 A

说 明 书

3/6页

中,S表示划分网格数;B表示每个网格负责的边框个数。选择置信度分数值最大的车标先验边界框,通过逻辑回归函数对待检测车标图像的位置进行预测。[0021]所述的K-means方法包括以下步骤:[0022]从数据对象中随机地选取K个样本,来作为初始的K个质心;计算剩余所有样本与各个质心之间的欧式距离,将各个样本划分至距离其最近的质心所在的类簇;重新计算每一个类簇的质心;如果所有的K个质心都没有发生变化,就输出类簇划分结果,如果发生变化就返回到第2步。

[0023]通过以下坐标偏移公式来计算出边界框的置信度和位置大小。[0024]pr(object)×IOU(b,object)=σ(t0),[0025]bx=σ(tx)+cx,[0026]by=σ(ty)+cy,[0027]bw=pw×etw,[0028]bh=ph×eth,[0029]其中,模型的预测输出就是(tx、ty、tw、th)。cx和cy表示的网格单元坐标,pw和ph表示预测前边界框的大小。bx、by、bw和bh是预测得到的边界框的中心的坐标和大小。YOLO_v3算法预测每个边界框的分数使用逻辑回归的方法。如果真实框和预测得到的其中一个边界框的重叠度比其他边界框都要好,则该值便可能为1。如果不是最好的,但超过了某个阈值,则忽略这次预测。YOLO_v3算法会为每一个真实的对象分配一个边界框,如果真实的对象与边界框不匹配,就不会产生类别预测损失或坐标,只会产生物体预测损失。[0030]本发明的改进之处在于:

[0031]本文中的YOLO_V3模型中的上采样方法使用像素重组和最近邻插值交替进行,像素重组执行深度到空间的变换,有助于降低参数量和时间复杂度,最近邻插值执行空域变换。使用归一化坐标尺度,引入一个惩罚因子,在预测框与真实框之间不存在公共面积,预测框会向目标框移动,同时需要考虑中心点距离和边界框的重叠面积,目标框与锚框之间的长宽也是非常重要的,能够提供移动速度并且收敛速度变快,最后需要引入一个目标框长宽比的惩罚因子,其中a是预测框和真实框中心点的欧氏距离,b是锚框的中心点,bt是目标框的中心点,c是将锚框和目标框并集中最小矩形的对角线距离。定义如下:

[0032]

在此式子中的w和v分别是用来衡量目标框和锚框之间比例的一致性和用来平衡比例的参数,从w的式子中可以看出边界框损失函数会比较倾向于重叠区域比较多的方向优化,其中w和v的计算方法如下:

[0034]

[0033]

[0035][0036][0037]

特征图13×13省去,添加104×104尺度的检测。

本文所使用的改进YOLO_v3算法在识别率较高,比其他方法优势明显,在实际应用

6

CN 112200186 A

说 明 书

4/6页

中效果较好,对于本文样本所处的各种复杂场景具有较高的准确率,适应于困难环境,泛化性较强。

附图说明

[0038]图1为本发明中的基于改进YOLO_V3模型的车标识别方法的流程图;

[0039]图2为本发明中的基于改进YOLO_V3模型的车标识别方法的网络训练损失曲线图;[0040]图3为本发明中的基于改进YOLO_V3模型的车标识别方法的上采样中的最近邻插值图;

[0041]图4为本发明中的基于改进YOLO_V3模型的车标识别方法的上采样中的像素重组图;

[0042]图5为本发明中的基于改进YOLO_V3模型的车标识别方法的改进YOLO_V3结构图。具体实施方式

[0043]下面结合附图和具体实施例对本发明进行详细说明。[0044]本发明提供一种基于改进YOLO_V3模型的车标识别方法。如图1所示的总体流程示意图,该方法包括以下步骤:[0045]S1、制作带有标注和标签的车标类型图像的数据集;[0046]所述的步骤S1包括以下步骤:[0047]搜集初始图像数据中的车标,使用RandomErase,CutOut,MixUp,旋转,对比度增强等数据增强的方式扩大现有部分车标类型的初始图像数据,并进行标注;将初始图像数据集的车标图像分辨率裁剪成固定大小,并匹配初始图像数据的标签,得到标注后的车标类型图像和车标标签作为现有车标类型的数据集。进一步,所述的车标类型的数据集按照一定比例分为训练集和测试集,测试集用来测试车标识别模型的精确性和鲁棒性。通过准确率(PR)和召回率(RE)和评估车标识别模型鲁棒性,其中,准确率参数PR表示车标识别模型的精度,PR值越高,车标识别模型的鲁棒性越好,召回率RE表示检测到车标且区分车标的正确率,RE值越高,表示检测结果越好,准确率和召回率定义如下式所示:

[0048]

[0049]

其中,T表示车标识别模型正确检测到的车标数量,TF表示车标识别模型误检测的车标数量。FT表示车标识别模型漏检的车标数量。具体地,将数据集按照7:3的比例分为训练集和测试集。[0051]S2、使用改进后的YOLO_V3模型的卷积神经网络提取数据集中车标的多尺度特征,并训练车标识别模型;

[0052]所述的步骤S2包括以下步骤:

[0053]改进后的YOLO_V3模型的卷积神经网络对输入的训练集的车标图像进行不同大小的卷积运算,形成车标图像的不同尺度的特征图;具体地,当YOLO_V3模型的卷积神经网络

[0050]

7

CN 112200186 A

说 明 书

5/6页

的输入图像序列的分辨率为416x416时,神经网络通过卷积操作和残差网络,分别形成26×26,52×52,104×104。卷积神经网络学习车标图像不同尺度的特征,实现对车标多个尺度的检测。[0054]S3、输入待检测车标图像,使用车标识别模型对待检测车标进行识别,并获得待检测车标的位置信息;

[0055]所述的步骤S3包括以下步骤:

[0056]待检测车标图像输入到车标识别模型中,使用K-means算法来统计锚框的参数,所述的K-means方法包括以下步骤:从数据对象中随机地选取K个样本,来作为初始的K个质心;计算剩余所有样本与各个质心之间的欧式距离,将各个样本划分至距离其最近的质心所在的类簇;重新计算每一个类簇的质心;如果所有的K个质心都没有发生变化,就输出类簇划分结果,如果发生变化就返回到第2步。同时确定边界框的初始位置,在每个尺度上的每个单元的三个锚点框预测边界框;将待检测车标图像分成S×S的网格,每个所述网格预测B个矩形框以及所述矩形框对应的置信度,其中,S表示划分网格数;B表示每个网格负责的边框个数;选择置信度分数值最大的车标先验边界框,通过逻辑回归函数对待检测车标图像的位置进行预测;通过以下坐标偏移公式来计算出边界框的置信度和位置大小:[0057]pr(object)×IOU(b,object)=σ(t0),[0058]bx=σ(tx)+cx,[0059]by=σ(ty)+cy,[0060]bw=pw×etw,[0061]bh=ph×eth,[0062]其中,模型的预测输出就是(tx、ty、tw、th)。cx和cy表示的网格单元坐标,pw和ph表示预测前边界框的大小。bx、by、bw和bh是预测得到的边界框的中心的坐标和大小。YOLO_V3算法预测每个边界框的分数使用逻辑回归的方法。如果真实框和预测得到的其中一个边界框的重叠度比其他边界框都要好,则该值便可能为1。如果不是最好的,但超过了某个阈值,则忽略这次预测。YOLO_V3算法会为每一个真实的对象分配一个边界框,如果真实的对象与边界框不匹配,就不会产生类别预测损失或坐标,只会产生物体预测损失。[0063]对改进的YOLO_v3算法开始训练时,训练阶段的学习率设置为0.001,一次训练所选取的样本数设置为10,初始衰减率设置为0.0005,动量设置为0.9。当训练模型的迭代次数达到500次时,衰减学习率会使损失函数进一步收敛,设置衰减率为0.1。改进YOLO_v3算法训练过程中损失函数的收敛曲线如图2所示,随着迭代次数的增加,损失在不断减小。[0064]本发明的改进之处在于:[0065]最近邻插值,这种算法不需要计算,求待选像素是通过将四个方向中的最邻近的像素赋值给它。设x+a,y+b(x,y为正整数,a,b为大于0小于1的小数)为需要求的像素坐标,则f(x+a,y+b)为待求像素的灰度值,如图3所示。如果(x+a,y+b)落在A区,则可判断a<0.5,b<0.5,由图可知待求像素值为左上角的像素值,同理,落在B区待求像素值为左下角的像素值,落在C区待求像素值为右上角的像素值,落在D区待求像素值为右下角的像素值。[0066]像素重组算法的实现流程图4所示,通过卷积操作得到通道数为r2的特征图(输入低分辨率图像和得到的特征图一致),r为上采样因子,它是图像的扩大倍率,如果要得到高分辨率的图像需要使用周期筛选的方法。本文中的YOLO_V3模型中的上采样方法使用像素

8

CN 112200186 A

说 明 书

6/6页

重组和最近邻插值交替进行,像素重组执行深度到空间的变换,有助于降低参数量和时间复杂度,最近邻插值执行空域变换。[0067]使用归一化坐标尺度,引入一个惩罚因子,在预测框与真实框之间不存在公共面积,预测框会向目标框移动,同时需要考虑中心点距离和边界框的重叠面积,目标框与锚框之间的长宽也是非常重要的,能够提供移动速度并且收敛速度变快,最后需要引入一个目标框长宽比的惩罚因子,其中a是预测框和真实框中心点的欧氏距离,b是锚框的中心点,bt是目标框的中心点,c是将锚框和目标框并集中最小矩形的对角线距离。定义如下:

[0068]

在此式子中的w和v分别是用来衡量目标框和锚框之间比例的一致性和用来平衡比例的参数,从w的式子中可以看出边界框损失函数会比较倾向于重叠区域比较多的方向优化,其中w和v的计算方法如下:

[0070]

[0069]

[0071][0072]

特征图13×13省去,添加104×104尺度的检测。所形成的YOLO_V3结构图如图5所对部分测试样本进行测试结果如下表所示:

示。

[0073][0074]

车标正确个数(个)错误个数(个)准确率

大众46496.0%奥迪401094.0%宝马44696.0%奔驰45594.0%法拉利48294.0%非车标500100%

[0075]本文所使用的改进YOLO_v3算法在识别率较高,比其他方法优势明显,在实际应用中效果较好,对于本文样本所处的各种复杂场景具有较高的准确率,适应于困难环境,泛化性较强;本发明提供的方法具有较高的鲁棒性,可以对车标进行识别,有助智慧交通系统的建立,从而改善城市交通安全。

[0076]本领域的普通技术人员应该意识到,本发明还可有其它多种实施例,在这里说述的实施例是为了帮助读者理解本发明的原理,应该理解为本发明的保护范围并不局限于这样的特别陈述和实施例。在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

9

CN 112200186 A

说 明 书 附 图

1/2页

图1

图2

10

CN 112200186 A

说 明 书 附 图

2/2页

图3

图4

图5

11

因篇幅问题不能全部显示,请点此查看更多更全内容