coco数据集80个分类是哪些_推荐!最适合初学者的18个经典
开源计算机视觉项⽬...
字幕组双语原⽂:推荐!最适合初学者的18个经典开源计算机视觉项⽬
英语原⽂:18 All-Time Classic Open Source Computer Vision Projects for Beginners
翻译:雷锋字幕组(⼩哲)
概述
开源计算机视觉项⽬是在深度学习领域中获得⼀席之地的绝佳路径
开始学习这18个⾮常受欢迎的经典开源计算机视觉项⽬
引⾔
计算机视觉的应⽤现在⽆处不在。 ⽼实说,我已经不记得上次⼀整天没有遇到或者没有与⾄少⼀样计算机视觉使⽤样例进⾏交互时什么时候了(⼿机上的⼈脸识别)
但是有⼀件事情就是 ⼀ 想要学习计算机视觉的⼈倾向与陷⼊理论的概念, 这是所能采取的最糟糕的路。 为了真正的学习掌握计算机视觉,我们需要将理论与实践相结合。
并且这就是开源计算机视觉项⽬存在的地⽅。 不需要花⼀分钱就可以练习计算机视觉技术——你可以坐在现在的位置上完成这些⼯作。
所以在这篇⽂章中, 我结合并创建了⼀个基于计算机视觉各种应⽤的开源计算机视觉项⽬列表。有很多事情要做,这是⼀个相当全⾯的清单,所以让我们深⼊研究!
如果你是⼀个完全的计算机视觉和深度学习的新⼿并且更想要通过视频学习, 请参考下边:
使⽤深度学习2.0 的计算机视觉
18个开源的计算机视觉项⽬分为下边的这些类:
图像分类
⼈脸识别
使⽤GAN的⾃然风格转换
场景⽂字检测
使⽤DETR的⽬标检测
语义分割
⾃动驾驶的道路交通线检测
图像标注
⼈类姿势估计开源项目
通过⾯部表情的情感识别
图像分类的开源计算机视觉项⽬
图像分类是计算机视觉领域的基础任务, ⽬标是通过给每张图⽚分配⼀个标签来区分图像。对⼈类来说理解区分我们看到的图像很容易。单是对于机器来说时⾮常不同的。 对于机器来说区分⼤象和汽车都是⼀件繁重的任务。
下边是⼏个最突出的图像分类开源项⽬:
1. Cifar10
CIFAR-10是⼀个在训练机器学习和计算机视觉算法常⽤的数据集,它是机器学习最受欢迎的数据集。 包含了60000张图像, 分为10类, 每张图像的的尺⼨为32x32。 类别有飞机、汽车、鸟、猫、⿅、狗、青蛙、马、船和卡车。
2. ImageNet
ImageNet数据集是⼀个为计算机视觉研究的巨⼤图像数据集, 这个数据集中有多于140万张图像被⼿供标注, 并且这些标注说明了图像中含有那些物体。并且有多余1万张图像标注了物品的边界框。 ImageNet包含了多余20000类的物品。
作为初学者,你可以使⽤keras或者pytorch从头开始学习神经⽹络, 为了能够得到更好的效果提升学习的层次, 我建议使⽤迁移学习预训练模型,例如CGG-16, Resnet-50,GoogleNet等等。
top4的图像分类的python代码
建议通读下边的⽂章更好的理解图像分类:
使⽤深度神经⽹络进⾏ImageNet的图像分类
卷积层数加深(VGG)
图像识别的深度残差⽹络(ResNet)
⼈脸识别的开源计算机视觉代码
⼈脸识别是计算机视觉最⼴泛的应⽤。⼈脸识别被应⽤在安全, 监控或者解锁⼿机。 这是⼀个在预先存在的数据集中在图像或者视频中确认你的⼈脸。 我们可以使⽤深度学习的⽅法来学习这些⼈脸的特征并且识别他们。
这是⼀个多个步骤的过程,这个过程由以下的步骤构成:
⼈脸检测: 这⽤来定位⼀个或者多个在图像或者视频中的⼈脸
⼈脸对齐: 对齐是⽤来规范化⼈脸在集合上与数据集⼀致
特征提取: 后来,提取特征并且⽤在识别任务中。
特征识别: 与数据库中的特征相匹配
下⾯的开放源数据集将为您提供良好的⼈脸识别机会:
1. MegaFace
MegaFace是⼀个⼤规模的公共⼈脸识别训练数据集,它是商业⼈脸识别问题最重要的基准之⼀。它包括4753320个⼈
脸,672057个⾝份
2. Labeled faces in wild home
Labeled faces in wild home(LFW)是⼀个⼈脸照⽚数据库,旨在研究⽆约束⼈脸识别问题。它有13233张5749⼈的图⽚,是从⽹上发现和收集的。另外,1680名照⽚中的⼈在数据集中有两张或两张以上不同的照⽚。
此外, 为了更好的利⽤这些项⽬, 你可以使⽤像FaceNet这样的预训练模型。
Facenet是⼀种深度学习模型,它为⼈脸识别、验证和聚类任务提供了统⼀的嵌⼊。⽹络将每个⼈脸都映射在⼀个欧⼏⾥德⽹络中,每个图像之间的距离是相似的。
资源
也可以使⽤keras或者pytorch的预训练模型来构建⾃⼰的⼈脸识别系统。
还有⼀些更先进的⼈脸识别模型可供使⽤。Deepface是由Facebook的研究⼈员开发的基于CNN的Deep⽹络。这是在⼈脸识别任务中使⽤深度学习的⼀个重要⾥程碑。
为了更好地了解近30年来⼈脸识别技术的发展,我建议您阅读⼀篇有趣的论⽂,题⽬是:
Deep Face Recognition: A Survey
开源的计算机视觉项⽬⼀使⽤GAN进⾏⾃然风格转换
⾃然风格转换是⼀种使⽤⼀张图像的风格重建另⼀张图像的内容的计算机视觉技术。这是⽣成对抗⽹络(GAN)的应⽤, 这⼉,我们输⼊了两张图像, ⼀张内容图像,另⼀张时风格参考图像, 然后将⼆者混合在⼀起以⾄于输出图像看起来像使⽤风格参考图像绘制出来的油画。
这是通过优化输出图像与内容图像匹配的内容统计和样式参考图像的样式统计来实现的。
资源
下边是⼀些⽤来练习⾮常令⼈惊叹的数据集:
1. COCO数据集
COCO是⼀个⼤规模的对象检测、分割和标注的数据集。数据集中的图像是从⽇常场景中捕获的⽇常对象。此外,它提供了多对象标记、分割掩码标注、图像标注和关键点检测,共有81个类别,使其成为⼀个⾮常通⽤和多⽤途的数据集。
2. ImageNet
上边已经提到过 ⼀ ImageNet⾮常灵活多⽤。
如果你还不知道如何应⽤风格转换模型,这⼉是⼀个tensorflow的教程可以帮助你, ⽽且, 如果你像更加升⼊了解这个技术我建议你阅读接下来的论⽂。
艺术风格的学术表达
使⽤循环⼀致对抗⽹络的⽆需配对的图像到图像的转换
使⽤卷积神经⽹络进⾏图像分割转换
⽤于场景⽂本检测的开源计算机视觉项⽬
在任何给定的场景中检测给定的场景是另外的⼀个⾮常有趣的问题。 场景⽂字就是出现在户外拍摄的图像中出现的字符。 例如, 道路上的车牌号, 道路上的公告牌等等。
场景图像中的⽂字在形状, 字体, 颜⾊和位置上都是变化的。由于光照和聚焦的不均匀性,使得场景⽂本识别的复杂度进⼀步增加。
下边这些流⾏的数据集将会丰富你分析场景⽂字检测的技能:
1. SVHN
街景门牌号码(SVHN)数据集是其中最受欢迎的开源数据集之⼀。它已⽤于Google创建的神经⽹络中,以读取门牌号并将其与地理位置匹配。这是⼀个很好的基准数据集,可⽤于练习, 学习和训练可准确识别街道编号的模型。此数据集包含从Google街景视图中获取的超过60万张带标签的真实房门图像。
2. SceneText数据集
场景⽂本数据集包含在不同环境中捕获的3000张图像,包括在不同光照条件下的室外和室内场景。图像是通过使⽤⾼分辨率数码相机或低分辨率移动电话相机捕获的。此外,所有图像均已调整为640×480。
此外,场景⽂本检测是⼀个两步过程,包括图像中的⽂本检测和⽂本识别。对于⽂本检测,我发现了最先进的深度学习⽅法EAST(⾼效准确场景⽂本检测器)。它可以到⽔平和旋转边界框。您可以将其与任何⽂本识别⽅法结合使⽤。
这是有关场景⽂本检测的其他⼀些有趣的论⽂:
使⽤链接主义⽂本提议⽹络检测⾃然图像中的⽂本
COCO-Text:⽤于⾃然图像中⽂本检测和识别的数据集和基准
使⽤DETR进⾏⽬标检测的开源计算机视觉项⽬
⽬标检测是通过边界框以及图像上的适当标签预测图像中存在的每个感兴趣对象的任务。
⼏个⽉前,Facebook开源了其对象检测框架DEtection TRansformer(DETR)。DETR是针对⽬标检测问题的⾼效创新解决⽅案。通过将对象检测视为直接设置的预测问题,它简化了训练管道。此外,它采⽤基于变压器的编码器-解码器架构。
要了解有关DERT的更多信息,请参见论⽂和Colab notebook。
通过处理以下⽤于对象检测的开源数据集来使您的资料多样化:
1. open Images
Open Image是约900万张图像的数据集,其中标注了图像级标签,对象边界框,对象分割掩码,视觉关系和本地化描述。数据集分为训练集(9,011,219张图像),验证集(41,620张图像)和测试集(125,436张图像)。
2. MSCOCO
MS-COCO是⼴泛⽤于⽬标检测问题的⼤规模数据集。它由33万张图像组成,其中包含80个对象类别,每个图像有5个标注,并有25万关键点。
您可以阅读以下资源以了解有关对象检测的更多信息:
基本对象检测算法的分步介绍
使⽤流⾏的YOLO框架进⾏对象检测的实⽤指南
Facebook AI推出检测转换器(DETR)–⼀种基于transformer的对象检测⽅法!
⽤于语义分割的开源计算机视觉项⽬
当我们谈论计算机视觉技术中对场景的完全理解时,语义分割就出现了。任务是将图像中的所有像素分类为相关对象类别。
以下是实践该主题的开源数据集的列表:
1. CamVid
该数据库是开源的第⼀个按语义分割的数据集之⼀。这通常⽤于(实时)语义分割研究中。数据集包含:
367个训练对
101个验证对
233个测试对
2. Cityscapes
该数据集是原始城市景观的经过处理的⼦样本。数据集具有原始视频的静⽌图像,并且语义分割标签显⽰在原始图像旁边的图像中。
这是⽤于语义分割任务的最佳数据集之⼀。它具有2975个训练图像⽂件和500个验证图像⽂件,每个图像⽂件均为256×512像素要进⼀步了解语义分段,我将推荐以下⽂章:
语义分割:Google Pixel相机背后的深度学习技术简介!
以下是⼀些可⽤于语义分割的代码的论⽂:
带有空洞可分离卷积的编码器-解码器⽤于语义图像分割
DeepLab:使⽤深度卷积⽹络,空洞卷积和完全连接的CRF的语义图像分割
⽤于⾃动驾驶车辆道路车道检测的开源计算机视觉项⽬
⼀个⾃主轿车是能够感知周围环境,并⽆需⼈类⼲预就能操作的交通⼯具。他们根据适合车辆不同部分的各种传感器创建并维护周围环境的地图。
这些车辆具有监视附近车辆位置的雷达传感器。摄像机检测交通信号灯,读取路标,跟踪其他车辆以及激光雷达(光检测和测距)传感器从汽车周围反射光脉冲以测量距离,检测道路边缘并识别车道标记
车道检测是这些车辆的重要组成部分。在公路运输中,车道是⾏车道的⼀部分,被指定⽤于单⾏车辆来控制和引导驾驶员并减少交通冲突。在您的数据科学家的简历中添加⼀个令⼈兴奋的项⽬。以下是⼀些可⽤于实验的数据集-
1. TUsimple
该数据集是Tusimple车道检测挑战赛的⼀部分。它包含3626个视频⽚段,每个⽚段1秒。这些视频剪辑中的每⼀个都包含20帧,并带有带注释的最后⼀帧。它包含训练和测试数据集,其中包含3626个视频⽚段,训练数据集中的3626个带注释的帧和2782个⽤于测试的视频⽚段。
如果您正在寻⼀些开发项⽬的教程,请查看下⾯的⽂章-
使⽤OpenCV进⾏实时车道检测的动⼿教程(⽆⼈驾驶汽车项⽬!)
⽤于图像标注的开源计算机视觉项⽬
您是否曾经希望过⼀些可以为社交媒体图像添加标注的技术,因为您和您的朋友都⽆法提出超酷的标注?⽤于图像标注的深度学习助您⼀臂之⼒。
图像标注是为图像⽣成⽂本描述的过程。它是计算机视觉和⾃然语⾔处理(NLP)的组合任务。
计算机视觉⽅法有助于理解并从输⼊图像中提取特征。此外,NLP以正确的单词顺序将图像转换为⽂本描述。
以下是⼀些有⽤的数据集,可帮助您使⽤图像标注:
1. COCO Caption
COCO是⼤规模的对象检测,分割和标注数据集。它由330万张图像(标有> 200K)组成,具有150万个对象实例和80个对象类别,每个图像有5个标题。
2. Ficker 8K 数据集
它是⼀个图像标注语料库,由158,915个众包字幕组成,描述了31,783张图像。这是Flickr 8k数据集的扩展 。新的图像和标注集中于进⾏⽇常活动和事件的⼈们。
如果您正在寻项⽬的实施,我建议您看下⾯的⽂章:
在PyTorch中使⽤深度学习(CNN和LSTM)进⾏⾃动图像字幕
另外,我建议您阅读有关图像标注的著名论⽂。
⽤于⼈体姿势估计的开源计算机视觉项⽬
⼈体姿势估计是计算机视觉的有趣应⽤。您⼀定已经听说过Posenet,它是⽤于⼈体姿势估计的开源模型。简⽽⾔之,姿势估计是⼀种计算机视觉技术,可以推断图像/视频中存在的⼈或物体的姿势。
在讨论姿势估计的⼯作之前,让我们⾸先了解“⼈体姿势⾻架”。它是定义⼀个⼈的姿势的⼀组坐标。⼀对坐标是肢体。此外,通过识别,定位和跟踪图像或视频中⼈类姿势⾻架的关键点来执⾏姿势估计。
资源
如果要开发姿势估计模型,以下是⼀些数据集:
1. MPII
MPII Human Pose数据集是评估关节式姿势估计的最新基准。该数据集包含约25K图像,其中包含超过4 万名带注释的⼈体关节的⼈。总体⽽⾔,数据集涵盖410种⼈类活动,每个图像都有⼀个活动标签。
2. HUMANEVA
HumanEva-I数据集包含与3D⼈体姿势同步的7个校准视频序列。该数据库包含执⾏6个常见动作(例如,步⾏,慢跑,打⼿势等)的4个主题,这些动作被分为训练,验证和测试集。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论