前言:
通常情况下,新模型发布后,其对应的 github 仓库中都会有提供自定数据集训练的任务脚本,开发者可以基于自己的数据集,快速实现对该模型结构的训练与验证。但往往这些训练脚本仅支持部分的数据集格式,例如 YOLOv8 的官方仓库,就是需要开发者的数据集格式满足 Ultralytics 标准,或是手动编写脚本进行,将原本的数据集格式转化为 Ultralytics 格式,但这部分工作其实并不影响模型训练后的部署效果,因此如果有一个工具帮助我们非常便捷地进行训练数据的管理与格式转换,将大大提升模型训练的生产效率。
Datumaro 套件介绍
项目地址:https://github.com/openvinotoolkit/datumaro Datumaro 是一个支持 Python 和命令行调用两种调用方式的标注数据管理工具。它可以支持以下功能: >标注数据格式双向转换可以适用于分类,分割,检测,关键点检测,文本定位,文本识别、重识别以及点云任务的数据处理,支持以下标注数据格式的互相转换:-
CIFAR-10/100(classification)
-
Cityscapes
-
COCO(image_info,instances,person_keypoints,captions,labels,panoptic,stuff)
-
CVAT
-
ImageNet
-
Kitti(segmentation,detection,3D raw/velodyne points)
-
LabelMe
-
LFW(classification,person re-identification,landmarks)
-
MNIST(classification)
-
Open Images
-
PASCAL VOC(classification,detection,segmentation,action_classification,person_layout)
-
YOLO(bboxes)
-
多个数据集合并
-
数据集标签过滤,例如删除特定标签的图片
-
修改数据集标签
-
数据集分割,例如训练集、验证集与测试集
-
数据集采样,例如基于 Entropy 的方法筛选合适的训练集样本
Datumaro 套件实践
Datumaro 是支持命令行调用的模式,因此我们可以非常方便地使用 1 行命令完成 2 种不同格式数据的转换,下面我将基于命令行模式,演示一下 Datumaro 处理标注数据格式转化时的基本方法。 ·Datumaro 安装与基本使用方法Datumaro 支持基于 PyPI 的安装方式,如果想在第一时间体验最新的功能也可以基于 github仓库直接安装# From PyPI:$pipinstalldatumaro[default]$pipinstall'git+https://github.com/openvinotoolkit/datumaro[default]'Datumaro 的命令行调用方法非常简单,如果你已经有了一组标准格式的数据集,只需要在命令行中定于原始数据格式和路径,以及转换后的数据格式及路径即可:$datumconvert-ifvoc-i-fcoco-o·YOLOv8目标检测数据集实战正好最近在准备表计识别的项目,这里借用一下飞桨提供的表计检测数据集,目标是使用 YOLOv8 模型构建表盘目标检测任务。 数据集下载地址:https://bj.bcebos.com/paddlex/examples/meter_reader/datasets/meter_det.tar.gz 下载数据集后可以看到文件目录结构如下:├── meter_det│ ├── annotations│ ├── instance_train.json│ └── instance_test.json│ ├── test│ └── train其实中 train 和 test 目录下分别保存了图片格式的训练数据和验证数据:├── test│ ├── 20190822_105.jpg│ ├── 20190822_110.jpg│ ├── 20190822_123.jpg│ ├── 20190822_124.jpg│ ├── 20190822_127.jpg│ ├── …我们可以随机打开一张图片验证:
总 结
Datumaro 是一个非常强大的标注数据管理工具,帮助开发者在各种数据标准间轻松实现格式的互相转换,并实现对这些数据集的有效管理和改造,大大提升了既有数据集的复用性,完成对新模型效果进行快速验证。
-
数据管理
+关注
关注
1文章
302浏览量
19724 -
数据集
+关注
关注
4文章
1212浏览量
24946
原文标题:一个工具搞定标注数据格式转换
文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
请问TLV320AIC3268的ADC转换后的数据格式是什么样的?
ADC3561转换成什么数据格式便于高速实时通过WIFI发送?
数据格式如何修改
标准测试数据格式STDF你了解多少
数据格式不同,如何在转换求均值
串口的数据格式
海洋环境信息数据格式分析研究
新型数据格式转换的FPGA实现

评论