首页 飞桨领航团 帖子详情
如何生成自己的 voc数据集
收藏
快速回复
飞桨领航团 文章AI达人创造营 823 7
如何生成自己的 voc数据集
收藏
快速回复
飞桨领航团 文章AI达人创造营 823 7

这个故事要从你自己标注完图片以后才能做:

数据集文件夹结构
在PaddleX中,目标检测支持VOC数据集格式。建议将数据集按照如下方式进行组织,原图均放在同一目录,名字一定要取JPEGImages,标注的同名xml文件均放在同一目录,名字一定要取Annotations,示例如下

划分训练集验证集
为了用于训练,我们需要在MyDataset目录下准备train_list.txt, val_list.txt和labels.txt三个文件,分别用于表示训练集列表,验证集列表和类别标签列表。

建议使用PaddleX自带工具,自动对数据集进行随机划分,在数据集按照上面格式组织后,使用如下命令即可快速完成数据集随机划分,其中val_value表示验证集的比例,test_value表示测试集的比例(可以为0),剩余的比例用于训练集。下面的这句非常好用(在aistudio上运行):

!paddlex --split_dataset --format VOC --dataset_dir MyDataset --val_value 0.2 --test_value 0.1

全自动的,省事,瞬间完成。如果自己标,容易标错,做为菜鸟,我手工生成train_list.txt, val_list.txt和labels.txt三个文件花了一天时间。上面MyDataset是你数据集根目录(文件夹)的名字,你可以改成你自己的名字。

1
收藏
回复
全部评论(7)
时间顺序
花都毒素
#2 回复于2021-08

paddlex --split_dataset --format VOC --dataset_dir MyDataset --val_value 0.2 --test_value 0.1

请问这行代码是在终端执行的吗

0
回复
7
79325416
#3 回复于2021-08
paddlex --split_dataset --format VOC --dataset_dir MyDataset --val_value 0.2 --test_value 0.1 请问这行代码是在终端执行的吗
展开

在aistudio上面运行,前面好象得加个!

0
回复
7
79325416
#4 回复于2021-08

我直接放上感叹号“!”了,你复制后直接在aistudio上运行。

0
回复
花都毒素
#5 回复于2021-08

谢谢啦,整会了

 

0
回复
深渊上的坑
#6 回复于2021-08
paddlex --split_dataset --format VOC --dataset_dir MyDataset --val_value 0.2 --test_value 0.1 请问这行代码是在终端执行的吗
展开

是在终端执行的,如果环境安装了paddlex的话

0
回复
深渊上的坑
#7 回复于2021-08
在aistudio上面运行,前面好象得加个!

加!是因为aistudio的notebook环境网页是jupyter notebook啊,要在jupyter里面执行终端命令,就要加个!

0
回复
深渊上的坑
#8 回复于2021-08
加!是因为aistudio的notebook环境网页是jupyter notebook啊,要在jupyter里面执行终端命令,就要加个!

不加感叹号的话,打开终端,配置好路径,执行上面那段命令就行了

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户