如何生成自己的 voc数据集

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

7 79325416 发布于2021-08

这个故事要从你自己标注完图片以后才能做：

数据集文件夹结构
在PaddleX中，目标检测支持VOC数据集格式。建议将数据集按照如下方式进行组织，原图均放在同一目录，名字一定要取JPEGImages，标注的同名xml文件均放在同一目录，名字一定要取Annotations，示例如下

划分训练集验证集
为了用于训练，我们需要在MyDataset目录下准备train_list.txt, val_list.txt和labels.txt三个文件，分别用于表示训练集列表，验证集列表和类别标签列表。

建议使用PaddleX自带工具，自动对数据集进行随机划分，在数据集按照上面格式组织后，使用如下命令即可快速完成数据集随机划分，其中val_value表示验证集的比例，test_value表示测试集的比例（可以为0），剩余的比例用于训练集。下面的这句非常好用（在aistudio上运行）：

!paddlex --split_dataset --format VOC --dataset_dir MyDataset --val_value 0.2 --test_value 0.1

全自动的，省事，瞬间完成。如果自己标，容易标错，做为菜鸟，我手工生成train_list.txt, val_list.txt和labels.txt三个文件花了一天时间。上面MyDataset是你数据集根目录（文件夹）的名字，你可以改成你自己的名字。

全部评论(7)

花

花都毒素

#2 回复于2021-08

paddlex --split_dataset --format VOC --dataset_dir MyDataset --val_value 0.2 --test_value 0.1

请问这行代码是在终端执行的吗

79325416

#3 回复于2021-08

花都毒素 #2

paddlex --split_dataset --format VOC --dataset_dir MyDataset --val_value 0.2 --test_value 0.1 请问这行代码是在终端执行的吗

展开

在aistudio上面运行，前面好象得加个！

79325416

#4 回复于2021-08

我直接放上感叹号“！”了，你复制后直接在aistudio上运行。

花

花都毒素

#5 回复于2021-08

谢谢啦，整会了

深渊上的坑

#6 回复于2021-08

花都毒素 #2

paddlex --split_dataset --format VOC --dataset_dir MyDataset --val_value 0.2 --test_value 0.1 请问这行代码是在终端执行的吗

展开

是在终端执行的，如果环境安装了paddlex的话

深渊上的坑

#7 回复于2021-08

79325416 #3

在aistudio上面运行，前面好象得加个！

加!是因为aistudio的notebook环境网页是jupyter notebook啊，要在jupyter里面执行终端命令，就要加个!

深渊上的坑

#8 回复于2021-08

深渊上的坑 #7

加!是因为aistudio的notebook环境网页是jupyter notebook啊，要在jupyter里面执行终端命令，就要加个!

不加感叹号的话，打开终端，配置好路径，执行上面那段命令就行了