如何生成自己的 voc数据集
收藏
这个故事要从你自己标注完图片以后才能做:
数据集文件夹结构
在PaddleX中,目标检测支持VOC数据集格式。建议将数据集按照如下方式进行组织,原图均放在同一目录,名字一定要取JPEGImages,标注的同名xml文件均放在同一目录,名字一定要取Annotations,示例如下
划分训练集验证集
为了用于训练,我们需要在MyDataset目录下准备train_list.txt, val_list.txt和labels.txt三个文件,分别用于表示训练集列表,验证集列表和类别标签列表。
建议使用PaddleX自带工具,自动对数据集进行随机划分,在数据集按照上面格式组织后,使用如下命令即可快速完成数据集随机划分,其中val_value表示验证集的比例,test_value表示测试集的比例(可以为0),剩余的比例用于训练集。下面的这句非常好用(在aistudio上运行):
!paddlex --split_dataset --format VOC --dataset_dir MyDataset --val_value 0.2 --test_value 0.1
全自动的,省事,瞬间完成。如果自己标,容易标错,做为菜鸟,我手工生成train_list.txt, val_list.txt和labels.txt三个文件花了一天时间。上面MyDataset是你数据集根目录(文件夹)的名字,你可以改成你自己的名字。
1
收藏
请登录后评论
paddlex --split_dataset --format VOC --dataset_dir MyDataset --val_value 0.2 --test_value 0.1
请问这行代码是在终端执行的吗
在aistudio上面运行,前面好象得加个!
我直接放上感叹号“!”了,你复制后直接在aistudio上运行。
谢谢啦,整会了
是在终端执行的,如果环境安装了paddlex的话
加!是因为aistudio的notebook环境网页是jupyter notebook啊,要在jupyter里面执行终端命令,就要加个!
不加感叹号的话,打开终端,配置好路径,执行上面那段命令就行了