首页 PaddleHub 帖子详情
8行代码构建自己的paddlehub-cv数据集
收藏
快速回复
PaddleHub 文章预训练模型 1374 3
8行代码构建自己的paddlehub-cv数据集
收藏
快速回复
PaddleHub 文章预训练模型 1374 3

先看paddlehub官方数据集构建要求文档

训练/验证/测试集的数据列表文件的格式如下,列与列之间以空格键分隔:       图片1路径 图片1标签

label_list.txt的格式:   分类1名称

 以DogCat数据集为示例,train_list.txt/test_list.txt/validate_list.txt内容示例:     cat/3270.jpg 0

根据上诉要求编写代码

import os
DIRECTORY= "C:\\Users\\28922\\Desktop\\功能代码\\images\\汽车\\porsche"           #这里是自己子文件夹的图片的位置,train_1到train_n
f = open('C:\\Users\\28922\\Desktop\\功能代码\\images\\汽车\\tarin_list3.txt','w')     #txt文件位置train_1到train_n
files=os.listdir(DIRECTORY)
for file in files:
f.writelines("porsche/"+file+""+" 1 ")                                                                            #num_class 是该类图像对应的分类一般用0-9
f.write('\n')
f.close()

#需要自行填写更改以下3行代码内容

#第2行代码填入自己的图片文件夹路径,每个分类是一个文件夹.比如我做4分类,就新建4个文件夹,每个文件夹放入相应的图片.

#第3行代码是对应第2行代码图片的标签文件.自己手动填写文件名.

#第6行代码的"porsche"改成自定义的分类名; 数字"1"改为自定义的分类数.   PS这里我做的是汽车分类数据集,把Porsche分类标签定为1.

运行代码,文件写入成功. 比如我做4分类数据集,就运行4次代码,生成4个标签文件.当然你可以把所有文件合并成1个.

1
收藏
回复
全部评论(3)
时间顺序
Icon
#2 回复于2020-07

可以在上述基础代码上写入循环,这样运行一次就可以.由于我的项目需要将list分开,所以写了这个版本

0
回复
夜夜夜
#3 回复于2020-07

mark 一下,学习学习

0
回复
夜夜夜
#4 回复于2020-07

mark学习一下。

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户