先看paddlehub官方数据集构建要求文档
训练/验证/测试集的数据列表文件的格式如下,列与列之间以空格键分隔: 图片1路径 图片1标签
label_list.txt的格式: 分类1名称
以DogCat数据集为示例,train_list.txt/test_list.txt/validate_list.txt内容示例: cat/3270.jpg 0
根据上诉要求编写代码
import os
DIRECTORY= "C:\\Users\\28922\\Desktop\\功能代码\\images\\汽车\\porsche" #这里是自己子文件夹的图片的位置,train_1到train_n
f = open('C:\\Users\\28922\\Desktop\\功能代码\\images\\汽车\\tarin_list3.txt','w') #txt文件位置train_1到train_n
files=os.listdir(DIRECTORY)
for file in files:
f.writelines("porsche/"+file+""+" 1 ") #num_class 是该类图像对应的分类一般用0-9
f.write('\n')
f.close()
#需要自行填写更改以下3行代码内容
#第2行代码填入自己的图片文件夹路径,每个分类是一个文件夹.比如我做4分类,就新建4个文件夹,每个文件夹放入相应的图片.
#第3行代码是对应第2行代码图片的标签文件.自己手动填写文件名.
#第6行代码的"porsche"改成自定义的分类名; 数字"1"改为自定义的分类数. PS这里我做的是汽车分类数据集,把Porsche分类标签定为1.
运行代码,文件写入成功. 比如我做4分类数据集,就运行4次代码,生成4个标签文件.当然你可以把所有文件合并成1个.
可以在上述基础代码上写入循环,这样运行一次就可以.由于我的项目需要将list分开,所以写了这个版本
mark 一下,学习学习
mark学习一下。