paddle的数据加载相关接口有点混乱?
收藏
感觉paddle框架提供的数据加载方式有点混乱,代码组织架构不如pytorch优美。主要是没有提供统一的封装结构,大家有什么好的参考吗?
0
收藏
请登录后评论
你这里指的是mnist这些内置的数据吗?
不是,我是指加载自定义数据的时候。我觉得麻烦之处:
1. 对多进程加载的支持貌似只有fluid.io.Dataloader, 但是这个类在动态图和静态图下的使用有差异, 而且感觉reader源需要单独的命令设置很不合理
2. 如果使用io.batch又不能多进程。
3. 框架里面还有各种七七八八的接口,对初学入门极不友好,这一块文档也不够规范。
上面这些导致我很难设计出一个舒服的项目框架,个人感觉pytorch的Dataset和Dataloader接口封装就十分优美,长远来看真的希望paddle官方可以优化一下这一块。
已经有了,1.8版本调用fluid.io.Dataset 和fluid.io.Dataloader