首页 PaddleHub 帖子详情
PaddleHub的文档该完善了 已解决
收藏
快速回复
PaddleHub 其他迁移学习 1295 4
PaddleHub的文档该完善了 已解决
收藏
快速回复
PaddleHub 其他迁移学习 1295 4

发现社区里不少人说不知道怎么用PaddleHub自定义数据集,比如文本分类这种基础任务。然后今天看了下PaddleHub仓库,愣是找不到相关文档,只好从封装的严严实实的API里不断返查源代码……

然后看了下旧版的PaddleHub项目,似乎都有自定义数据集的链接(现在进去都失效了,跳转PaddleHub首页),看来迭代太快,文档没跟上啊……

划飞桨的Daniel
已解决
2# 回复于2021-06
2.0版本之后,迁移学习这块整体升级了,我们重新升级了一下文档,现在可以从github上的readthedoc进去看到,https://paddlehub.readthedocs.io/zh_CN/release-v2.1/ 这里应该有哈
展开
0
收藏
回复
全部评论(4)
时间顺序
划飞桨的Daniel
#2 回复于2021-06

2.0版本之后,迁移学习这块整体升级了,我们重新升级了一下文档,现在可以从github上的readthedoc进去看到,https://paddlehub.readthedocs.io/zh_CN/release-v2.1/ 这里应该有哈

0
回复
深渊上的坑
#3 回复于2021-06
2.0版本之后,迁移学习这块整体升级了,我们重新升级了一下文档,现在可以从github上的readthedoc进去看到,https://paddlehub.readthedocs.io/zh_CN/release-v2.1/ 这里应该有哈
展开

感谢回复~

0
回复
深渊上的坑
#4 回复于2021-06

根据指引,找到了文档中关于自定义数据集的内容:

https://github.com/PaddlePaddle/PaddleHub/blob/release/v2.0.0-beta/docs/docs_ch/tutorial/how_to_load_data.md

0
回复
深渊上的坑
#5 回复于2021-06
from paddlehub.datasets.base_nlp_dataset import TextClassificationDataset

class MyDataset(TextClassificationDataset):
    # 数据集存放目录
    base_path = '/path/to/dataset'
    # 数据集的标签列表
    label_list=['体育', '科技', '社会', '娱乐', '股票', '房产', '教育', '时政', '财经', '星座', '游戏', '家居', '彩票', '时尚']
    
    def __init__(self, tokenizer, max_seq_len: int = 128, mode: str = 'train'):
        if mode == 'train':
            data_file = 'train.txt'
        elif mode == 'test':
            data_file = 'test.txt'
        else:
            data_file = 'dev.txt'
        super().__init__(
            base_path=self.base_path,
            tokenizer=tokenizer,
            max_seq_len=max_seq_len,
            mode=mode,
            data_file=data_file,
            label_list=self.label_list,
            is_file_with_header=True)

        
# 选择所需要的模型,获取对应的tokenizer
import paddlehub as hub
model = hub.Module(name='ernie_tiny', task='seq-cls', num_classes=len(MyDataset.label_list))
tokenizer = model.get_tokenizer()

# 实例化训练集
train_dataset = MyDataset(tokenizer)

这部分写得很详细了~~~之前我没发现,还跑源代码倒查= =唉……

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户