PaddleNLP的数据集怎么自定义?
收藏
PaddleNLP的数据集怎么自定义?
谁来打个样
我来抄作业。
0
收藏
请登录后评论
Transformer Benchmark with Fleet API
Transformer
模型简介
机器翻译(machine translation, MT)是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,输入为源语言句子,输出为相应的目标语言的句子。
本项目是机器翻译领域主流模型 Transformer 的 PaddlePaddle 实现, 包含模型训练,预测以及使用自定义数据等内容。用户可以基于发布的内容搭建自己的翻译模型。
快速开始
安装说明
paddle安装
本项目依赖于 PaddlePaddle 2.0rc1 及以上版本或适当的develop版本,请参考 安装指南 进行安装
下载代码
克隆代码库到本地
环境依赖
该模型使用PaddlePaddle,关于环境依赖部分,请先参考PaddlePaddle安装说明关于环境依赖部分的内容。 此外,需要另外涉及:
attrdict
pyyaml
数据准备
公开数据集:WMT 翻译大赛是机器翻译领域最具权威的国际评测大赛,其中英德翻译任务提供了一个中等规模的数据集,这个数据集是较多论文中使用的数据集,也是 Transformer 论文中用到的一个数据集。我们也将WMT'14 EN-DE 数据集作为示例提供。
同时,我们提供了一份已经处理好的数据集,可以编写如下代码,对应的数据集将会自动下载并且解压到 ~/.paddlenlp/datasets/machine_translation/WMT14ende/。这部分已经在 reader.py 中有写明,若无自行修改可以无需编写相应代码。
# 获取默认的数据处理方式
transform_func = WMT14ende.get_default_transform_func(root=root)
# 下载并处理 WMT14.en-de 翻译数据集
dataset = WMT14ende.get_datasets(mode="train", transform_func=transform_func)
https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/benchmark/transformer
这个问题问的还真没看过 哈哈
原来这样
嗯,会抄了,不同类型稍有不同。
用命令下载一下 瞅瞅
写的真好~~
反正挺麻烦了,抄没抄对
https://aistudio.baidu.com/aistudio/projectdetail/1468469
可以参考下这个项目~
快来抄作业啦 https://aistudio.baidu.com/aistudio/projectdetail/1468469
这是官方吗
在炒了。
是官方吗?建哥
请问大佬会改了吗?translation/transformer想要自定义数据集参考什么改呢?
学习一下
不同任务可能不太一样……
搞了半天我抄的都不是官方的作业……全抄的七年的作业2333
瞅瞅!!!
抄作业了