PaddleNLP的数据集怎么自定义？

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

AIStudio810259 发布于2021-01

PaddleNLP的数据集怎么自定义？

谁来打个样

我来抄作业。

0

收藏

回复

全部评论(19)

AIStudio810261

#2 回复于2021-01

Transformer Benchmark with Fleet API
Transformer
模型简介
机器翻译（machine translation, MT）是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程，输入为源语言句子，输出为相应的目标语言的句子。

本项目是机器翻译领域主流模型 Transformer 的 PaddlePaddle 实现，包含模型训练，预测以及使用自定义数据等内容。用户可以基于发布的内容搭建自己的翻译模型。

快速开始
安装说明
paddle安装

本项目依赖于 PaddlePaddle 2.0rc1 及以上版本或适当的develop版本，请参考安装指南进行安装
下载代码

克隆代码库到本地
环境依赖

该模型使用PaddlePaddle，关于环境依赖部分，请先参考PaddlePaddle安装说明关于环境依赖部分的内容。此外，需要另外涉及：

attrdict
pyyaml
数据准备
公开数据集：WMT 翻译大赛是机器翻译领域最具权威的国际评测大赛，其中英德翻译任务提供了一个中等规模的数据集，这个数据集是较多论文中使用的数据集，也是 Transformer 论文中用到的一个数据集。我们也将WMT'14 EN-DE 数据集作为示例提供。

同时，我们提供了一份已经处理好的数据集，可以编写如下代码，对应的数据集将会自动下载并且解压到 ~/.paddlenlp/datasets/machine_translation/WMT14ende/。这部分已经在 reader.py 中有写明，若无自行修改可以无需编写相应代码。

# 获取默认的数据处理方式
transform_func = WMT14ende.get_default_transform_func(root=root)
# 下载并处理 WMT14.en-de 翻译数据集
dataset = WMT14ende.get_datasets(mode="train", transform_func=transform_func)

0

回复

AIStudio810261

#3 回复于2021-01

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/benchmark/transformer

0

回复

七年期限

#4 回复于2021-01

这个问题问的还真没看过哈哈

0

回复

AIStudio810258

#5 回复于2021-01

原来这样

0

回复

AIStudio810259

#6 回复于2021-01

AIStudio810261 #3

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/benchmark/transformer

嗯，会抄了，不同类型稍有不同。

0

回复

七年期限

#7 回复于2021-01

用命令下载一下瞅瞅

0

回复

陈鹏烨

#8 回复于2021-01

写的真好~~

0

回复

AIStudio810259

#9 回复于2021-01

AIStudio810261 #2

Transformer Benchmark with Fleet API Transformer 模型简介机器翻译（machine translation, MT）是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程，输入为源语言句子，输出为相应的目标语言的句子。本项目是机器翻译领域主流模型 Transformer 的 PaddlePaddle 实现，包含模型训练，预测以及使用自定义数据等内容。用户可以基于发布的内容搭建自己的翻译模型。快速开始安装说明 paddle安装本项目依赖于 PaddlePaddle 2.0rc1 及以上版本或适当的develop版本，请参考安装指南进行安装下载代码克隆代码库到本地环境依赖该模型使用PaddlePaddle，关于环境依赖部分，请先参考PaddlePaddle安装说明关于环境依赖部分的内容。此外，需要另外涉及： attrdict pyyaml 数据准备公开数据集：WMT 翻译大赛是机器翻译领域最具权威的国际评测大赛，其中英德翻译任务提供了一个中等规模的数据集，这个数据集是较多论文中使用的数据集，也是 Transformer 论文中用到的一个数据集。我们也将WMT'14 EN-DE 数据集作为示例提供。同时，我们提供了一份已经处理好的数据集，可以编写如下代码，对应的数据集将会自动下载并且解压到 ~/.paddlenlp/datasets/machine_translation/WMT14ende/。这部分已经在 reader.py 中有写明，若无自行修改可以无需编写相应代码。 # 获取默认的数据处理方式 transform_func = WMT14ende.get_default_transform_func(root=root) # 下载并处理 WMT14.en-de 翻译数据集 dataset = WMT14ende.get_datasets(mode="train", transform_func=transform_func)

展开

反正挺麻烦了，抄没抄对

0

回复

硕

硕硕

#10 回复于2021-01

https://aistudio.baidu.com/aistudio/projectdetail/1468469

可以参考下这个项目～

0

回复

AIStudio9998716

#11 回复于2021-01

快来抄作业啦 https://aistudio.baidu.com/aistudio/projectdetail/1468469

0

回复

七年期限

#12 回复于2021-01

AIStudio9998716 #11

快来抄作业啦 https://aistudio.baidu.com/aistudio/projectdetail/1468469

这是官方吗

0

回复

AIStudio810259

#13 回复于2021-01

AIStudio9998716 #11

快来抄作业啦 https://aistudio.baidu.com/aistudio/projectdetail/1468469

在炒了。

0

回复

七年期限

#14 回复于2021-01

AIStudio810259 #13

在炒了。

是官方吗？建哥

0

回复

A

AIStudio587886

#15 回复于2021-04

AIStudio810259 #6

嗯，会抄了，不同类型稍有不同。

请问大佬会改了吗？translation/transformer想要自定义数据集参考什么改呢？

0

回复

jsdbzcm

#16 回复于2021-05

学习一下

0

回复

深渊上的坑

#17 回复于2021-05

AIStudio587886 #15

请问大佬会改了吗？translation/transformer想要自定义数据集参考什么改呢？

不同任务可能不太一样……

0

回复

深渊上的坑

#18 回复于2021-05

AIStudio9998716 #11

快来抄作业啦 https://aistudio.baidu.com/aistudio/projectdetail/1468469

搞了半天我抄的都不是官方的作业……全抄的七年的作业2333

0

回复

13168076035z

#19 回复于2021-05

瞅瞅！！！

0

回复

13168076035z

#20 回复于2021-06

抄作业了

0

回复

提issue

需求/bug反馈？一键提issue告诉我们

提pr

发现bug？如果您知道修复办法，欢迎提pr直接参与建设飞桨~