首页 PaddleNLP 帖子详情
PaddleNLP的数据集怎么自定义?
收藏
快速回复
PaddleNLP 问答NLP数据 2078 19
PaddleNLP的数据集怎么自定义?
收藏
快速回复
PaddleNLP 问答NLP数据 2078 19

PaddleNLP的数据集怎么自定义?

谁来打个样

我来抄作业。

0
收藏
回复
全部评论(19)
时间顺序
AIStudio810261
#2 回复于2021-01

Transformer Benchmark with Fleet API
Transformer
模型简介
机器翻译(machine translation, MT)是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,输入为源语言句子,输出为相应的目标语言的句子。

本项目是机器翻译领域主流模型 Transformer 的 PaddlePaddle 实现, 包含模型训练,预测以及使用自定义数据等内容。用户可以基于发布的内容搭建自己的翻译模型。

快速开始
安装说明
paddle安装

本项目依赖于 PaddlePaddle 2.0rc1 及以上版本或适当的develop版本,请参考 安装指南 进行安装
下载代码

克隆代码库到本地
环境依赖

该模型使用PaddlePaddle,关于环境依赖部分,请先参考PaddlePaddle安装说明关于环境依赖部分的内容。 此外,需要另外涉及:

attrdict
pyyaml
数据准备
公开数据集:WMT 翻译大赛是机器翻译领域最具权威的国际评测大赛,其中英德翻译任务提供了一个中等规模的数据集,这个数据集是较多论文中使用的数据集,也是 Transformer 论文中用到的一个数据集。我们也将WMT'14 EN-DE 数据集作为示例提供。

同时,我们提供了一份已经处理好的数据集,可以编写如下代码,对应的数据集将会自动下载并且解压到 ~/.paddlenlp/datasets/machine_translation/WMT14ende/。这部分已经在 reader.py 中有写明,若无自行修改可以无需编写相应代码。

# 获取默认的数据处理方式
transform_func = WMT14ende.get_default_transform_func(root=root)
# 下载并处理 WMT14.en-de 翻译数据集
dataset = WMT14ende.get_datasets(mode="train", transform_func=transform_func)

0
回复
AIStudio810261
#3 回复于2021-01

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/benchmark/transformer

0
回复
七年期限
#4 回复于2021-01

这个问题问的还真没看过 哈哈

0
回复
AIStudio810258
#5 回复于2021-01

原来这样

0
回复
AIStudio810259
#6 回复于2021-01
https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/benchmark/transformer

嗯,会抄了,不同类型稍有不同。

0
回复
七年期限
#7 回复于2021-01

用命令下载一下 瞅瞅

0
回复
陈鹏烨
#8 回复于2021-01

写的真好~~

0
回复
AIStudio810259
#9 回复于2021-01
Transformer Benchmark with Fleet API Transformer 模型简介 机器翻译(machine translation, MT)是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,输入为源语言句子,输出为相应的目标语言的句子。 本项目是机器翻译领域主流模型 Transformer 的 PaddlePaddle 实现, 包含模型训练,预测以及使用自定义数据等内容。用户可以基于发布的内容搭建自己的翻译模型。 快速开始 安装说明 paddle安装 本项目依赖于 PaddlePaddle 2.0rc1 及以上版本或适当的develop版本,请参考 安装指南 进行安装 下载代码 克隆代码库到本地 环境依赖 该模型使用PaddlePaddle,关于环境依赖部分,请先参考PaddlePaddle安装说明关于环境依赖部分的内容。 此外,需要另外涉及: attrdict pyyaml 数据准备 公开数据集:WMT 翻译大赛是机器翻译领域最具权威的国际评测大赛,其中英德翻译任务提供了一个中等规模的数据集,这个数据集是较多论文中使用的数据集,也是 Transformer 论文中用到的一个数据集。我们也将WMT'14 EN-DE 数据集作为示例提供。 同时,我们提供了一份已经处理好的数据集,可以编写如下代码,对应的数据集将会自动下载并且解压到 ~/.paddlenlp/datasets/machine_translation/WMT14ende/。这部分已经在 reader.py 中有写明,若无自行修改可以无需编写相应代码。 # 获取默认的数据处理方式 transform_func = WMT14ende.get_default_transform_func(root=root) # 下载并处理 WMT14.en-de 翻译数据集 dataset = WMT14ende.get_datasets(mode="train", transform_func=transform_func)
展开

反正挺麻烦了,抄没抄对

0
回复
硕硕
#10 回复于2021-01

https://aistudio.baidu.com/aistudio/projectdetail/1468469

可以参考下这个项目~

0
回复
AIStudio9998716
#11 回复于2021-01

快来抄作业啦 https://aistudio.baidu.com/aistudio/projectdetail/1468469

0
回复
七年期限
#12 回复于2021-01
快来抄作业啦 https://aistudio.baidu.com/aistudio/projectdetail/1468469

这是官方吗

0
回复
AIStudio810259
#13 回复于2021-01
快来抄作业啦 https://aistudio.baidu.com/aistudio/projectdetail/1468469

在炒了。

0
回复
七年期限
#14 回复于2021-01
在炒了。

是官方吗?建哥

0
回复
A
AIStudio587886
#15 回复于2021-04
嗯,会抄了,不同类型稍有不同。

请问大佬会改了吗?translation/transformer想要自定义数据集参考什么改呢?

0
回复
jsdbzcm
#16 回复于2021-05

学习一下

 

0
回复
深渊上的坑
#17 回复于2021-05
请问大佬会改了吗?translation/transformer想要自定义数据集参考什么改呢?

不同任务可能不太一样……

0
回复
深渊上的坑
#18 回复于2021-05
快来抄作业啦 https://aistudio.baidu.com/aistudio/projectdetail/1468469

搞了半天我抄的都不是官方的作业……全抄的七年的作业2333

0
回复
13168076035z
#19 回复于2021-05

 瞅瞅!!!

0
回复
13168076035z
#20 回复于2021-06

抄作业了

0
回复
需求/bug反馈?一键提issue告诉我们
发现bug?如果您知道修复办法,欢迎提pr直接参与建设飞桨~
在@后输入用户全名并按空格结束,可艾特全站任一用户