我们采集或导出的原始文本数据中,通常包含着大量无关的emoji和url信息,面对大量的无用信息时该怎么办?少量数据通常我们可采用人工剔除的方式,但在数据量较大的情况下,往往就无从下手。
为了满足此类需求,EasyData近期推出文本数据清洗功能,可以通过平台提供的数据清洗功能对文本数据集进行清洗。
当文本数据中存在emoji表情、无用url数据时,您可以使用数据清洗的功能进行去除。
文本数据清洗另外提供了繁体字转简体字功能,通常情况下在使用简体字可以取得更好的模型效果。可以使用该功能将文本数据中的繁体字转为简体字。
需要注意的是,文本数据清洗功能仅支持未标注数据的清洗。具体如何使用,可以参考以下步骤使用文本数据清洗功能。
如何使用文本数据清洗功能
Part 1-创建清洗任务
进入EasyData后台,点击左侧导航栏中的【清洗任务管理】,可进入清洗任务管理页面,点击【新建清洗任务】即可跳转到创建页面,清洗方式选择【文本数据清洗】。
Part 2-选择数据集版本
为保证清洗任务顺利进行: 当您的清洗前后数据集版本为两个数据集时,清洗前后两个数据集版本均会为您保留;
在清洗前选择数据集及版本号,在清洗后选择与清洗前相同的数据集,在版本号的地方新建版本号并选中。在选择数据集版本时您需要注意以下几点:
- 清洗前的数据集需为非空且未标注的数据集;
- 目前本系统不支持清洗前后的数据集版本相同;您可以新建清洗后的数据集版本;
- 清洗后数据集版本标注信息需与清洗前保持一致,即清洗前后的数据集名称相同。
Part 3-选择数据集清洗方式
文本数据的清洗方式目前仅支持通用清洗方案,共有三种,根据清洗文本数据的需要,可同时选择1到多种清洗方式(最多可添加3种清洗方式),下面我们来分别对三种清洗方式进行具体介绍。
· 去掉清洗前文本中的表情等符号
· 去除文本数据中的网页链接
· 繁体转简体:指将文本中繁体字转为简体字(通常情况下在使用简体字可以取得更好的模型效果)
在完成以上步骤后,点击提交,即可完成清洗任务的创建,并可返回清洗任务管理页面对清洗任务进行管理。
关于EasyData
EasyData是百度大脑推出的智能数据服务平台,为具有AI开发需求的企业及个人开发者提供一站式数据处理服务。针对AI开发过程中的数据采集、数据标注、数据清洗等环节提供了软硬一体的自动化数据采集方案、智能标注、定制化清洗等领先能力。 同时EasyData已全面内置在EasyDL零门槛AI开发平台和BML全功能AI开发平台中,可以将EasyData处理的数据应用于EasyDL、BML的模型训练。
立即体验
EasyData智能数据服务平台:https://ai.baidu.com/easydata/
EasyDL零门槛AI开发平台:https://ai.baidu.com/easydl/
BML 全功能AI开发平台:https://ai.baidu.com/bml/
如果你在使用中遇到了一些问题,欢迎在下方跟帖留言-
哇 厉害了
很棒