使用EasyDL平台有一段时间了,深深的体会到了EasyDL的易用,此前接触过不少的深度学习平台,如类脑平台、Google的GCP深度学习平台、AWS深度学习平台,我觉得EasyDL在模型训练和使用上给了开发者极大的辅助,开发者或者用户只需要提交对应格式的训练文件,即可开始深度学习之旅,我的专业是自然语言处理中的情感分析,用的语料主要是电商评价文本数据,下面简单介绍一下文本情感分析任务。
情感分析(Sentiment Analysis,简称SA)综合了自然语言处理(Nature Language Processing,简称NLP)、机器学习(Machine Learning,简称ML)、文本挖掘、信息抽取与检索、概率统计等多个学科,是一种对用户生成数据(User Generate Content,简称UGC)中带有情感色彩的主观内容进行抽取、分析、处理、归纳和推理的融合技术,通过自动的分析某种产品/服务评论的文本内容,发现消费者对该产品/服务的态度和意见,对文本情感倾向,具体如褒/贬,好/坏,支持/反对等做出定性判断,并对其中的情感倾向性的强度做出分析。
所以基本上我的工作和研究都是以文本为主,那么分词、去停用词、合并同义词、建立词向量模型等等很多预处理步骤都有自己来做,还有后面的机器学习分类技术,包括SVM、贝叶斯、决策树和Text-CNN等,整体流程非常繁琐,绝大多数时间都在预处理数据花费掉了。但是自从接触了EasyDL平台之后,我觉得自己的研究生生涯开始走向了巅峰,因为这个平台使我见识到了深度学习竟然可以如此简单,绝大多数的工具都是由系统完成,只需要按照固定的格式进行提交即可,以至于目前唯一所要做的文本标注的工作都交给了网络爬虫自动标注完成,使用用户打分和文本评价进行结合,完成文本标签化,这些技术的实现极大地促进了我在大数据环境下的数据挖掘任务,使我从繁重Python代码实现中解脱出来,通过结果对比:使用EasyDL的训练结果和我之前的情感分类结果,自己使用Word2vec和Text-CNN结合所实现的情感分类准确度达到了99.28%,如图1所示,但是花费的时间是比较巨大的,耗费的资源也是比较大的,一般工业使用的准确率在80%以上即可,我又将相同的数据放到EasyDL上进行训练,训练的情感分类模型的准确率在88%,如图2所示,成绩不错,基本符合工业需求,平台极大地缩短的使用成本。在以后,我相信在开发者的协作下,百度EasyDL在模型准确率方面能更上一层楼。
图1 自己的CNN情感分类模型
图2 EasyDL训练结果
接下来我将叙述一下在具有文本标注集的基础上,如何在EasyDL平台上实现通过API接口上传文本文件进行模型训练。
(1) 首先将文件进行分类压缩,文件夹的名字即是txt文件的标签且数目大于2,具体的上传要求平台已有介绍如图4。下图3查看上传至平台的数据情况,为简单的情感二分类。
图3 上传后的文本数据集
图4 文本数据集上传结构
数据集内部结构如下图5所示。
图5 数据集内部结构
可以从数据集管理查看数据上传情况,如下图6所示。
图6 查看数据集
(2) 然后接下来开始训练模型,首先填写如下的模型说明,如下图7所示。
图7 模型介绍
然后点击下一步开始添加情感分析所需要的数据集,本次我们使用褒义和贬义两种数据集进行训练,所以直接选用pos和neg数据进行训练即可,如下图8所示。
图8 添加训练的文本语料
当添加完文本语料之后,点击训练之后,EasyDL平台即可对数据集进行学习。可以点击数据集管理,查看模型训练的进展情况,模型训练的时间与数据集的大小和复杂程度一致,在这里为了演示demo,我选择了较小的数据集,训练界面如下图9所示。
图9 平台学习文本的界面
(3) 模型训练好之后,需要对模型进行校验,以便了解模型的性能,模型的准确率和召回率都为88%,本次选用的数据集较小,结果尚可,校验的结果如下图10所示。
图10 文本情感分类模型校验结果图
(4) 直接上传文件进行文本的情感倾向测试了,下面看一下测试效果,首先选中一个未进行训练的测试文件,然后点击上传即可对模型进行测试,结果如下图11所示。
图11 模型测试用例
(5) 模型训练好了之后,通过模型性能测试,就可以申请上线,填写完表格即可制作文本情感分析API,在第一次的申请的时候,后台的客服小姐姐会打电话给你进行确认,我觉得这是使用EasyDL的一个小彩蛋,申请的具体的步骤如下图12所示。
图12 模型上线表格
至此,一个完整的文本情感分析模型就做好了,支持测试和继续上传文件进行再训练,EasyDL平台对于开发者真的是比较友好,即使是在不太懂里面的原理的情况下,基于自己已标注的数据集也能进行深度学习的应用,在易用性上面做到了极致,希望后面在文本分类上加上参数调优的选项,能让开发者进一步根据数据进行调参。我相信通过以后的版本迭代,百度工程师们能将模型的准确率提升一个层次,希望EasyDL越办越好,支持国产深度学习平台!希望毕业能到百度EasyDL部门实习。Yeah!
每个文件可以作为一条标注信息,可以参考用户打分做标记
大佬 ,可以截图看下您是怎么做的标注数据集么,比如你的POS(正面)与NEG(负面)两个文件夹内,那么多txt格式文本文件,文本内容都是什么?每个文本文件内有多少词汇量?谢谢;
想问一下老哥知道怎样在百度云智能那个语义情感分析平台上进行txt或其他文件上传式的传输检测吗
确实使开发简便了不少
图像方面的做得少一些,算法可以通用,基本的流程是一样的,图像和文本在数据的预处理上有差别,另外图像建模需要有高质量的监督数据标注的支持,有需求的话可以寻求easyDL的帮助。
视频和表情情感分析有吗?
易用性没得说,可以的
数据量大了,效果会提高的
可以用于满意度分析
识别度高点,再大数据分析下
情感分析可以用于满意度评价吗
祝贺研究生生涯走向了巅峰
手动赞