首页 AI Studio教育版 帖子详情
NLP及推荐课程总结
收藏
快速回复
AI Studio教育版 文章师资培训 1469 6
NLP及推荐课程总结
收藏
快速回复
AI Studio教育版 文章师资培训 1469 6

NLP及推荐课程总结

AI Studio用户名:FutureSI

  • NLP课程中,我学习了如何使用CBOW算法和skip-gram算法把word给embedding成vector,即把词嵌入成特定维度的向量。开始自己手写的模型始终运行不是很理想(当时真的不开心),与用ERNIE预训练模型的效果差太多了(也很正常)。后来我甚至想抽取小规模(比如十来个常用词)的高频词组成小批语料在“可控、可理解”的场景下测试调整手写模型。但后来,我觉得要理解模型,还是应该从弄清每一个理论细节着手,然后由简入繁进行试验。这是深度学习课,不是编程课。即使每行代码都能读明白,不了解理论的话还是睁眼瞎。当然,只要理论理解透彻,数据分布没有问题,结果是一定能复现的。至此我才觉得云开雾散,前路豁然开朗。在实现CBOW算法时,我做余弦相似度计算的过程走了一些弯路。开始我用scikit-learn库算计算两个向量的余弦相似度时,程序执行两、三个batch就会报错。然后,我又直接用python按公式手写函数计算余弦相似度,程序可以执行,但是速度超级慢。后来听推荐课时,我发现原来paddle自带余弦相似度计算函数。以后要用什么函数,我还是先查paddle手册吧,能节省不少时间。(后来我在文档上查kmeans聚类功能,没有找到,还是用的scikit-learn库。要是paddle把这些机器学习中常用的基本算法都集成就更美好了。)
  • 这次的标题文本分类比赛,由于nlp初学,我主要熟悉了下paddle hub的使用,了解了下联合训练,而且头一次发现用大量的数据训练一轮就得半天,跑模型一天也就训练两轮。这时就用得让paddle slim帮忙了。因为忙于写作业、学习理论细节,比赛我就站在场内捧着油瓶给大佬们加油了。在此要向吕坤大佬致敬,赞赏他在上次“AI识虫”比赛的出色表现和开源精神。
  • 在个性化推荐课程里,我发现毕老师讲课更风趣了。尤其是课程中毕老师津津乐道的万物embedding的思想(把各种feature给embedding到模型中,然后为所欲为)让我大开脑回路,yy了好多有趣的玩法。而且,原来在cv课上学习yolo v3目标检测模型时,我对将图片的分类feature和选择锚框的回归的feature给拼接在一起的操作感到很突兀。尤其是,loss也被这样“硬给”加和在了一起用来优化模型更是让我满头问号,觉得:“这也能行?为啥能行?”学了毕老师的推荐课我领会到,原来这个是老司机们玩儿深度学习的标准操作——把一切问题“翻译”成标准的向量,然后再让模型去解决这些标准向量的分类、回归等问题。
  • 总体感觉这次的NLP及推荐课程是作业多多(可能是个人初学,所以作业写得慢)、收获满满。NLP和推荐系统几个作业程序写下来,我感觉自己炼丹大法的修为又精进了一重——进入了embedding境界。其实CV和NLP没有我原来想象的那么不同。现在,我理解CV使用的卷积网络本质上也就是一种把图像、视频信息给转换为向量的Embedding操作。所以无论CV问题还是NLP或是其他问题,我们都是将数据embedding到向量,然后就通过标准的分类、回归算法训练网络参数了。通过这期课程,我也进一步熟悉了paddle hub以及ERNIE预训练模型的使用。如果越用越上手,希望自己不会越来越懒哈。我还是希望能像吕坤大佬那样开心的玩耍模型。
  • 最后诚挚感谢各位老师们、班主任、运维等伙伴们,还有我自己(是的,自己也要感谢一下)的辛苦努力。希望paddle框架闪闪发光,AI Studio平台、社区越来越强。
1
收藏
回复
全部评论(6)
时间顺序
学习委员
#2 回复于2020-04

赞~

0
回复
学习委员
#3 回复于2020-04

可以放下你的AI Studio主页链接~互粉一波

 

0
回复
AIStudio810258
#4 回复于2020-04

来AI Studio互粉吧~等你哦~ https://aistudio.baidu.com/aistudio/personalcenter/thirdview/76563

0
回复
micahvista
#5 回复于2020-04

不错不错支持

0
回复
AIStudio810258
#6 回复于2020-04
不错不错支持

共同努力

0
回复
大连之星snort
#7 回复于2021-11

不错

 

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户