终于完成了最后一个大作业T-T.....本想着真要从入门到入土,但看到群里的学员都这么认真,于是也通过不断的搜索资源,回看视频一步步地按照老师作业的提示去完成。
中间遇到无数的坑,但是学号们都很乐于助人,还有各位助教的帮助,班主任姐姐的激励终于完成了作业!心情久久不能平复!!没想到我一个学渣,也能够学会爬虫,学会
采用分类网络进行识别,学会用词云对评论进行情感分析!虽然我觉得自己离那个会扣图做成视频的大神差很远,但经过7天训练营,我爱上了编程。感谢训练营里的班主任
姐姐,感谢训练营的老师,特别是那位人美心善代码6的文姐姐(非常nice,非常认真)。
下面分享最终大作业的心得:
1,字体问题是困扰我很久的地方。还好人美心善代码6的文姐姐在之前就已经给了一个解决方案,方案是在运行之前加入
#!wget https://mydueros.cdn.bcebos.com/font/simhei.ttf # 下载中文字体
#创建字体目录fonts
!cp simhei.ttf /opt/conda/envs/python35-paddle120-env/lib/python3.7/site-packages/matplotlib/mpl-data/fonts/ttf/
!mkdir .fonts
# 复制字体文件到该路径
!cp simhei.ttf .fonts/
!rm -rf .cache/matplotlib
然后在plt.show之前加入
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
当然,可能这样也不行,之前也困扰很久,重启之后问题解决。估计是缓冲问题
2. 爬虫,通过前一晚老师的讲解,知道原来爱奇艺提供了评论接口,这个接口可以通过chrome审查元素->network发现。但在抓取的时候却总是解析json有误
后面发现是url加了一个callback的参数,使得返回的不是正常的json格式,却除可以完美解决
3. 正则表达式去除特殊符号。一开始看到去除查了很多正则表达式的使用,如何表示特殊符号,但总是过滤不干净。后来在群里得到学员帮助,发现可以换个角度
提取中文字符保留即可。这里为了备忘,记下中文的正则表达方式[\u4e00-\u9fa5]+
4. 词云的绘制一定要让background_color='white',这样引入背景时才好看。你看,这样是不是很好
总的来说,虽然进了很多坑,也挣扎很久次是不是应该放弃。。。。但这一刻,我想说就是:还好我坚持了。
谢谢在这7天陪伴我成长的班主任,各位老师和小伙伴!希望百度的课程越做越好!
来AI Studio互粉吧~等你哦~ https://aistudio.baidu.com/aistudio/personalcenter/thirdview/76563
【一些项目,有空可以fork玩玩】
训练数据太少?过拟合?一文带你领略“数据增长魔法”(上) (https://aistudio.baidu.com/aistudio/projectdetail/408059)
训练数据太少?过拟合?一文带你领略“数据增长魔法”(下) (https://aistudio.baidu.com/aistudio/projectdetail/422256)
一文帮你理解用Paddle训练模型的原理1-手写回归模型 (https://aistudio.baidu.com/aistudio/projectdetail/367090)
一文帮你理解用Paddle训练模型的原理2-权值可视化(VisualDL) (https://aistudio.baidu.com/aistudio/projectdetail/386954)
爬过的坑都是将来的垫脚石~~
加油!共同进步!