首页 AI Studio教育版 帖子详情
Python小白七日心得之从九九乘法表到绘制词云
收藏
快速回复
AI Studio教育版 文章课程答疑 1626 3
Python小白七日心得之从九九乘法表到绘制词云
收藏
快速回复
AI Studio教育版 文章课程答疑 1626 3

被在百度实习的同学介绍来参加这个课程,前一两天的内容确实比较“小白”,都是关于python语法的一些基本知识。但后面开始做有实际功能的模块和代码时,比如爬取数据,使用paddlehub识别,难度有所上升,让我这个小白投入了不少时间,当然也学有所获。下面一些技术细节的总结。

 

1.      关于爬虫:爬虫需要的包有requests和beautifulsoups,还需要一个解析器lxml。主要原理是寻找一个url,用requests获取url中的页面信息,用beautiful对获得的信息进行处理。所以爬取能够实现的关键就是找到的url,可以利用浏览器的开发者工具和正则表达式来搜寻正确的url。还有一个小思路是当要爬取不同主题的图片时(比如不同人名),可以将所有内容包在同一目录下的txt文件中,再结合python读取文件的函数实现一次性获取,

2.      关于自制数据集:因为百度的paddlehub包已经搭建好了模型和算法,因此在使用paddlehub时的主要工作量就集中在自制数据集。应注意训练集,验证集和测试集的数据比例,针对图片进行训练时,应注意训练集和测试集的图片质量最好保持一致(及背景,角度,光影等等),以此可以获得较好的训练质量。自制数据集时,可结合爬虫技术,也可以用python也一些批量处理文件的小程序(比如批量重命名,批量输出图片名称到txt并分类等等),可以大大提升制作效率。

3.      关于绘制词云:matplot包带有绘制词云功能,应注意不同参数的含义,形状图片要有白色背景但白色不能过多,否则会使词云过于稀疏。

总结:aistudio总体体验很好,配置环境简便,对新手友好,期待更多技术课程。革命尚未成功,仍待继续努力~~

0
收藏
回复
全部评论(3)
时间顺序
austinleaven
#2 回复于2020-05

matplotlib?

0
回复
AIStudio810258
#3 回复于2020-05

可以到“下一期”继续哈。

加油!共同努力!

0
回复
AIStudio810258
#4 回复于2020-05

【下面是我写的一些小贴,有空可以fork玩玩(项目列表)】

训练数据太少?过拟合?一文带你领略“数据增长魔法”(上) (https://aistudio.baidu.com/aistudio/projectdetail/408059)

训练数据太少?过拟合?一文带你领略“数据增长魔法”(下) (https://aistudio.baidu.com/aistudio/projectdetail/422256)

一文帮你理解用Paddle训练模型的原理1-手写回归模型 (https://aistudio.baidu.com/aistudio/projectdetail/367090)

一文帮你理解用Paddle训练模型的原理2-权值可视化(VisualDL) (https://aistudio.baidu.com/aistudio/projectdetail/386954)

来AI Studio互粉吧~等你哦~ https://aistudio.baidu.com/aistudio/personalcenter/thirdview/76563

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户