Python小白七日心得之从九九乘法表到绘制词云

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

汪汪淼12138 发布于2020-05

被在百度实习的同学介绍来参加这个课程，前一两天的内容确实比较“小白”，都是关于python语法的一些基本知识。但后面开始做有实际功能的模块和代码时，比如爬取数据，使用paddlehub识别，难度有所上升，让我这个小白投入了不少时间，当然也学有所获。下面一些技术细节的总结。

1. 关于爬虫：爬虫需要的包有requests和beautifulsoups，还需要一个解析器lxml。主要原理是寻找一个url，用requests获取url中的页面信息，用beautiful对获得的信息进行处理。所以爬取能够实现的关键就是找到的url，可以利用浏览器的开发者工具和正则表达式来搜寻正确的url。还有一个小思路是当要爬取不同主题的图片时（比如不同人名），可以将所有内容包在同一目录下的txt文件中，再结合python读取文件的函数实现一次性获取，

2. 关于自制数据集：因为百度的paddlehub包已经搭建好了模型和算法，因此在使用paddlehub时的主要工作量就集中在自制数据集。应注意训练集，验证集和测试集的数据比例，针对图片进行训练时，应注意训练集和测试集的图片质量最好保持一致（及背景，角度，光影等等），以此可以获得较好的训练质量。自制数据集时，可结合爬虫技术，也可以用python也一些批量处理文件的小程序（比如批量重命名，批量输出图片名称到txt并分类等等），可以大大提升制作效率。

3. 关于绘制词云：matplot包带有绘制词云功能，应注意不同参数的含义，形状图片要有白色背景但白色不能过多，否则会使词云过于稀疏。

总结：aistudio总体体验很好，配置环境简便，对新手友好，期待更多技术课程。革命尚未成功，仍待继续努力~~

全部评论(3)

austinleaven

#2 回复于2020-05

matplotlib?

AIStudio810258

#3 回复于2020-05

可以到“下一期”继续哈。

加油！共同努力！

AIStudio810258

#4 回复于2020-05

【下面是我写的一些小贴，有空可以fork玩玩（项目列表）】

训练数据太少？过拟合？一文带你领略“数据增长魔法”(上) (https://aistudio.baidu.com/aistudio/projectdetail/408059)

训练数据太少？过拟合？一文带你领略“数据增长魔法”(下) (https://aistudio.baidu.com/aistudio/projectdetail/422256)

一文帮你理解用Paddle训练模型的原理1-手写回归模型 (https://aistudio.baidu.com/aistudio/projectdetail/367090)

一文帮你理解用Paddle训练模型的原理2-权值可视化（VisualDL） (https://aistudio.baidu.com/aistudio/projectdetail/386954)

来AI Studio互粉吧~等你哦~ https://aistudio.baidu.com/aistudio/personalcenter/thirdview/76563