Python小白七日心得之从九九乘法表到绘制词云
收藏
被在百度实习的同学介绍来参加这个课程,前一两天的内容确实比较“小白”,都是关于python语法的一些基本知识。但后面开始做有实际功能的模块和代码时,比如爬取数据,使用paddlehub识别,难度有所上升,让我这个小白投入了不少时间,当然也学有所获。下面一些技术细节的总结。
1. 关于爬虫:爬虫需要的包有requests和beautifulsoups,还需要一个解析器lxml。主要原理是寻找一个url,用requests获取url中的页面信息,用beautiful对获得的信息进行处理。所以爬取能够实现的关键就是找到的url,可以利用浏览器的开发者工具和正则表达式来搜寻正确的url。还有一个小思路是当要爬取不同主题的图片时(比如不同人名),可以将所有内容包在同一目录下的txt文件中,再结合python读取文件的函数实现一次性获取,
2. 关于自制数据集:因为百度的paddlehub包已经搭建好了模型和算法,因此在使用paddlehub时的主要工作量就集中在自制数据集。应注意训练集,验证集和测试集的数据比例,针对图片进行训练时,应注意训练集和测试集的图片质量最好保持一致(及背景,角度,光影等等),以此可以获得较好的训练质量。自制数据集时,可结合爬虫技术,也可以用python也一些批量处理文件的小程序(比如批量重命名,批量输出图片名称到txt并分类等等),可以大大提升制作效率。
3. 关于绘制词云:matplot包带有绘制词云功能,应注意不同参数的含义,形状图片要有白色背景但白色不能过多,否则会使词云过于稀疏。
总结:aistudio总体体验很好,配置环境简便,对新手友好,期待更多技术课程。革命尚未成功,仍待继续努力~~
0
收藏
请登录后评论
matplotlib?
可以到“下一期”继续哈。
加油!共同努力!
【下面是我写的一些小贴,有空可以fork玩玩(项目列表)】
训练数据太少?过拟合?一文带你领略“数据增长魔法”(上) (https://aistudio.baidu.com/aistudio/projectdetail/408059)
训练数据太少?过拟合?一文带你领略“数据增长魔法”(下) (https://aistudio.baidu.com/aistudio/projectdetail/422256)
一文帮你理解用Paddle训练模型的原理1-手写回归模型 (https://aistudio.baidu.com/aistudio/projectdetail/367090)
一文帮你理解用Paddle训练模型的原理2-权值可视化(VisualDL) (https://aistudio.baidu.com/aistudio/projectdetail/386954)
来AI Studio互粉吧~等你哦~ https://aistudio.baidu.com/aistudio/personalcenter/thirdview/76563