【百度7日打卡营——Python小白逆袭小结】

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

项目

数据集

课程

比赛

模型库

活动

论坛

访问飞桨官网

g gongzhenghuan6 发布于2020-04

Day1-人工智能概述与入门基础

人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新技术科学。它是使一部机器的反应方式像人一样进行感知、认识、决策、执行的人工程序或系统。

人工智能与机器学习、深度学习的关系：深度学习∈机器学期∈人工智能。其中深度学习是一种实现机器学习的技术，人工神经网络是机器学习中的一个重要算法，“深度”就是指神经网络中众多的层。

通过对不同语言代码风格的对比，可以很清楚地感受到Python是非常适合用于AI方面的程序编写的，因为它非常接近自然语言，易于阅读理解，所以说对于小白来说，Python是一个很容易上手的语言。

所有的深度学习框架一般都有一个Python版的框架。虽然我接触这部分内容的时间还不是很长，但是在我简单使用pp和tf框架的时间中，我觉得pp对小白非常友好，不仅有内容齐全的文档，也有专业的技术支持qq群等，不懂就可以问！

Day2-Python进阶

介绍了AI Studio这个一站式深度学习开发平台，对于身边电脑配置不高的同学，真的非常友好，而且也不需要考虑环境配置的问题。

Python数据结构有数字Number、字符串String、列表List、元组Tuple、字典Dict。还介绍了类Class、JSON序列化与反序列化、Python异常处理以及一些常见Linux命令。在自学过程中，其实可以感受到Windows和Linux系统的区别，Linux系统的特点可以很好保证代码开发的环境，因为有一些Python库对中文支持不是特别好，并且由于两种系统的目录结构不同，在一些需要使用文件路径的代码中，需要格外注意。

今天的作业是使用Python来爬取百度百科中《青春有你2》所有参赛选手的信息。

第一步：《青春有你2》选手爬取；

第二步：对爬取的页面数据进行解析，并保存为JSON文件；

第三步：爬取选手百度百科图片；

第四步：打印图片路径；

Day3-人工智能常用Python库

在需要对数据进行处理的地方，Numpy、Pandas、Matplotlib、PIL都是使用及其广泛的。

Numpy是Python科学计算库的基础。包含了强大的N维数组对象和向量运算。

Pandas是建立在Numpy基础上的高效数据分析处理库，是Python的重要数据分析库。Pandas其实是基于Numpy的，丰富简化了Numpy的操作。

Matplotlib是一个主要用于绘制二维图形的Python库，它的使用方法和MATLAB十分相似，所以用过MATLAB的同学，可以很容易上手这部分。

PIL库是一个具有强大图像处理能力的第三方库。

之前也报名参加了CV的打卡营，所以可以感受到这四个库在计算机视觉领域的应用非常多，可以说是基础。比如：数据增强、训练过程可视化、数据可视化分析。

今天的作业是基于第二天实践使用Python来爬取百度百科中《青春有你2》所以参赛选手的信息，进行数据可视化分析。

第一步：使用requests库实现对百度百科中《青春有你2》参赛选手信息爬取；

第二步：统计地区数据。加载JSON数据、获取所有的地区、统计每个地区对应的小姐姐数量；

第三步：Matplotlib绘制柱状图。

其中遇到的问题主要是Matplotlib不支持中文字体，所以需要自行下载配置，已经Matplotlib对于各种图表的绘制方法需要自己尝试、学习。

Day4-PaddleHub体验与应用

PaddleHub是为了解决对深度学习模型的需求而开发的工具。它基于飞桨领先的核心框架，精选效果优秀算法，提供了百亿级大数据训练的预训练模型。对于自己电脑配置不好，即使写出了模型代码，也不能进行训练的情况，不妨试试PaddleHub。

PaddleHub的优势：

1）模型即软件：模型一键下载、管理、预测；

2）迁移学习：Fine-tune API，十行代码完成迁移学习、AutoDL Finetuner，一键自动超参搜索；

3）端到端部署：Hub Serving，一键模型服务化部署。

今天的作业是利用PaddleHub解决实际工作中的问题-图像分类。

第一步：数据获取；

第二步：制作数据集；

第三步：使用PaddleHub实现分类。

其中遇到主要问题在于之前从来没有自己制作过数据集，都是用现成的，所以在这里卡了好久。

Day5-EasyDL体验与作业发布

EasyDl是百度大脑面向企业开发推出的AI开发平台，提供智能标注、模型训练、服务部署等全流程功能。内置丰富的预训练模型，支持公有云、私有化、设备端等灵活的部署方式。

它的特色优势是从数据上传、标注、部署、迭代覆盖AI开发一站式流程以及只需要少量数据，就可以实现高精度模型效果。

今天的作业是一次综合大作业，结合了前几天学到的内容，最后需要实现数据爬取、分析与内容审核。

第一步：爱奇艺《青春有你2》评论数据爬取；

第二步：词频统计并可视化展示；

第三步：绘制词云；

第四步：结合PaddleHub，对评论进行内容审核。

其中遇到的难题有，如何从爱奇艺网页上爬取评论内容，这部分需要自己学习一部分爬虫技术，才可以顺利爬取；词频统计部分也需要自己额外地去网上所有相关代码和资料；绘制词云时，wordcloud的背景图需要白色底，虽然可以利用PaddleHub进行快速简单的抠图，但还是需要自己添加白色底，不然词云默认输出矩形。

Day6-PaddleHub创意赛发布

今天主要介绍了一些完成大作业的思路以及动员学有余力的同学参加创意赛。

All in All

通过这几天的学习，收获很多，也感受到要学习的更多，非常感谢打卡营的每一位老师和同学，可以在大家出现困难的时候，耐心的给出解决办法！

全部评论(2)

AIStudio810258

#2 回复于2020-04

学习得很认真啊。加油！共同进步！

AIStudio810258

#3 回复于2020-04

来AI Studio互粉吧~等你哦~ https://aistudio.baidu.com/aistudio/personalcenter/thirdview/76563

【下面是我写的一些小贴，闲时君阅（项目列表）】

训练数据太少？过拟合？一文带你领略“数据增长魔法”(上) (https://aistudio.baidu.com/aistudio/projectdetail/408059)

训练数据太少？过拟合？一文带你领略“数据增长魔法”(下) (https://aistudio.baidu.com/aistudio/projectdetail/422256)

一文帮你理解用Paddle训练模型的原理1-手写回归模型 (https://aistudio.baidu.com/aistudio/projectdetail/367090)

一文帮你理解用Paddle训练模型的原理2-权值可视化（VisualDL） (https://aistudio.baidu.com/aistudio/projectdetail/386954)