不知不觉间,2020年已悄然过去。在这不平凡的一年里,纵然有一丝被疫情笼罩的阴霾,可飞桨前进的脚步也没有丝毫放缓,依然闪耀,不仅技术能力持续提高,生态领域也在开疆拓土,可谓“道阻且长,行则将至”!现在,咱们就一起回顾下飞桨2020年的成绩单吧!
飞桨开源框架进入2.0时代
经过长期产业实践的积累与用户使用习惯的洞察,飞桨于今年12月 WAVE SUMMIT+2020 深度学习开发者峰会上,正式发布了飞桨深度学习框架 2.0RC 版本,标志着飞桨框架进入了2.0时代。那么新版本的飞桨框架都有哪些显著的提升呢?咱们往下看。
在开发方面,飞桨将默认编程范式升级为动态图,此方式深受广大开发者喜爱。同时飞桨框架2.0为广大用户提供了完美的动转静功能,解决了动态图模型的部署问题,用户可以将动态图模型转换为静态图部署,以获得更好的部署性能。此外,飞桨的 API 体系也得到了全新升级,整体新增了200多个 API,并在功能上做到了全面增强。飞桨还推出了简洁易用的高层 API,与已有的基础 API 可以同时使用,让开发者在简捷开发与精细化调优之间自由定制。新的 API 体系完全兼容历史版本,并且飞桨还提供了升级工具,帮助开发者降低升级迁移成本。
在训练方面,大规模分布式训练历来是飞桨非常有特色的一个功能,随着框架版本升级,这一功能也得到了进一步提升。首先,飞桨推出了业内首个通过异构参数服务器架构,一举解除了传统参数服务器必须严格使用同一种硬件款型训练节点的枷锁,训练任务对硬件型号不敏感,可以同时使用不同的硬件进行混合异构训练,如 CPU、v100、P40、K40、昆仑芯片等。此外,分布式训练策略也得到了全面丰富和加强,新增了基于 Executor 接口的流水线并行训练、Sharding-DP 策略、梯度融合+自由混合精度等一系列策略,通过这些策略,用户可以实现对千亿参数规模语言模型的混合并行训练。
在推理部署方面,飞桨模型压缩工具 PaddleSlim 于去年初正式发布1.0版本,支持量化、剪裁、蒸馏、模型结构搜索等功能,与飞桨套件紧密集成,实现了业内体积最小的 OCR 模型,对 YOLOv3 实现3.5倍加速,支持对 PaddleDetection、PaddleSeg 等套件实现快速模型压缩。月下载量从800升至5600以上。
飞桨轻量化推理引擎 Paddle Lite 在 ARM CPU 性能有显著提升,达到业内领先;OpenCL 能力相对成熟,并在多个平台上实现落地;尤其对文档、编译、稳定性、资源占用等方面做到了精细打磨,用户体验明显提升。而原生推理库 Paddle Inference 在 GPU 和 X86 上的性能稳步增强,量化计算日趋成熟,新增支持昆仑 XPU、飞腾、申威、兆芯等国产芯片,并与 UOS、麒麟等国产操作系统打通,打造自主可控的深度学习解决方案。
在服务器端和移动端部署之外,服务化部署框架 Paddle Serving 经过6个版本迭代,产品功能大幅提升,实现了 Pipeline Serving、多语言客户端、TensorRT 等多个高级特性,月下载量从300增长到5000。除上述几种部署方式之外,早在去年的5月峰会上,飞桨还重磅发布了 Paddle.js,它是国内首个前端推理引擎,可以提供模型转换、模型部署、推理预测等功能,支持多种 Backend(WebGL、WebGPU、CPU),满足用户对算力的不同需求。通过 Paddle.js,用户可以在网页端或者小程序上大规模的部署应用深度学习模型的推理功能。
官方算法库全面升级
基于飞桨框架2.0,官方算法数量从140+升至200+,并且支持使用动态图开发自然语言、视觉、语音和个性化推荐等领域模型,飞桨的研发团队也将官方算法库中绝大部分模型升级为动态图模型,欢迎广大开发者到开源社区中试用。
端到端开发套件惊喜不断
在2020年里,飞桨开发套件可以说是稳中有升。首先家族成员不断扩张,仅5月峰会上飞桨就发布了图像分类 PaddleClas、语音合成 Parakeet、海量图像分类 PLSC 三个套件,后续又开源了文字识别 PaddleOCR 和生成对抗网络 PaddleGAN 两个套件,这些新贵在发布元年就表现不俗:
- PaddleClas 拥有29个系列的分类网络以及134个预训练模型,其中14个分类预训练模型经过 SSLD(百度自研知识蒸馏方案)进一步优化,精度普遍提升了3%以上,为目标检测、分割以及 OCR 等高阶视觉任务效果的全面提升打下了良好基础。
- Parakeet 是灵活、高效的文本到语音合成套件,可以帮助开发者更便捷地完成语音合成模型的开发和应用。其中飞桨自研的语音合成模型 WaveFlow 的参数规模只有 5.9 M,比当时的 WaveGlow 要小15倍,并可以在 Nvidia v100 上以40倍实时的速度合成 22.05kHz 的高保真度的语音。
- PLSC 能够实现千万类别规模的分类,通过模型并行、多机拓展和量化功能,实现大规模分类任务的分布式训练速度大幅提升。去年疫情伊始,PLSC 就曾被应用到人脸口罩识别系统的训练中,训练速度提升了7倍,显存耗能节省了5倍。
- 文字识别模型套件 PaddleOCR 推出了 PP-OCR 超轻量 OCR 系统,创新性地融入了19种优化策略,开源了 3.5M 超轻量中英文 OCR 模型,以及英文数字、德、日、韩、法等多种语言模型,并提供上述模型训练方法和多种预测部署方式,多次登顶“GitHub Trending 全球趋势榜”和“国际技术趋势榜 Papers with Code”。
- 生成对抗网络套件 PaddleGAN 集成了风格迁移、超分辨率、动漫画生成、图片上色、人脸属性编辑、妆容迁移等 SOTA 算法和预训练模型。并且采用模块化设计,能让开发者进行二次研发或是直接使用预训练模型做应用。
除了新增套件之外,原有套件也取得了亮眼的成绩:
- 目标检测套件 PaddleDetection 的研发团队探索出了一整套更有深度的算法优化秘籍,将原先 YOLOv3 华丽变身为 PP-YOLO,精度 mAP 可达45.2%,推理速度高达 72.9 FPS!两项均超越原生 YOLOv4,一经推出,其代表论文更是杀入了“国际技术趋势榜 Papers with Code”前列!名副其实地成为了工业应用场景最实用的目标检测模型。
- 图像分割套件 PaddleSeg 新增了13个算法以及近40个预训练模型,算法和预训练模型总量分别达到了20+和50+,在近期结束的神经信息处理系统大会 NeurIPS 2020上,百度团队使用 PaddleSeg 中单个语义分割模型 HRNet,一举夺冠,准确性得分领先第二名0.37,推理速度更是第二名的7倍!最近 PaddleSeg 全面升级,成为业界首个动静统一的图像分割套件,为广大开发者带来更佳的用户体验。
- ERNIE 在自然语言处理领域可谓家喻户晓,曾获得过无数殊荣,去年也是收获颇丰。3月一举拿下 SemEval 2020 5项冠军;5月发布语言生成预训练模型 ERNIE-GEN,刷新语言生成 SOTA;6月发布多模态模型 ERNIE-ViL,刷新5项任务纪录,登顶权威榜单 VCR;7月亮相2020世界人工智能大会,摘取最高荣誉 SAIL 奖;11月获得中国人工智能学会优秀科技成果奖。如今随着飞机框架2.0发布,ERNIE 也完成了动静合一全新升级,欢迎大家试用。
工具组件枝繁叶茂
除了开发套件之外,飞桨还提供多种类型的工具组件。经过一年的打磨,飞桨的工具组件在数量和质量上都取得了长足的进步:
- PaddleHub 飞桨预训练模型应用工具,打造开发者共建的预训练模型共享社区生态,目前已经覆盖 CV、NLP、Audio、Video 四大领域、21大类、200+高质量的预训练模型(其中开发者贡献42个),而且支持一键预测、一键服务化部署和十行代码迁移训练,易用性强,深受开发者喜爱。
- 深度强化学习框架 PARL 具有高灵活性、可扩展性和高性能的特点。PARL 于去年4月发布了深度进化学习库 EvoKit,助力强化学习进一步落地工业应用场景;11月在 NeurIPS 2020电网调度大赛中夺魁,实现强化学习竞赛三连冠。随着飞桨框架2.0升级,PARL 实现了动态图+并行框架的全新升级,更加简单易用。
- 联邦学习框架 PaddleFL 在去年仅发布了1.0和1.1两个版本,但是仅这两个版本就实现了两个“国内第一”:国内首个兼具横向、纵向、移动端模拟联邦学习训练能力框架和国内首个支持复杂神经网络纵向联邦学习开源框架。
- 图学习框架 PGL 基于飞桨框架动态图全新升级,极大提升了易用性,原生支持异构图,并支持分布式图存储及分布式学习算法,覆盖30+图学习模型,包括图语义理解模型 ERNIESage 等。去年9月,PGL 发布融合标签传递和图神经网络的统一模型 UniMP(Unified Message Passing),登顶图神经网络权威榜单三项榜首;11月在 COLING 协办的 TextGraphs2020 比赛中夺得冠军。
- 在去年5月峰会上,飞桨重磅发布了量子机器学习框架 Paddle Quantum(量桨)。量桨是基于飞桨研发的量子机器学习工具集,建立起了人工智能与量子计算之间的桥梁,可快速实现量子神经网络的搭建与训练,同时还提供多项前沿量子计算应用。量子计算和深度学习领域的科研人员可以使用量桨进行量子人工智能的研发,同时量桨也为前沿交叉领域的众多爱好者提供了一条学习量子计算的可行之路。
- 在去年12月 WAVE SUMMIT+2020 深度学习开发者峰会上,百度正式发布了螺旋桨生物计算框架 PaddleHelix,该框架提供了包括 RNA 二级结构预测、大规模的分子预训练、药物 - 靶点亲和力预测、以及 ADMET 成药性预测等一系列算法和模型,重点满足生物医药,疫苗设计和精准医疗方面的 AI 需求。
- 全流程开发工具 PaddleX 也是去年新推出的工具组件,它以低代码的形式支持开发者快速实现深度学习算法开发及产业部署。提供极简 Python API 和可视化界面 Demo 两种开发模式,可一键安装。针对 CPU(Open-VINO)、GPU、树莓派等通用硬件,PaddleX 提供了完善的部署方案,并可通过 RESTful API 快速完成集成和二次开发,开发者无需分别使用不同套件即可完成全流程模型生产部署。可视化推理界面及丰富的产业案例更为开发者提供飞桨全流程开发的最佳实践。
- 可视化分析工具 VisualDL 在去年得到了全新升级,新版本的 VisualDL 支持一键展示网络结构,一行代码绘制 loss、learning rate 等参数变化过程,全面监控网络特征提取情况,实时查看样本数据变化情况,支持完整保存与分享实验图表,高维数据降维可视化功能全新重塑,并且全主流框架通用,可谓是功能极丰富、易用性极高。
硬件生态持续领先
今年5月峰会上,飞桨发布了硬件生态伙伴合作计划,共有13家伙伴与飞桨达成了合作。至12月峰会时,飞桨硬件生态伙伴版图进一步拓展,增长到了20家,已经适配和正在适配的芯片或 IP 型号达到29种,在国产硬件的支持方面处于业界领先地位,持续打造自主可控的 AI 技术底座,加速 AI 产业生态构建。
积极投入 AI 标准定制
2020年飞桨参与了算子接口、神经网络表示与模型压缩等多项标准的制定项目,同时还积极投入到全国信息技术标准化技术委员会人工智能分技术委员会的工作中,引领了深度学习标准化的发展方向。
飞桨生态蓬勃发展
秉持开源开放、技术创新,产学研用通力融合,在2020年这一年的时间里,飞桨在企业服务、教育生态、开发者社区三方面实现了生态的全面繁荣:
企业服务
2020年9月6日,由百度联合深度学习技术及应用国家工程实验室共同打造,旨在为各行各业培养“首席 AI 架构师”的黄埔学院在京举办第三期学员毕业典礼。百度集团副总裁、深度学习技术及应用国家工程实验室副主任、黄埔学院院长吴甜现场致辞,天津飞腾副总经理张志群特邀出席。
此次百度黄埔学院第三期共有65位学员毕业,这些学员来自国家卫星气象中心、上汽通用汽车、宝钢湛江钢铁、京东方、成都国铁电气设备、中国工商银行等企业,遍布工业、农业、金融、交通、电力等数十个行业。学员项目包括智能视觉质检、安全隐患检测、遥感数据分析、交通动态规划、智能客服、营销文案生成等广泛的场景应用。
黄埔学院创办以来,已向业界输出135位 AI 落地产业的高端人才,成为培养产业智能化 AI 人才的“黄埔军校”。
除此之外,百度 AI 快车道在线上进行了20余场直播课程,并前往深圳、上海、南京、成都、西安等城市,举办了近10场为期一整天的线下课程,内容覆盖了 OCR、工业巡检质检、推荐系统、各类端侧部署等产业级场景的技术领域,为3000+有技术需求企业的算法工程师、架构师群体,提供源于百度业务实践的深度学习平台飞桨的性能优势、生态优势与切合产业实际应用的解读。不仅有前沿技术解析,还有帮助企业降本增效的解决方案,带领开发者梳理业务问题,并快速将深度学习项目落地。
飞桨积极参与到人工智能产业发展联盟(AIIA)的各个工作组中,积极推进国产开源深度学习平台在各行各业的应用。在12月的 WAVE SUMMIT+2020 深度学习开发者峰会上,深度学习技术及应用国家工程实验室联合 AIIA 为12个产业项目颁发了“产业应用创新奖”。
教育生态
2020年,飞桨提供包含学习、实践、比赛、认证、就业的全周期服务体系。飞桨学习与实训社区 AI Studio 用户高速增长,社区学习开发者60万+,社区学习资源126万+,课程学习次数290万+。
到目前为止,飞桨已累计举办深度学习师资培训13期,培养500余所高校1800+名教师,100%覆盖全国985和211高校,支持200余所高校使用飞桨开设学分课程!在线课程方面,飞桨举办7日打卡营、官方集训营,内容深入浅出,包含百度特色案例,帮助开发者更好掌握深度学习的相关知识。此外,飞桨还打造名师专栏,引入李宏毅老师110小时7套精品内容。配套在线课程,还出版了官方技术书籍《零基础实践深度学习》,帮助开发者更好掌握深度学习的相关知识。
为了携手资深开发者,携手共进、开源共建,飞桨还举办了全球顶会论文复现营,邀请顶会论文审稿人,手把手带开发者解析近两年顶会热门高 Star 论文,研习深度学习算法,深入动手实践论文复现全流程。除此以外,飞桨还与近5000名开发者,共同完成了16篇前沿论文的模型复现!
科研方面,百度飞桨发布了百度2020年度松果基金,这是国内唯一基于自主研发深度学习框架的青年学者科研基金项目。至2020年底,共有23位青年学者,获得相关资助。
认证方面,百度飞桨与 Linux Foundation 开源软件大学合作,重磅推出了国内首个深度学习工程师认证(初级、中级),打通从学习到就业全流程。
认证详情:https://aistudio.baidu.com/aistudio/certification
2020年末,百度与新一代人工智能科教平台“智海”达成生态合作,共同打造人工智能深度学习的微认证课程体系,促进学科交叉融合,探索科教融合、产教协同的人工智能一流人才的培养模式。
在 WAVE SUMMIT+2020 深度学习开发者峰会上,飞桨还发布了启航计划,将继续加大在高校的投入,计划3年投入5个亿,与500所高校深度合作,联合高校培养5000名 AI 专业教师,培养50万 AI 未来人才。
开发者社区
2020年初,百度飞桨发布飞桨开发者技术专家计划(PaddlePaddle Developers Experts,以下简称PPDE),从0到1搭建飞桨开发者技术专家体系机制,全年共培养 PPDE100 人。
PPDE 的开源内容贡献也相当突出,包括开源项目500+个、模型复现10+个、提交并 Merge 了150+次 Paddle PR、贡献代码量20000+等。
飞桨领航团,是飞桨开发者的兴趣社区,为开发者们提供丰富的本地技术沙龙、 Meetup 及线上交流平台,目前已建立132个社群,覆盖28个省级行政区,108个高校。
PP SIG 通过开放的社区形式,与全球的开发者共同构建一个开放、多元和架构包容的生态体系。目前已建立的 PP SIG 包括 Paddle Serving、PaddleDetection、PaddleOCR、Notebook、PaddleHub、PaddleGAN、VisualDL 等。目前已经完成贡献或确定贡献内容的 SIG 成员共72名,累计产出内容77项,包括 PaddleOCR 智能标注小工具、GO 语言高性能部署全流程方案、PaddleDetection PyQt 和 C# 软件等,并且多次合入 GitHub PR,为飞桨开源生态贡献重要外部力量。
除此之外,2020年飞桨开放了50场 AI 竞赛,总奖池超过300万人民币,吸引了来自五大洲、22个国家超过3万名开发者。赛题覆盖人工智能前沿方向,包含自然语言处理、机器视觉、生物计算、安全对抗、强化学习、图学习等。
2020年,飞桨承办多项活动和赛事,包括 CVPR、NAACL 等世界级顶会的 Workshop Challenge,还包括教育部倡导的大学生科技 A 类赛事——全国智能车竞赛,更有中国人工智能大赛、国际大数据竞赛、中国高校计算机大赛、百度之星、CCF 大数据与计算智能大赛等国内一流赛事。
作为 OpenI 启智社区的重要一员,飞桨与启智社区的多个开源项目深度合作,共同构建人工智能开发者生态。在 WAVE SUMMIT+2020 深度学习开发者峰会上,深度学习技术与应用国家工程实验室联合 AITISA、OpenI、LF AI & Data 为飞桨开发者专家共同颁发了“PPDE 飞桨开发者技术专家”证书。
飞桨荣耀时刻
飞桨在提升产品能力与加强生态的同时,也受到了业界广泛的认可,获得了多个奖项,我们来一起回顾下这些荣耀时刻:
- 1月19日,工信部“新一代人工智能产业创新重点任务入围揭榜名单”揭晓,百度基于飞桨深度学习平台成为 AI 开源开放平台项目的揭榜单位。
- 8月9日,由工信部、公安部及网信办三部委指导主办的“中国人工智能高峰论坛”在厦门召开,首届“中国人工智能·多媒体信息识别技术竞赛”成果也在会上进行颁奖。经过层层评选,百度飞桨开源深度学习平台荣获“创新之星”奖项。
- 9月5日,百度在服贸会成果发布中展示了最新的人工智能技术。飞桨作为百度自主研发、开源开放、技术领先、功能完备的产业级深度学习平台,被评为“科技创新服务示范案例”。
- 12月11日,2020中关村大数据日暨数字经济融合创新发展论坛在北京举行。现场还举行了“中关村国家自主创新示范区高精尖产业协同创新平台”授牌仪式,共5家企业及单位有幸入选。作为新一代人工智能底层开源深度学习平台,百度飞桨入选中关村示范区高精尖产业协同创新平台,共同推动中关村示范区数字经济企业发展底层基础开源适配和前沿技术协同研发,建设产业协同、开源共享的数字经济生态。
- 2020年12月2日,“OpenI/O 2020 启智开发者大会”在北京国家会议中心召开。大会公布了《“启智社区优秀开发者激励计划-启梦行动”》评选结果,飞桨成为了首批“启智社区优秀开源项目”之一,飞桨 PaddleHub SIG 小组也被评为“启智社区优秀开发者”。飞桨社区开发者张弘基仅凭兴趣驱动,不断输出专业观点为开发者答疑解惑,并在飞桨社区持续发挥着旗帜性作用,获评首批“启智社区优秀开发者突出贡献奖”。
- 近期,经过北京市官方认证,飞桨正式成为北京市首个 AI 产业方向创新应用平台。这体现了北京市对百度飞桨平台的技术实力、产业生态聚焦能力的高度认可。百度飞桨将助力北京市加快国际科技创新中心建设,建立产业级深度学习开源开放平台,开展人工智能产业创新应用,打造国内城市与人工智能创新平台合作的新范本。
2021已经到来,飞桨引擎依然动力十足,那它会驶向何方呢?我们相信,它会飞往技术浪潮之巅,会探索开发者理想乐园,还会在各领域产业实践中大显身手。新的一年,行而不辍,未来可期!
手动点赞
我一看成绩单 还以为.... 哈哈
吓我一跳
赞