我们正在进入人工智能+的时代。在成都,许多科技创业公司都有结合人工智能拓展产品能力的想法,但不管是对开发者本身能力、对大数据持续获取能力以及对行业理解方面,人工智能仍存在技术壁垒,这就为巨头提供了建立AI开放平台的机会。
百度正在提供AI开放平台为开发者提供帮助。10月26日,百度AI开发者实战营第二站走进成都,数名百度资深AI工程师介绍了百度机器人视觉技术、识图技术及应用、UNIT语言理解与交互技术以及百度深度学习平台PaddlePaddle,并与成都地区的数百名开发者分享了不同领域的落地案例。
百度AI技术生态部技术经理谢永康解读了最近发布的“燎原计划”,百度宣布拟在2018年招揽500多家生态合作伙伴,培养超过5000名人工智能人才,遴选60多家创业公司进入AI加速器,并投资其中的优秀者,通过技术、客户、营销等资源帮助开发者成功,共同构建AI全链条的行业生态。
百度也开启了AI开发者扶植计划,并正式启动AI加速器第一期报名,将重点面向pre-A或A轮需要借助AI为业务升级或AI领域创业公司,输出技术、客户、营销、企业运作和投资支持等多个层面的资源。
这场活动展示了很多在实际场景中有价值的案例。待细细讲来。
百度AI视觉能力
百度AI开放平台新增了图像识别、图像搜索等AI视觉能力。
1 人脸识别让刷脸签到、会员管理更方便在现场展示区,百度开放了人脸会场签到解决方案,参会者只需在报名时上传个人照片,即可“刷脸入场”。
报名时留了个心眼,传了张没戴眼镜的照片上去,签到时戴着眼镜想考验一下百度AI,结果居然是秒过。看来技术成熟度比较高了。用这种技术做会议创建、报名、刷脸签到一站式管理,能为管理方提供极大便利。而且人脸识别功能可以用于大量的领域。
人脸检测可广泛应用于身份认证:通过离在线混合活体检测,判断用户为真人,这就避免了用人脸照片冒充或者用三维建模人脸冒充;通过公安身份图像与真人图像比对,判断用户是否为本人,从而完成在线用户身份核真检验。目前这项技术已经应用于保险公司线上保险服务的身份验证中。
通过人脸识别快速录入人脸信息,用户通行时只需刷脸即可完成身份验证进门。可应用于门禁考勤或者景区检票系统,大大缩短了检票时间。当然如用于全国交通枢纽站,可进一步提高通客效率。
将人脸信息对比公安信息系统,通过快速比对能找出犯罪嫌疑人,可应用于安防监控领域。
比较感兴趣的是人脸会员识别解决方案,可以提供完整的会员人脸注册、人脸自动捕获、会员识别一整套解决方案,实现智能会员管理、到店提醒和会员营销、提升商家服务质量和顾客消费体验。
据说其在大型药店中的应用,可以做到结合会员历史消费情况,推荐合适的商品,避免药性冲突,提升了营业效率和顾客体验。当天虎哥就此发了朋友圈,马上就有彩妆连锁店面的管理者来咨询应用,可见其在商业上有较高的关注度。
其产品流程图如下↓
2 图像识别能让普通人准确识别药材
根据百度识图技术负责人刘国翌的介绍,目前百度图像识别能力包括通用识别、品牌logo识别、文字识别、动植物识别、菜品识别、车型识别与定损等。识图后台大量使用深度学习技术,能够对用户上传的图片进行精准识别,并检索后台近百亿图像数据返回相关信息。
图像识别目前在2B端有丰富应用:在通用识别方面可以建立图像到文本的预设,可用于内容、广告的推荐;菜品识别可以应用于饭店、健康管理领域;logo识别可以应用于图像审核;动植物识别可应用于教育行业、动植物研究所等行业。
在定制化的视觉识别案例中,对普通人比较有价值的是百度为中国食品和药品研究所做的中草药识别案例:对那些非专业人士无法鉴别真伪的药材,系统经过AI训练,在不需要人工干预情况下,真伪鉴定准确率达到95%以上。
3 搜索的能力展现
基于以图搜图、以图搜信息的需求,实现通用图像识别和检索系统,通过搜索技术可以识别上百万种商品、药品、人物等等。
好玩的一点是,百度AI识图能够查找预计相同语义且具有类似风格的图像。这样就能搭建相似图片推荐、图片素材查找、以图搜物等类型的应用。
举个例子,你想拍海边的婚纱照,系统就能给你推荐许多带有相似性的图片,带有碧海蓝天、沙滩、婚纱等各种特性要素。
4 让审核更轻松媒体机构需要花费巨大人力资源审核图片,最头痛的还是视频内容审核,工作量很大,但百度识图的技术可以针对图片和视频内容进行多维智能审核,其中包括有各种敏感内容,虎哥觉得这项功能在未来对内容平台开发者来说很实用。
在视频比对检索方面,可以精确搜索所属视频,以视频快速搜索包含相同片段的视频。
5 人体分析服务即将开放如图所示,这一功能可以做到对图像和视频数据内的人体属性识别,包括性别、衣着、是否带眼镜、颜色等维度,实际应用中,在商业场所可以用来分析人流量和构成。
关于百度视觉AI方面的能力开放,9-10月已经开放8项识图能力,包括图像主题检测、菜品识别、车型识别、logo商标识别、植物识别、动物识别,相同图搜索、相似图搜索。
而11-12月将开放人体分析、数万类物体和场景识别、商品搜索、定制化图像识别平台,未来会聚焦重点场景,与各行业合作伙伴合力构造行业解决方案。
机器人视觉解决方案
百度机器人视觉负责人包英泽着重介绍了百度AI开放平台最新上线的机器人视觉解决方案。担任北京汉光百货兰蔻专柜一日导购的“小度机器人”,运用的就是百度机器人视觉解决方案。
百度机器人视觉解决方案采用硬件开源、软件开放的形式为开发者提供全方位一站式服务,包括硬件模组和机器人SDK两部分。
硬件方面,百度自主研发的立体惯性相机模组配置了两个全局摄像头和一个传感器,开发者可根据需要调整双目的距离。历经三次迭代,可以进行规模化生产。
机器人SDK提供视觉惯性SLAM、障碍物检测、平面2D建图等离线功能,以及人脸、文字、物体等云端识别功能。
通过百度机器人视觉解决方案,机器人可以更好地“看懂”这个世界,像人一样拥有观察感知能力。开发者可在自己的机器人产品中安装百度相机模组,模组输出的图像和传感器数据输入百度机器人视觉SDK。
SLAM视觉惯性算法将为机器人提供高精度的实时定位;由双目图像经过深度神经网络获取的图像经过深度神经网络,可以为机器人提供准确完整的障碍物信息,让机器人安全自由地行走;同时,连接到百度云端API,机器人还拥有人脸识别、OCR(文字识别)、物体识别等功能。
包英泽表示,“不同于市面上所有别的机器人视觉模组,百度机器人视觉是市面上唯一既有导航定位(SLAM),也有物体识别(人脸识别、物品识别、OCR识别)的机器人视觉SDK,并且是唯一软硬件都开源的视觉模组。”
目前,百度机器人视觉已经在百度AI开放平台开放试用,开发者可体验这一软硬一体的机器人视觉技术解决方案。
对话交互产品——UNIT
百度UNIT技术负责人孙珂展示了一段场景:开车中对着手机说“去清华大学西门”,手机便会自动开启导航。在导航过程中,询问到达时间、询问路况等都可以通过语音来实现。
这背后就是语言理解和交互,孙珂说:“实现自然语言理解与交互,需要雄厚而完备的技术积累和数据积累,对于很多开发者来说,存在不小的困难。”
很多互联网产品和应用开始尝试引入对话式的人机交互方式。而UNIT(理解与交互技术)便是为了解决这种交互形式而生,为第三方开发者提供对话系统开发平台,让产品快速拥有对话交互能力。
UNIT技术,可应用于各类对话式人机交互场景,包括智能助手、智能家居、智能汽车、智能客服、机器人等多种领域。
举个例子,UNIT面向意图辞槽的多轮交互↓
用户先说:帮我订个全聚德的十人包间(由此开始了多轮交互)。
智能客服回答:好的,您想订什么时间的?
用户说:今晚6点吧。
智能客服回答:好的,帮您订好了(这是自动澄清)
智能客服又说:需要帮您叫车么?(这是主动引导)
类似这样可定制的智能客服可精确匹配业务需求,并持续学习,帮助配合解答大量通用性较强的问题,大幅提升人效,可广泛用于网站、APP、电话客服甚至线下业务窗口等场景。
学习平台——PaddlePaddle
如果你并不是AI行业的“深度学习”者,但是却想借助AI技术帮你实现项目目标,那么百度的分布式深度学习平台PaddlePaddle或许是个不错的选择。
PaddlePaddle高级研发工程师刘毅冰例举了一个案例,三个北京工业大学自动化专业的学生,只有自动化专业能力却没有AI技术能力。但是利用百度PaddlePaddle开源平台,他们研发出了一台为平谷桃农挑选桃子时使用的智能分拣机。
机器由传送带,推拉装置,电路控制系统和大桃品相识别系统四部分构成。在这个过程中,深度学习发挥了强大的作用,学生们给机器分类“学习”了约6400张大桃照片。
因为模型能从各个分类的照片中自动提取影响分类的要素,并形成自己的分类逻辑,学习后的机器就能像经验丰富的桃农一样,快速辨别桃子的品质。
不仅如此,机器在使用中还会不断积累并学习新的数据,提升自身的准确率。被百度AI加持了的机器,能极大的解放人力。
目前机器的分桃准确率已达到90%以上,平谷桃农刘师傅在自家的桃园里运用了这台机器,刘师傅介绍,他家的40亩桃树,如果都用上了智能分拣机,一年能省3万多块钱的雇工费。
PaddlePaddle在深度学习框架方面,覆盖了搜索、图像识别、语音语义识别理解、情感分析、机器翻译、用户画像推荐等多领域的业务和技术。
PaddlePaddle易用性很好,单机与多机代码完全一致,无痛从单机训练伸展至大规模集群训练,
通过PaddlePaddle,深度学习模型的设计更加容易,只需关注模型的高层结构,而无需担心底层问题。未来,程序员可以快速应用深度学习模型来解决医疗、金融等实际问题,让人工智能发挥出最大作用。
文章转自 天虎科技
图像识别 图像搜索功能很强大,欢迎大家来探索试用