2018年百度AI行业分析报告
图表 9 人工智能技术已渗透到百度的所有核心业务
资料来源:数据观、
二、开放赋能,“百度大脑+智能云”铸造国内最全 AI 能力平台
“开放赋能”成为百度在 AI 时代的核心战略。COO 陆奇在开发者大会上称,“百度将为每一个 AI 开发者提供工具, 数据、基础建设、良好的开发环境;为每一个 AI 开发者消除障碍、创造机会。百度将 All-In AI,百度 AI 生态的长期 战略方向是努力引领新一代的 AI 计算平台。”
百度的整体布局将基于百度大脑+百度智能云。百度大脑加智能云是中国最完整、最全面、最前沿、最有活力和最具 生命力的 AI 平台,其中核心的是百度大脑。基于百度大脑卓越的技术实力,百度有能力把代表未来的智能云提供给 中国开发者。
图表 10 百度 AI 开放平台架构图
资料来源:百度 AI 开发者大会、
(一)百度大脑:百度 AI 平台的核心,技术实力卓越
2016 年的百度 AI 开发者大会上,百度首次向外界全面展示百度人工智能成果——“百度大脑”,并宣布对广大开 发者、创业者及传统企业开放其核心能力和底层技术。
2018年百度AI行业分析报告
目前“百度大脑”已经形成一个完整的人工智能技术布局,包括算法层、感知层、认知层、平台层四个层面。算法 层包括机器学习平台和深度学习平台;感知层包括语音识别、图像识别、视频技术 AR、VR 等能力;认知层面包括 NLP、知识图谱、用户画像;平台层则为 AI 开放平台,将不同能力向外界开放。同时,百度大脑正在与各行各业结 合,衍生出不同领域的行业大脑,比如医疗大脑、交通大脑、金融大脑等等。
图表 11 百度大脑的 AI 技术布局
资料来源:百度 AI 开发者大会、
1、算法层:推出国内首个深度学习开放平台——PaddlePaddle
算法、计算能力和数据构筑护城河。在人工智能三大要素:算法、计算、数据上,百度都有着得天独厚的优势。1) 百度拥有建立在超大规模神经网络、万亿级参数、千亿级样本上的人工智能算法;2)拥有依托数十万服务器和中国 最大 GPU 集群的计算能力;3)作为全球最大的中文搜索引擎,累计了全网万亿网页、数十亿搜索、百亿级图像视 频和定位数据。
从算法架构来看,百度走在中国甚至世界前列。百度算法层包括机器学习平台和深度学习。2016 年 9 月,百度正式 对外宣布开放其深度学习开源平台 PaddlePaddle,成为继 Google、Facebook、IBM 后又一家将人工智能技术开源 的公司。PaddlePaddle 已实现 CPU/GPU 单机和分布式模式,同时支持海量数据训练、数百台机器并行运算,以应 对大规模的数据训练。此外,PaddlePaddle 具备高质量 GPU 代码,提供了 Neural Machine Translation、推荐、图 像分类、情感分析、Semantic Role Labelling 等 5 个 Task,每个 Task 都可迅速上手,且大部分任务可直接套用。 2017 年 2 月,百度又宣布实现了框架和集群管理系统 Kubernetes 的兼容,PaddlePaddle 成为了迄今为止唯一一 个官方支持 Kubernetes 的框架。
PaddlePaddle 深度学习平台,具有易用性、灵活性、高效性、扩展性等多种技术优势,对于序列输入、稀疏输入 和大规模数据的模型训练有着良好的支持,支持 GPU 运算,支持数据并行和模型并行,仅需少量代码就能训练深度 学习模型, 大大降低了用户使用深度学习技术的成本。
图表 12 热门深度学习平台比较
平台名称 公司 主语言 从语言 硬件 Caffe 加利佛尼亚 大学 C++ Python 、 CPU、GPU Torch Facebook Lua - CPU 、GPU 、 Theano 蒙特利尔 大 学 Python - CPU、GPU TensorFlow 谷歌 C++ Python CPU、GPU、 MXNet DMLC C++ Python、R、Julia、Scala、 Java、Matlab、Go CPU、GPU、MOBILE CNTK 微软 C/C++ Python、C# CPU、GPU、 Paddle 百度 C++ Python CPU、GPU 2018年百度AI行业分析报告
平台名称 Caffe Torch FPGA - 快 一般 所有系统 - 快 好 Linux、OSX Theano TensorFlow MOBILE - 中等 好 所有系统 Ye(s 未开源) 中等 好 Linux、OSX MXNet CNTK MOBILE Yes 快 好 所有系统 Yes 快 好 所有系统 Paddle 分布式 速度 灵活性 操作系统 - 快 好 Linux、OSX
资料来源:国家工业信息安全发展研究中心、 开源移动端深度学习框架 MDL,与其他支持移动端的开源框架相比较性能优越。该移动端深度学习框架,致力于让 卷积神经网络极度简单的部署在手机端,目前正在手机百度内运行,支持 iOS GPU 计算,具有体积小,速度快的特 点。
图表 13 支持移动端的开源框架对比
框架 CPU/GPU 速度 体积 系统
Caffe2 CPU 慢 大 Android&IOS TensorFlow CPU 慢 大 Android&IOS NCNN CPU 快 小 Android&IOS MDL(CPU) CPU 快 小 Android&IOS MDL(GPU) GPU 极快 小 仅 IOS 资料来源:CSDN、
2、感知层:语音识别、图像识别技术业界领先,行业首创视频内容分析技术 “能听(说)”、“会看”是衡量当前各大公司人工智能发展水平的重要参考标准,也是各大巨头研发投入的重要 领域,百度在语音识别、图像识别、视频分析等领域均处于业界领先地位。
? 语音技术:语音识别准确率高达 97%,入选麻省理工“2016 年十大突破技术” 语音识别技术领域:百度基于深度学习研发的新一代深度语音识别系统 Deep Speech 2,专注于提高嘈杂环境下的
英语语音识别的准确率,它在噪音环境中的识别准确率超越谷歌、苹果的语音技术。目前的识别准确率可达到 97%,
入选麻省理工“2016 年十大突破技术”。百度已公开申请专利已经达到 404 项智能语音技术专利,远超竞争对手。
语音合成技术:百度语音合成基于业界领先的深度神经网络技术,能将用户输入的文字,转换成流畅自然的语音输 出,并且可以支持语速、音调、音量、音频码率设置,打破传统文字式人机交互的方式,让人机沟通更自然。应用 场景非常广泛,很多用户每天都在使用语音导航,用语音播报新闻、听小说,听贴吧的帖子等等。目前百度每天响 应的语音合成的请求达到了 2.5 亿次。
语音唤醒技术:百度语音唤醒技术通过在设备或软件中预置唤醒词,当用户发出该语音指令时,设备便从休眠状态 中被唤醒,并作出指定响应,大大提升了人机交互的效率。
2018年百度AI行业分析报告
图表 14 2012-2016 年百度单词识别准确率领先
资料来源:“互联网女皇”2016 年互联网趋势报告,
? 图像技术:人脸识别准确率达 99.7%,曾获 FDDB 与 LFW 双料第一
人脸识别技术: 百度人脸识别 BFR 基于百度业界领先的智能人脸分析算法,提供了人脸检测、人脸识别、关键点 定位、属性识别和活体检测等一整套技术方案。2015 年曾在人脸识别技术两个最为权威的国际评测——FDDB 与 LFW 中获得了双料世界第一,百度人脸识别准确率达 99.7%。
图表 15 2017 年国际权威人脸检测评测平台 FDDB 结果
资料来源:FDDB、
百度已经在内部确定了人脸识别技术的四大落地方向:1)闸机。百度希望将“刷脸通行闸机”落地到景区,以及大 企业和大型写字楼里;2)交通。积极寻求和火车站、机场达成合作;3)金融。长远来看,金融方面是百度人脸识
2018年百度AI行业分析报告
别最重要的应用方向;4)手机。百度和国内几大手机厂商在谈人脸识别技术上的合作。
图表 16 2015 年 LFW 中百度击败腾讯、谷歌夺冠
资料来源:比特网、
地图识别技术:在人工智能的助力下,百度地图全流程数据生产自动化程度已超过 80%,全景图像的自动化识别提 取准确率高达 95%,居行业首位。人工智能技术已经成为支撑百度地图业务发展的核心力量,目前百度地图的采集 数据覆盖全国城市,采集里程已超过 670 万公里,拥有 7 亿余张全景照片,为用户提供超 2 亿公里导航服务。得益 于深度学习技术优势,百度地图的采集设备能够自动识别道路特征、提取建筑轮廓并绘制形状、识别道路图形标牌、 电子眼、警示牌。图像智能识别技术则能够精准识别店铺名称、门牌号、停车场标识,甚至是营业时间。不仅如此, 百度地图率先打破传统数据采集模式,实现了外业单人全景图像采集,使生产效率大幅提升。
文字识别 OCR 技术:百度文字识别 OCR 是国内首个公有云文字识别产品,整图中文识别准确率达 85%+,英文 91%+, 支持任意场景、复杂背景、任意版面下的文字识别,支持 10 多种语言的识别。截至 2017 年 7 月 13 日,百度 OCR 技术在国际文档分类与识别大会(ICDAR)最具挑战性的自然场景类文字识别任务中斩获三项冠军,比赛结果均远超 第二名,此外百度凭借 OCR 技术在该比赛中已经连续两年获得多项世界第一。
? 视频技术:行业首创视频内容分析 VCA,夺冠“Kinetics 视频分类比赛”
首创 VCA 技术,全面颠覆人工分类的视频分类模式。2017 年 5 月,百度智能视频分析技术正式上线,推出视频内 容分析 VCA(Video Content Analysis)、智能封面选图服务、视频比对检索、视频内容审核。基于百度人工智能技术, 智能视频分析技术可以对视频输出泛标签,并自动选取精彩视频封面,提高搜索准确度和用户推荐视频的曝光量。 百度 VCA 是国内首个基于视频内容理解的分析技术,其提供的场景化视频服务尚属业内首创。百度 VCA 技术,全 面颠覆了以往依赖人工分类的视频分类模式,满足用户对视频个性化推荐、精准视频内容检索的需求。
2017 年 7 月,在由 DeepMind 主办的“Kinetics 视频分类比赛”中,百度 IDL 的 Genome 团队获第一。ActivityNet 竞赛是目前视频动作分析领域影响力最大的赛事,被誉为视频界的 ImageNet 竞赛。其中,Kinetics 是 ActivityNet2017 年最新推出的一个大规模视频分类任务,有 400 个动作类别,24 万训练语料,每个视频长 10 秒左右,一个视频就 是一个完整的类别,是迄今为止开放视频内容的最大视频分类数据集。