年1月6日,百度举办Create大会-技术开放日媒体沟通会,三位百度核心技术负责人到场,轮番讲解百度最新的技术进展,密集展现百度如何践行“用科技让复杂的世界更简单”的愿景。
活动期间,百度不止展示了如何用“手机全双工语音交互”改善使用导航应用的体验,还详细介绍了如何用“上帝视角”提升汽车的自动驾驶能力,以及如何用百度自研的深度学习平台飞桨加速科学研究。每一项研究都切中痛点,每一项都有全球业内唯一或领先的突破,展现着百度的技术实力。
百度在技术研发上的累计投入已超过亿元,开发了大量业界领先的技术。从改进日常生活体验到推动前沿科技产业落地,再到加速基础科学研究,百度的黑科技已经渗透到社会的各个方面。
这三项只是百度前沿技术中的一部分。百度将在1月10日举办新一届百度CreateAI开发者大会,届时会有更多百度技术大牛展示百度黑科技,进一步展现技术创新的力量如何推动增长。
实力遥遥领先的“手机全双工语音交互”
想象一下,你正开车前往一个陌生的城市旅行,车里开着音乐、同行的朋友们聊天,车外隐约传来一些交通噪音,你需要用手机实时播放的导航语音认路。
经过临时讨论,朋友们决定要修改目的地去一个餐厅吃饭。为了安全起见,你需要把车停在路边,重新设置目的地,让地图软件重新设置导航路线。
这是因为手机里软件语音播报导航信息时,通常不可能识别出你说了什么。背后的原理也不难理解,如果手机App在说话的时候,又在听,它可能会识别自己说的话,非常容易造成误判,尤其是导航应用,直接关系到交通安全。
百度语音首席架构师贾磊说,在世界范围内,很长时间都没有一个方案能普适的支持在手机上实现全双工的语音交互——在手机播放导航提示的同时,也能够听清我们的指令,甚至像真人对话一样可以被我们随时打断,并对新的语音指令给予反馈。
困难有不少。想要实现全双工语音交互,必须先做回声消除,避免手机终端识别自己播放的声音。贾磊说,在前装软件的音箱、车载系统上比较容易实现,可以通过硬件适配算法,提前保证回声消除的效果。
而手机App属于纯软件后装方案,需要让软件算法适配不同型号的终端硬件。通常,手机上喇叭距离麦克风的距离比较近,同时手机终端款式多,硬件参差不齐。这些因素叠加在一起,会导致声音信号的回声消除会出现各种各样的问题。再加上手机硬件的迭代更新非常快速,回声消除效果就更加难以保证了。
这个难题已经被百度解决。百度的技术团队融合传统信号处理和深度学习模型各自的优点,基于语音识别目标,端到端地进行回声消除和信号增强,解决了手机场景下的回声消除问题,即使手机音量开到最大,回声消除量也能达到40分贝,使得手机APP的语音识别功能能够正常工作。
这是世界范围内、在全行业,第一个能在手机上实现纯软件方案回声消除的技术。
虽然手机的便携性导致语音交互的使用场景非常复杂,在交互中常常面临音乐、闲聊、环境噪声、内噪残余等与交互内容无关的其他信息干扰,语音识别难度增大。但百度研发出的基于SMLTA2的多场景统一预训练模型,一个模型解决噪声、用户口音和回声消除残余吸收等难题,在各场景下识别率相对提升超过20%,这在业界同类技术中,准确率是最高的,可以说实力遥遥领先。
配合语音语义一体化的置信技术,百度的技术方案可以降低错误响应,并且支持交互过程中的引导和澄清,让人机交互更智能顺畅,更逼近人与人直接交互的体验。
目前,百度已经做到在手机端实现自然流畅的全双工语音交互,下一步将用到更多产品中。
更强悍的“上帝视角”,帮智能汽车解锁“千里眼”
自动驾驶系统可以取代人类司机,让出行更简单,成为许多科技公司争相投入的方向。想要让汽车自动驾驶,关键在于让系统全面而准确地感知、识别周围环境。
人类驾驶员主要依靠视觉观察道路和周边情况,汽车靠激光雷达、毫米波雷达和高分辨率摄像头等传感器,它们决定了自动驾驶系统能获得什么环境、路况信息。
在自动驾驶领域,传统的图像空间感知方法是将汽车上的雷达、摄像头等不同传感器采集来的数据分别进行分析运算,把各项分析结果融合到统一的空间坐标系中,去规划车辆的行驶轨迹。这个过程中,每个独立传感器收集到的数据往往受到特定视角的局限,经过各自的分析运算后,融合阶段会导致误差叠加,无法拼凑出道路实际情况的准确全貌,给车辆的决策规划带来困难。
近些年来,行业中提出了BEV(BirdsEyeView,视觉为中心的俯视图)自动驾驶感知方案。不同于传统的方式,BEV自动驾驶感知就好比是一个从高处统观全局的“上帝视角”,车上多个传感器采集的数据,会输入到一个统一模型进行整体分析推理生成鸟瞰图,能有效地避免误差叠加;这种方案还能够做到时序融合,不仅是收集一个时刻的数据,分析一个时刻的数据,而是支持把过去一个时间片段中的数据都融合进模型做环境感知建模,时序信息的引入让感知到的结果更稳定,使得车辆对于道路情况的判断更加准确、让自动驾驶更安全。
百度作为全球自动驾驶技术第一梯队的玩家,并没有止步于BEV自动驾驶感知方案,还首次在业内提出了车路一体的解决方案UniBEV,集成了车端多相机、多传感器的在线建图、动态障碍物感知,以及路侧视角下的多路口多传感器融合等任务,是业内首个车路一体的端到端感知解决方案。
基于统一的BEV空间,UniBEV车路一体大模型更容易实现多模态、多视角、多时间上的时空特征融合。百度借助大数据+大模型+小型化技术闭环,在车端路侧的动静态感知任务上都取得了领先的成绩。
硬核飞桨,加速科学研究
作为一种通用技术,人工智能不只有猜你喜欢、让汽车自动驾驶的能力,还能帮助许多领域的科学家们加速科学研究的进程,这就是人工智能科学计算(AIforScience)。
现在已经有许多科学家团队正在用AI帮助解决科学难题。比如在气象领域,AI实现更快更精准的数值天气预报,包括预测强对流天气的短时临近降水情况和揭示大尺度的台风形成和演变规律。在生命科学领域,传统的科研方法面临生物类型实验数据少、计算任务复杂、学科交叉多等挑战,而随着AI应用探索的持续推进,AI已逐渐在药物筛选、药物设计、靶点研究、合成生物学、疾病机理研究等方面实现落地和持续的进步。
AI为解决科学问题带来新方法的同时,也对AI基础软硬件带来诸多新挑战。毕竟,推动科学进步与开发一个人脸识别算法需要的并不完全是一种能力。
首先,深度学习平台需要具备更加丰富的各类计算表达能力,如高阶自动微分、复数微分、高阶优化器等;其次,科学问题求解需要超大规模的计算,这对深度学习平台与异构超算/智算中心适配及融合优化,神经网络编译器加速和大规模分布式训练提出了新的要求;此外,如何实现人工智能与传统科学计算工具链的协同,也是需要解决的问题。
过去的这几年,百度飞桨团队在这些问题取得了进展。作为国内首个自主研发、功能丰富、开源开放的产业级深度学习平台,飞桨研发了一系列用于科学研究的工具组件,比如赛桨PaddleScience、螺旋桨PaddleHelix、量桨PaddleQuantum等,支持复杂外形障碍物绕流、结构应力应变分析、材料分子模拟等丰富领域算例,广泛支持AI加计算流体力学、生物计算、量子计算等前沿方向的科研探索和产业应用。
对于科学领域大规模计算的需求,飞桨推出了超大规模图学习训练技术PGLBox,是业界首个同时支持复杂算法+超大图+超大离散模型的大规模图学习训练技术,通过显存、内存、SSD三级存储技术和训练框架的性能优化技术,单机即可支持百亿节点、数百亿边的图采样和训练,并可通过多机扩展支持更大规模,目前已经在百度的智能交通、信息推荐、搜索等标杆场景实现落地,大幅提升业务效率和用户体验。
在科研生态方面,百度飞桨已经与高校、科研机构等开展了计算流体力学、分子动力学、动力气象学等方面的范例建设,并形成了一些开放性的、多学科交叉的生态社区,包括飞桨特殊兴趣小组(PPSIG)、共创计划等,与各方一道进行技术联合开发、推广资源共享,生态商机共建。
瞄准AIforScience赛道,对百度飞桨来说是AI能力的挑战,但一次次技术突破,也是飞桨提升能力的机会。对于整个社会也有重大意义,百度飞桨的一个个技术突破,也让科学家们有了更好的帮手,让技术突破拥有了更多可能性。