分享错误,学习生活

与狗尾草一起探寻人机交互的更多可能性|白洞战报

52yxgame

  迄今为止,脑极体的白洞企业 AI 唤醒计划的已经举办了三期。我们一起畅游过“被 AI”的母婴零售门店,调戏过电商智能客服,还跟随一双皮鞋走进了未来工厂……AI 正在成为各行各业的新工具,帮助企业完成高效增长。而无论哪一种应用,AI 与人类的交点都无法避免地触发一个技术名词——人机交互。

  智能音箱的普及,让大家对新一代语音交互方式已经相当熟悉了。但这还远远不够。

  实际上,人与人之间的交流,除了语言之外,还附加了音色、表情、情绪、肢体动作等等诸多信息获取方式。显然,单靠语音做不到这样自然和丰富的程度。

  幸好,全息投影生成、能够多模态交互的虚拟生命,正在为人机交互带来新的想象力。它们不仅能说会跳,拥有自己的形象和姓名,还能与人进行情感化的互动。这种有“生命感”的 AI 究竟是如何炼成的?又会给我们的生活带来哪些改变呢?

  带着这些问题,在白洞计划的第四期,脑极体邀请了狗尾草智能科技旗下的人工智能研究院院长邵浩博士,以及智能语音企业普强信息的 CEO 何国涛先生,与我们共同探寻虚拟生命正在掀起的人机交互新浪潮。

  下一代交互:

  机器智能为什么需要虚拟生命?

  在开始此次交流之前,我们也曾经在舞台上、娱乐应用中,感受过虚拟生命的魅力。比如说“全宇宙第一的公主殿下”初音未来,可以说是最著名的虚拟歌姬了,拥有自己的录音棚,甚至还有宅男宣布要与她结婚。中国也有自己的 AI 虚拟生命,也就是来自狗尾草的琥珀,她上过春晚,开过演唱会,出过专辑,也曾遭遇过男粉丝现场求婚……

  “亚文化”“二次元”“低龄向”,似乎是我们对虚拟生命(主要是虚拟偶像)的绝对印象。

  除了让粉丝们为之疯狂打 call,虚拟生命为什么能够与普通大众发生联系?这恐怕要从目前人机交互的困局说起。

  普强信息的何总向我们介绍道,他们在智能语音技术解决方案上已经深耕了近十年,积累了众多汽车、金融类机构客户。如今,已经有越来越多的企业都积极地在服务场景中搭载语音交互。

  但是,除了技术本身的瓶颈之外,这种新的交互方式也存在许多难点:

  比如,个性化适配难。用语音操控汽车调节温度、调整座椅等当然比手动要方便很多,也安全了很多,但消费者获得的实质价值并没有“惊喜感”。试想一下,如果汽车不仅能够听懂,还可以通过思考分析出车内每一个乘客并自动提供最适合的音乐、空调、座椅等服务,是不是感觉就“智能”许多了?

  再比如,价值感略显单一。目前大多数语音交互应用,更注重功能性的整合,像是语音识别准确率、语义理解能力、芯片开发能力等等,更关注技术实现。但像在出行、客服等服务中,消费者除了基础的功能需求之外,还有着趣味性、同理心、理解力等情感上的交流诉求。像是听到客户抱怨时主动安慰对方,察觉到驾驶员今天很高兴放点助兴的音乐……这种感性陪伴是当前的语音机器人都不具备的。

  听起来,既要能听会说,还要了解人的情绪、无微不至地照顾,这简直是科幻电影里才有的“超级智能”嘛~会不会对机器的要求好像有点过高了?

  不过,能听、能看、能说、能思考、能读懂情感,这恰好也是虚拟生命在努力发光发热的领域。而它们,也在一点点帮助受技术桎梏的人机交互放飞想象力。

  虚拟生命的技术路线图

  语音识别、语义理解、机器视觉、综合传感器等等,AI 能力的拓展正在逐步点亮虚拟生命的“技能树”。那么,一个“有声有色有情感”的 AI,到底需要哪些技术支撑?

  我们可以以车载系统为例,从中国虚拟生命代表厂商狗尾草的技术框架中,将虚拟生命落地在服务场景中的技术能力归结为三点:

  1. 感知能力

  目前,虚拟生命上应用的感知技术相对比较成熟,比如在看、听、说等方面,就依赖于计算机视觉来识别车主信息,比如用户刚上车,琥珀可以通过摄像头捕捉表情,判断主人今天是开心还是郁闷,然后展开对话,为什么这么高兴?要不要我播放一段助兴的音乐?

  接下来,自然就需要通过语音识别,来让“大脑”接收到准确的用户指令。

  在普强信息的何总看来,虚拟生命也好,传统语音系统也好,在车载环境中都要做到语音识别的“准”和“快”。

  要求“准”,是因为汽车在行驶过程中会产生很多稳态和非稳态的噪音,比如胎噪、风噪、引擎声等等,这时要精准识别车内人员的语音指令,普通算法是解决不好的。为此,普强专门开发了“云+端+针对汽车的降噪去回声芯片”的综合技术方案去解决问题。

  要求“快”,则是因为汽车在高速行驶中,无论是导航、避障都需要极高的响应效率,才能保证基本的安全性。在一些网络不通畅不稳定的区域,比如高架桥、隧道等,就需要综合的算力解决方案来保障功能的稳定性。

  总而言之,成熟的感知系统能够让虚拟生命与人的交流变得更加有效精准。

  2. 思考能力

  在感知到用户的指令和需求之后,如何理解并付诸动作,就需要虚拟生命的核心思考能力来完成,这则依赖于语义理解、知识图谱的双重能力。

  比如一个驾驶员在开车时询问“琥珀”——“我的老婆明天生日了,我应该送她什么礼物?”,“琥珀”就可以通过自然语言处理和知识图谱来综合理解用户,比如用户是位男性,婚姻状态已婚,妻子的生日是几号。然后就可以用推理得到一个结果,去回复用户给他推荐相应的服务,比如能不能给你定一个餐馆,需不需要订一份鲜花,帮你导航最近的鲜花店位置?从而让人与机器的交流更具有真实感和生命感。

  邵浩博士分享道,未来狗尾草还将支持汽车用户上传照片到车载系统中,生成专属自己的虚拟生命 3D 形象,设定一个基础性格后,通过持续的交流“养成”,虚拟生命会变得越来越懂你,提供更贴心的个性化服务。

  3. 多模态交互

  虚拟生命和 Siri、Echo 等语音助手的另一个差异,就体现在拥有独一无二、具体可感的拟人形象。除了语音之外,它还能通过一些多模态的手段,比如说手势、动作、图像等结合在一起,来实现一种更直观自然的交流。

  最近在杭州地铁站上,狗尾草就把著名 IP《全职高手》里面的叶修这个角色,通过全息投影变成了虚拟生命,用户除了可以跟它对话之外,还可以用一些基本的手势,比如说握拳、挥手去和它互动。

  多模态交互一方面可以让意图识别在地铁这种噪音比较大的环境下也达到足够的精准度,另一方面则增强了感性体验,更接近人类交流模式,从而实现个性化的情感陪伴。

  据邵浩博士透露,下一步狗尾草还将支持用户把一些自定义形象放到机器里面实现 3D 建模,比如用一张照片,把男女朋友、宠物狗、去世的亲友等,都可以放到虚拟生命机器里,通过语音合成和声纹迁移等技术来实现和真人形态、声音一样的鲜活还原。

  正如一位开发者所说,“一个成功的机器人,其实就是一个特别好的人,它美丽且让人着迷。”这正是虚拟生命的独特魅力所在。

  1.0 阶段之后,虚拟生命会向何处去?

  目前,狗尾草的虚拟生命已经为许多传统车在语音助手赋予了崭新的形象,比如与一汽奔腾合作开发的车载系统,就有三个人物可以选择。

  在娱乐领域,“琥珀虚颜”已经是小有名气的 AI 虚拟偶像;在客服等场景中,普强信息也认为智能语音与虚拟生命的结合,将带来指数级的体验提升……

  上述应用都说明了,虚拟生命作为下一代人机交互方式,并不只是停留在实验室或二次元,而是正在以高调而坚定的姿态,迈入真实的产业世界,甚至成为其他 AI 技术的重要落地载体。

  邵浩博士告诉我们,目前普通大众接触的虚拟生命还处于 1.0 阶段。在节目中,两位嘉宾也带我们开了一下脑洞——当技术的车轮持续向前,我们和虚拟生命还会发生哪些化学反应?

  首当其冲的,应该就是跨场景、全方位服务。

  未来不同场景下的智能终端在打通信息孤岛之后,比如说不仅仅知道用户在车载场景下的对话,还知道在家庭使用智能音箱的时候所提供的一些信息,包括上网听音乐的一些习惯等等。这些信息综合到一起,虚拟生命对用户的理解也会更加深刻,代替那些冷冰冰的传统服务机器人去提供有情感的服务,对普通用户来说无疑具有极大的吸引力。

  另外,产业的发展也会驱动数据安全加快提上日程。

  一些个性化服务,比如客户一打电话过来,服务商就猜到他可能是要查询账户余额或者要定一个去夏威夷的旅游套票,然后自动匹配一个更符合对方心理预期的智能“贴身秘书”来服务。了解此类用户数据对让系统加分,但同时也非常敏感,因此需要对任何第三方进行严格保密。如何将用户的隐私限制在端设备之上,让云端完全无法访问,同时又能保障整体计算性能不变,也都考验着技术厂商的能力与道德。

  “我们可能都希望能生活在这样的世界里:和机器人有着最自然的对话,它将一切任务都执行得完美无瑕”,机器人创业者 Politibot 的 Suárez 曾经悲观的说,“但不幸的是还要好几年,机器人才能好到普罗大众都能接受。”

  目前看来,虽然目标遥远,但虚拟生命确实在朝着实用化、场景化的方向一步步前进,正在无数人的努力下,无限接近我们想象中的未来。

52yxgame
nmei\u7f8e\u5973\u56fe\u5e93

暂无评论

发表评论

电子邮件地址不会被公开。