2021HMI大会丨竹间智能瞿捷:多模态情感交互探索与实践
2021年4月13日,由盖世汽车、慕尼黑上海电子展联合主办的“2021中国汽车人机交互HMI创新大会”隆重召开。本次大会旨在聚集汽车HMI领域的杰出人才、UX/UI设计师以及前瞻规划研究人员分享全方位汽车人机交互领域的创新理念、技术趋势、行业焦点、现实挑战及应用解决方案。会议期间,竹间智能科技(上海)有限公司/汽车行业负责人瞿捷发表了“多模态情感交互探索与实践”的主题演讲。
以下为演讲实录:
大家下午好,我们竹间智能主要是做IOT方向的,在座很多都是新朋友,那一开始我会放一个小短片,让大家对我们有一个初步的了解。
我们是2015年在上海成立的一家AI公司,专注在AI领域,AI赛道很大,我们聚焦在AI的NLP技术方向上,目前公司有350人左右,在北上深,成都,广州都有分支机构。大家做HMI肯定不会陌生,因为智能座舱里面现在主流都在讲智能语音交互,我们是智能语音交互底层的能力,NLP本身是比较底层的技术。我今天用比较浅显的语言跟大家解释一下,我们到底在做什么样的事情。我们把NLP分成两个大的方向:短文本NLP,长文本NLP。我们发现人和人交互其实都是这样的短句,我们用NLP技术落地很多人机交互的场景。
今天为什么会过来呢?因为座舱里也有大量语音助理交互的场景。人机交互场景不单只是在智能终端上,负责IOT方向,我们日常当中看到大量机器人替代人工的工作,不管是打电话到银行,还是接到银行的电话。另外我们服务过的华为、恒大、碧桂园这样的企业也在引入机器人员工的概念,用机器人去替代人的场景,这是短文本NLP里面主要落地的方向。今天我们主要聚焦在终端交互,智能终端交互上。
长文本举一个简单的例子,这样大家比较好理解。比如说4S店都有DMS系统,里面都会记录下来大量维修工单信息,它可能会很长,可能300字,500字,甚至更长,这些在服务器里我是不知道到底在记录什么样的事项。那质量部门希望说通过NLP长文本模型帮助他挖掘这些数据的价值,预测这些数据的标签,目前这个项目可以帮助他达到95%标签预测准确率,预测什么呢?预测这个文本在描述什么,是描述发动机故障,还是变速箱的故障,描述发动机的故障是异响,还是漏油等等。
细心的朋友可能会关注到竹间的应用Inspired,灵感来源于我们老板,2015年前在微软,看到一部电影《Her》,电影讲述男主角跟虚拟助理谈恋爱的故事,而且谈的无法自拔。当时就有一个很强的想法,说做人机交互这个场景没有情绪情感,没有温度永远都不可能成功,未来就是情绪情感的一个落地方向,所以才会在2015年毅然从微软出来,围绕NLP方向成立了竹间这个公司。
另外我们从2015年开始也是业内比较早期针对情绪情感方向去做探索和研究的,所以今天我想分享两部分内容,一部分是基于我们之前情绪情感做过的一些事。
首先文本情绪可以看到有很多,模型能处理的有22个,除了表征情绪之外,文本里面还有很多评价类的情绪,我说你跑的好慢,这个酒店好干净,今天物流发的好快,本身看上去没有带表征的情绪,但是本身带有评价情绪的评价,以及隐含的情绪,车里经常会有,比如说今天路怎么那么堵啊,本身带有一点焦躁焦虑或者不满的情绪在里面,所以整个情绪表现力就会比较强。
其实早期我们会找到很多语言学家和心理学家定一些标准的规范,找到大量标准人员去做标注决策,达到对于这个情绪的理解是普适性的,大家都认可的方向。当然做了很多事情,目前有积累的是已经做到了标准情绪模型的输出。
基于标准情绪模型输出之外,目前放在对话管理平台上,也把情绪模块做成了一个标准,这个引擎如何来用?在我们模块里面是这么来定义的。我们定义了内置情绪模型,就是把已经训练好的情绪模型配置在对话管理平台上,如果客户对情绪没有特别高的要求,可以直接跑我们的情绪模型输出情绪标签。第二种是依托于原来积累的算法和模型可以自己喂一些情绪语料。比如说焦躁,在我们22种里面没有,那它理解可以通过情绪引擎模块自己定义一个情绪模型。第三种是如果22种情绪模型里面已经有了这种情绪,比如说不满,但是这个场景里面有些语调,认为这些语调也是不满的,那它可以基于现有情绪模型去增加语料,叠加式新增新的模型。
这个界面是对话管理平台产品,里面涉及到各类的出话模块,问答管理模块,任务引擎模块,机器人技能模块,意图引擎模块,情绪引擎模块,今天展示的是情绪引擎模块里面,我们的同事自己训练了一个情绪模型,这个里面包含了中性的情绪,愉快的情绪,愤怒的情绪。因为这个场景是基金理财的,有一句话“我今天基金怎么又跌了?”但是他在这个场景里面希望把它定义为愤怒的情绪,侦测到这个语言之后如何给他安抚。
如果机器人检测到愤怒情绪模型,他会出一句安抚的话术,你先消消气,我们来看看怎么解决这个问题。其实它又触发另外一个模块“基金涨跌都是正常现象,建议您再多观察一段时间”,这是文本情绪模块落地的一个小的应用场景。
语音情绪会比较泛一点,大部分人讲话还是以中性为主的。比如说评率的特征,比如说平均音高,尾音下降等等。我们当时找了声学工程师以及心理学专家还是做标注规范,对于数据做一些标注。再处理声音的时候如何达到比较高的准确率,我们用了一个二分类的方式,比如说高兴生气定义为比较激动的声音,中性和难过是相对比较低沉的原因,用了这样的二分类工具识别高兴/生气,中性/难过。下面是声音情绪应用场景,大家看一下。
这个案例是我们拿声音情绪在呼叫中心里面的商业化落地的场景,也是实际客户在使用的。声音情绪质检相比NLP内容质检有上来好处呢?效率会比较快,之前我们跟中国联通做过一个项目,一般一通四五分钟录音两三秒钟就可以跑出它的情绪特征值。
第三类是视觉情绪,经常会有客户问我,你跟四小龙有什么差别?其实我们早期研究方向也只是在人脸情绪上,所以早期也是做了大量标注,将近有1400万张人脸数据标注,我们现在做了九种人脸情绪,包括东方人脸,西方人脸都做了人脸情绪的标注和模型训练。目前我们通过Titna X Maxwell GPU大概2毫秒就可以识别出来。
这类技术我们认为是可以商业化的,只是目前在车上面没有找到更好的商业化落地的场景。
我们之前给教育行业有做过,旷视有做过一个教育行业的侦测,针对于学生课堂行为状态的分析,结合学生专注力,眼球专注程度,头的姿势等等去判断上课的情绪跟踪。像这样的案例,我们也交付了,重点用的也是基于视觉的技术。
单一模态的情感识别存在的偏差,比如说你好讨厌,可能是生气,也可能是撒娇。你真是个天才,可能是夸奖,也可能是讽刺。对,你没错,你的女朋友真的不生气了吗?所以我们在做多模态融合用了两种做法,一种是我们把这三个模型做了融合模型,把产品单独拿出来做一个融合模型,这是一种做法做多模态融合情绪输出。第二种比较简单一点,直接通过三个模态的权重去判断,我们大家都知道声音情绪的权重会比视觉的高,视觉的情绪权重要比文本的高,基本上都会遵循一个权重值,看这三个模态加在一起具体是什么样的情绪输出。
以上是情绪这块积累的经验,也希望下来之后会有更多机会跟大家做一些探讨。下面两张片子讲一下我们对多模态人机交互的理解。这张片子主要分为输入,处理以及输出。输入进来之后,中间我们叫NLP处理过程,竹间做人机交互这么多年,我们会把它分成两个层面。第一个层面叫做对话中控管理,主要解决的是大意图的识别。输出处理,包括情感的,虚拟形象的部分,这是我们理解的多模态语音交互涉及的全链路要做得事情,这里全链路涉及的方很多,有视觉,声音,图像,NLP,3D渲染等技术。
这个小的DEMO很简单,但它打通了上面我说的环节,包括情绪情感,中控判断,结合情感中控上做不同触发的分发和技能分发,刚才看到虚拟形象动作跟他情绪相关。语音助理竹间做了蛮多落地的,我们现在觉得在车端或者其他终端有这么一些事情是可以做得,首先是智能语音要有长期记忆,短期记忆。语音理解要提供个性化回应,根据不同用户回应做到千人千面。还有识别身份ID的区分,以及做到主动交互,满足在车舱内对智能语音助手搜索行为的变化。后面三点是要建数据管理平台,我要知道车端终端语音交互侵略怎么样,评价体系怎么样,交互评价体系怎么样。另外还要建开发者生态,快速引入开发者,他的服务放出去,让开发者生态到他的平台上面把语音技能丰富起来。可视化运营平台能力,目前来看大部分在做语音交互场景更多还是以来于Tier1来做,Tier1本身会把它做得偏重,语音本身具有互联网属性和运营属性,我个人认为最终可能还是要回到主机厂自己来做,自己搭建这样的运营平台去做可视化的运营。
最后这是我们对人机交互的理解,首先是听得懂,现在语音助理大部分都能听得懂,至少知道我讲什么,但是连续对话能力比较弱,所以第一层要做到精准理解用户意图,实现连续对话,领域跳转,上下文理解。第二层是能思考,在听得懂同时可以用用户画像标签,多模态交互联动实现主动交互场景。第三层是有温度,当然这个过程当中需要加入情绪情感的技术,加入数字人,情感TTS/声音复刻来做到千人千面的落地应用。
竹间本身提供的是底层平台能力(NLP),基于这个平台能力会有一个应用平台,就是基于交互平台会有一个Bot Factory平台,产生一个应用就是语音助手,目前在智能座舱上还没有非常落地的案例,但是目前在手机厂商,OPPO,华为,小米,VIVO等等都有语音交互的案例,如果有兴趣可以到门外展台跟我们进行交流。
这就是我大概想跟大家分享的内容,谢谢。