您的当前位置:首页正文

多模态表情识别(译文)

来源:独旅网


多模态的情感识别

近年随着科技的发展,激发了人与计算机之间在以前意想不到的交互形式,除了键盘,鼠标,新的人机交互模式也已经产生了,例如声音,姿势,强力反馈等。尽管有了重大的发展,但是对于人类交互一个必须的因素仍然还是被遗忘的,这就是情感。情感在人与人进行交流和交互时扮演着重要的角色,允许人们依靠口头形式来表达自己。对人类感情能力的理解是值得计算机进行应用的。这章对人机交互的新的方法进行了探索,能够使计算机更好的理解用户的情感和来关注用户的表情。我们介绍了在这个领域的基本研究和最近对情感识别的新进展,包括从面部,声音和生理信号来进行研究,不同模式是相互独立的。我们然后对多模态的感情识别所面临的挑战进行了描述,当融合不同模态的信息时,我们主张用概率图模型来完成。我们也讨论了获得可靠的情感数据库的困难,获得情感识别的真相及如何使用未标识的样本。

介绍

或许现在电影未探索人类比Blade Runner(一部电影)强的意义是什么。Tyrell Corporation的格言是―More human than human‖,作为探索人类实验的基础,我们可以通过真正的人,创造的人,或Replicants来进行。Replicants 是机器人,他们被构造的像人类,可以进行工作或进行战争。他们开始可以及时的获取情感(和人类十分相象)但是分辨起来十分困难。伴随着情感,他们开始感觉到压力,他们中的一些人变得十分危险,采取极端暴力的行为来获得自由。幸运的是,Elden Tyrell 博士,Replicants的创造者,在这些模型中安装了一个内置的安全装置:使它们只有4年的寿命。(电影的大致内容是:2019年,洛杉机变成乌烟障气的九反之地.人类制造了与真人无异的复制人为人类工作,但当这些复制人有了思想感情时就要将他们毁灭.人造人虽然生性残暴,却对自己只拥有的四年的生命充满着渴望和留恋.人类不允许这些复制品拥有做正常人的权利,所以必须毁灭这些被定罪为\"妄图成为人类\"的生命.)

从上面的故事我们可以明显的发现对于一个机器(计算机)让它看起来像人(例如,有皮肤,脸盒面部特征,肢体等)是不够的。有些时候还是需要一些本质的东西:能力的获取或情感的表现。此外,机器也必须学会识别人脸,理解情感,能够像人一样与它的人类副本进行交流。机器可能不需要有情感技能,但是人们不可避免它们具有这样的功能,当与人进行交互时,以显示它们的聪明。真正的达到人机智能交互(HCII)的效果是有争议的,这需要计算机能够自然的与用户进行交互,类似于发生在人与人之间的交互。例如,如果一个机器与你谈话但是从来不听你的,它就会看起来很讨厌,类似于有个人和你谈话但不听你的,你就会觉得这个人很讨厌。Reeves and Nass55进行了一些典型的人与人之间的交互实验,将一个人用一台计算机来代替,他们得到的结论是,对于一个智能的交互,必须将基本的人与人之间的问题把握住。

人类彼此之间的交互主要是通过谈话,但是也有通过身体的姿势来强调谈话的某个部分和进行情感表现的。一个新的交互技术能够平稳的向信息交互来发展,需要通过自然的感知模式来完成,包括看,听,和接触。在面对面的交流中,人类同时使用了这些信息途径,将他们组合起来,用一个去补充和提高另一个。交互的信息是大量的压缩的,多模态的形式。典型的,对于一个会话交互模式它的主要完成的任务是人的信息传递,所以对于视觉,凝视,表情和手势等通常作为辅助信息起着重要的作用,另外例如情感,语气,姿势等也常常起到辅助作用。但是多种形式的任务和它们

之间的交互仍然可以量化和科学的解释。需要什么,是人与计算机交流的研究方向,要建立一个面向多模态的―语言‖和―对话‖的框架,使它看起来十分像我们进行交流的框架。

在一些应用中,也许不需要计算机来识别情感。例如,将计算机嵌入到一个自动取款机或飞机上时,它就不需要识别情感。但是有些应用中,计算机将扮演一个社会角色,例如―教师‖,―助手‖或者―共事者‖,这就需要提高它们的功能,使它们能够识别用户的情感。在最近的书中,Picard52给出了一些应用,它有利于计算机对人类情感进行识别。例如,知道了用户的情感,计算机可以变成一个很好的教师。带有情感的语音合成比一个单调的语音更令人高兴。计算机的―Agents‖能够通过用户情感来学习用户的喜好。其它的应用可以帮助人类用户来监测他们的压力水平。在临床应用上,识别一个人无法表达的某个面部表情也许能够帮助及早的诊断心理疾病。

心理学者和工程师都同样在努力通过分析面部表情,声音情绪,姿势和生理信号去理解和获得情感。这个知识能够用来教计算机学会从摄像机中获得的视频图像和从麦克中获得的语音信息中来识别人类的情感。一个自然的通过多模态的人与计算机之间的双向交互描述如图1所示。在这个图中,输入计算机的是一个视觉(视频),从视觉,姿势,手势,面部和嘴角的运动来获得。计算机可以进行姿势识别,手势识别,表情识别和眼睛接触识别等等。同样的,讲话和声音(音频)通过麦克可以作为语言信息进行传达,也就是超语言信息。在输出的一面,计算机可以用一个―agent‖——一个动画脸或者是一个拟人的动画身份出现。这个―agent‖能够通过合成语音与人进行谈话,并在屏幕上显示相应的面部运动和嘴部运动。即使它们没有明确的在图中表示出来,一些其它的形式,例如触觉或生理信号也可以与视频和音频信号来一起联合使用。

语音识别语音影响麦克头部运动计算机面部表情视频摄像机手势识别眼神交流身体姿势生动的Agent语音合成 图1:多模态的人机交互

这章的主要目的是探索人机交互的新方法,能够使计算机更好的明白人类用户情感同时进行表达。特别是,我们集中讨论的问题是将视听作为输入来检测用户的面部表情和声音情绪以及关注程度。通过―情感表达‖我们能够理解当一些刺激事件发生时人类表现出来的一些表情。这些包括典型的表情,例如―笑‖表示的是高兴,或者表示喜欢看到的东西。

我们从基本的研究来入手解决这些问题,这些问题包括什么是情感,它们在人与人进行交互时的重要性和人是如何来表现情感的(第2部分)。这些基本的研究都是为通过计算机自动的进行情感

识别打基础的,并且作为一个模式识别问题来进行研究。接下来,我们回顾了情感表情识别领域的发展,从面部,语音和生理信号等方面来回顾。在这里不同的模式处理是相互独立的(第3部分)。我们也讨论了获得可靠的情感数据库这一难题。获得情感识别的真相及如何使用未标记样本的(第4部分)。

贯穿本章,我们尝试着对下列问题进行了解答和探索:

 通过面部和声音表现出一个人的情感,偏好和关注程度的线索是什么?  如何恰当的用这些线索来训练计算机从音频和视频中来识别人类的情感?  将视听作为联合输入比用单模态作为输入对于情感识别更准确有效吗?  在实际应用中,两种模态可以分别处理吗?  如何收集情感表情的多模态数据库和如何进行标识?

 我们能够用标识的小样本数据和未标识的数据来训练模板进行情感表情识别吗?  要收集什么样的数据?自然的还是人为的?

人类情感的研究

我们只回顾支持本文工作的有关情感的实质是什么?最近的研究提出情感是杂乱的连接着其它功能,例如注意力,感知,记忆,做出的决定和学习等。这个理论对于计算机去识别人类用户的情感,其它相关联的状态和表情是十分有益的。在本章,我们集中考虑情感的自然表达形式,特别是在声音和脸部的表达。

2.1 情感的人机交互

在一些重要的HCI应用中,例如用计算机辅助教学,计算机如果能够理解人类的情感或认知状态将是十分有用的。情感通过视觉,声音或者其它的生物手段来展现。对于这些情感技能的体现就是什么是―智能‖58,25的一部分。现在的计算机已经过能够识别很多内容了,例如它说的是什么及其一些扩展,是谁说的。但是他们完全是在黑暗中的,当说某件事情时没有情感信息。事实上,无论是在讲话中,还是在视频通讯中,人脸表情,姿势,和手势交流对于人们的感受都是一些重要的数据。当人机进行交换时,在进行情感传达时,明确的考虑了如何来识别和表达情感。当发展一个系统的时候,对于情感信息的获得,Bianchi-Berthouze 和Lisetti2定义了3个关键点:化身(进行真实感体验),运动(给它的样本进行映射,体验情感状态),适当的交互(传输情感响应,回应一个识别到的情感状态)。

今天在大多数情况下,如果你进行一个人与人的交互时,用一个计算机来代替一个人,然而它的情感交流就消失了。此外,人们停止交流——我们已经发现一个人对它的机器表现出愤怒的情绪。这个问题的产生是计算机在人类发生高兴,生气,感兴趣或厌恶时计算机没有能力来识别。注意这点,如果一个人忽略这个信息,在我们十分困倦时,继续长时间的胡说,我们不会认为这个人十分聪明。能够进行情感识别是智能52的主要组成部分。计算机目前的影响被消弱。而且,如果我们将一台计算机嵌入到二个或多个人之间(如作为一个沟通的通道),那么相应的情感带宽就可能被减少很多。Email也许是在电子通讯中常常使用的一种手段,但是当我们的想法被转换为数字媒体进行传输时,所有典型的情绪信息都被丢失了。

因此需要研究一种新的方法通过计算机媒介环境来进行交流。当前的计算机媒介沟通几乎都比―在那里,面对面‖的情感带宽要低得多。情感可穿戴的计算机的出现,能够帮助从一个人的生理状态

来感知放大情感信息,但是对于这个改变的一个可能性只是为了进行自然的交流。

2.2 情感的理论

这里有少量的关于情感的定义。一些情感的理论被提出。它们的一些观点无法被验证,直到最近当可以对一些生物信号进行测量时才变得可能。通常,情感是短期的,但是心情却是长期的,性情或者个性也是长期的29。一个特别的心情可能会持续好几天,性情可以持续几个月或几年。最后,情感混乱能够使一个人在这样情绪的影响下,将不再能过正常人的生活。

Darwin14指出情感表达是一种行为学的观点,争论是这种表达是从幼年形成的还是存在于成年时期。在物种起源后,他写了人与动物的情感表达。依据他的理论,情感表达是与生存息息相关的。因为,在人们进行交流时,这些非语言的表达与语言交流一样重要。

James28的观点是情感不是起因但是是有影响的。这种情况出现在我们周围,起因是因为生理信号的改变。依据James的理论,―一个刺激或一组刺激引起了生理上的唤醒,同时伴随着生理上的变化。‖Carl Lange在相同的时间独立的提出了类似的理论。因此这个理论常常被叫做―James-Lange‖情感理论。Cannon5与James相反,他认为情感是第一感觉,然后通过某个确定的行为表现出来。

尽管有许多理论,但是人们以不同程度的方式来进行表达是显而易见的。一个最常见的研究任务是对情感的判断——如何能很好的从声音或脸部等信息来进行情绪表达的观测?相关问题是:这些表达了他们正确的情绪吗?他们描述的令人信服吗?人们如何来很好的隐藏它们的情绪?在类似的任务中,研究者通常用两种不同的方法来描述情感。

一种方法是在离散的范畴内标识情感,也就是人们进行判断是要从指定的词汇列表中进行选择,例如,高兴,恐惧,喜欢,吃惊,伤心等等。伴随着这个方法的一个问题是对于一种刺激可能会产生包含多种混合的情绪,也就是说在选择词汇时也许会受到限制或者要依靠分析来进行选择。

另一种方法是可以采用多种尺度去描述情感。代替从离散的列表中进行选择,观测者可以在几个连续的尺度下对他们观测到的每种刺激下的印象都做出反应,例如,从高兴到不高兴,关注到漠视,简单到复杂等等。两个共同的尺度是valence和arousal。Valence表述的是对刺激做出的反应有正(高兴)和负(不高兴)。例如,高兴是一个正valence,那么厌恶就是反valence。另外一个尺度是arousal或者activation。例如,伤心是一个低的arousal,那么反之吃惊就是一个高的arousal。这样不同的情感标识就可以在二维空间平面上划分为不同的位置,通过这些可以构建一个2D情感模型31。Scholsberg62提出了一种三维模型,除了上面两种尺度外,他增加了一种关注和漠视的尺度。

另外感兴趣的主题是研究者如何从观测者那获得这些数据。一些人采用人为定义的方法来获得,包括请一些专业或非专业的演员进行表演。一些尝试是通过聪明的手段来引起情感反应。例如Ekman用对鼻子施加的压力在观察者的脸上产生厌恶的表情。一些实验者甚至用泼水或没上子弹的枪来引导测试者表现出吃惊的情绪来,还有一些笨拙的技术人员,用粗鲁的方法来使观测者产生恐惧和生气的情绪26。显然,这些方法不是获取数据的有效方法。在学习后表演和自然的表达,Ekman认为这样的表情才是值得信服的。

一个合理的问题必须被考虑,当我们进行多模态情感识别时,有多少信息是脸部的,相对的声音,讲话和身体运动对情绪又做了多少贡献。一些实验者发现通过脸部表情能够做更为正确的判断,产生一个高的可信度,发现基于全部的视听比基于声音所做出的决定更加可信38

,17

。Ekman17发现

对面部表情,声音和身体的暗示给出的对应权重是依靠判断的任务和行为发生的条件来产生。

大多数信息的全部问题都是通过―单独‖通道来进行传递的,这样就不可避免的会照成一些误解。

没有证据显示在真实社会中人与人进行交流时,会选择的关注交谈的人的脸,身体,声音或者通过这些渠道进行简单叠加得到的信息。所以,对行为做出指导中心思想是通过多渠道的沟通来完成。例如,脸,身体,声音等的一些确定部分是更为自然的,而其他部分更容易监视和控制。这就使观测者能够有选择性的来关注那些特殊通道甚至是一类特殊的信息。(例如暗示的情感,诡计或认知行为),这也许需要多个通道。调查者未探索这种可能性或不同个体关注不同类型信息的可能性。

面向人机交互的情感表达识别

在人与人进行交流时,情感的重要性的证据为进行工程和计算机科学的研究提供了基础,发展了一个自动的方法用计算机来识别情感表达。作为人机智能交互的一个目标来实现。大多数研究者用模式识别的方法来完成情感识别。用不同形式的情感识别模型作为输入。下面我们回顾一些现有的工作。

3.1. 面部表情识别的研究

从70年代初期开始,Paul Ekman和他的同志们就开始对人类的面部表情展开研究18。他们发现证据来支持面部表情的普遍性。这些―普遍的面部表情‖可以表示为高兴,伤心,生气,害怕,吃惊和压恶。他们研究在不同文化背景下面部表情,发现大多数人的表情和情绪识别都表现在脸上。然而,他们也对于不同的社会环境下的不同面部表情是通过―显示规则‖来支配的。例如对于日本人和美国人表现微笑表情时,虽然是对同一刺激做出的反应,但是,日本的观测者更不情愿的表达他们真正的表情。Matsumoto36提出了第七种普遍的面部表情:轻蔑。婴儿似乎不需要被教,就能够表现出很宽范围的面部表情,所以认为这些表情是天生的27。

Ekman和Friesen19提出了面部动作编码系统(FACS)用来编码面部表情,这里对于人脸的面部运动可以看作是通过一组运动单元(AUs)来完成的。每个AU由一些相关的肌肉作为基础。每种表情可以通过一些Aus的组合来进行表达。面部表情的编码系统可以通过一组指定规则来手动完成。它的输入仍然是面部表情的图像,通常是表情的最高峰,这个过程是十分耗时的。

Ekman的工作激发了许多研究人员的灵感,他们对面部表情的分析都采用图像和视频处理的手段来完成。通过跟踪面部特征和衡量整个面部的运动,他们尝试对不同的面部表情进行分类。当前对于面部表情分析和识别工作35,65,32,3,56,20,44,33,42,34,43,12,6,10都是用这些―基本表情‖或它们的一个子类来表示的。在最近关于这方面的研究21

,47,48

,研究人员把重点都放在了自动的面部表情识别上。

对于面部表情的计算机辅助研究直到90年代才开始。Mase35用光流(OF)的方法来识别面部表情。他也是第一个用图像处理技术来进行表情识别的人。Lanitis等32用可变形状和外观模型来对图像编码,用来进行身份识别,姿势恢复,性别识别和表情识别。Black和Yacoob3用图像运动的局部参数模型来恢复非刚性的运动。一旦恢复,这些参数将反馈给一个基于规则的分类器,能够识别六种基本的面部表情。Yacoob和Davis68通过光流的计算和用类似规则来分类六种面部表情。Rosenblum等56也采用区域的光流方法对人脸进行计算,然后应用径向基函数神经网络来对表情进行分类。Essa和Pentland20也用基于区域的光流方法去识别表情。Otsuka和Ohya44首先计算光流,然后计算它们的2D Fourier转换系数,最后用HMM获得的特征向量来进行表情分类。这个训练系统能够识别六种中的一种,时间接近于实时(大约10Hz)。此外,他们用跟踪运动来控制一个Kabuki动画系统45的面部表情。和这个类似的方法,Lien33采用不同的特征来完成。Nefian和Hayes42提出了一种深入的HMM方法来进行人脸识别,在DCT系数的基础上采用一组有效的观测向量来完成该识别。Martinez34介绍

了一种在不同光照条件下的基于正面人脸图像的识别检索方法。Bayesian方法被采用,发现能够在局部观测和局部特征学习之间建立很好的匹配,同时HMM被发现对于识别也能够取得很好的效果,甚至在学习阶段,一个新的条件与先前的条件不能很好的对应时也能取得很好的效果。Oliver等43采用底层的人脸跟踪来提取嘴部形状特征,并且用他们作为HMM的输入来完成表情识别系统(能够认可中性脸,高兴,悲伤和张嘴)。Chen6用一组静态分类器进行表情识别。Cohen等12对面部表情建立了分类表,有两类组成:动态和静态分类。静态分类器基于对那一帧的跟踪结果将视频图像中的一帧分为表情中的一类。在这里,作者用通过脸部跟踪系统得到的12个运动单元作为输入,采用Bayesian网络分类器来完成分类。同时作者利用的数据包括未标识的数据和标识过的数据10

,11

。对

于动态分类,他们用了多层的HMM分类器结合时间信息,并且不但允许对一个视频段对应的表情进行分类,类似前面提到的HMM分类器,而且在不采用启发式分割方法的前提下,还能够自动的分割一个任意长度包含不同表情段的序列。

这些方法与普通的认识方法是类似的,他们首先从图像中提取一些特征,然后将这些特征反馈给一个分类系统,最后输出的结果是事先预定的情感分类的一种。他们的主要不同点在于从视频图像中的特征提取或视频图像到分类情感的处理过程。视频处理分成二类。一种是―基于特征的‖,这一类试图检测和跟踪一些特殊的特征,例如嘴角,眼眉等;另外一种方法是―基于区域的‖,在这种方法中面部运动是通过脸上的固定区域来衡量的,例如眼睛/眉毛和嘴部区域。人们用不同的分类算法来分类这些运动。在表1中,我们比较了几种表情识别算法。大体上,这些算法运行的都很好,如Bassili1报道的训练识别率大约是87%。

表1:表情识别算法的比较

与上面描述的分类方法不同的方法,Ueki等65提取AUs,并且用神经网络(NN)来分析情感,用恒等映射网将17种AUs映射到2维空间上,与2D心理情感模型类似。随后,Morishima39提出了一种3D情感模型,目的是处理两种情感之间的转换,要求与3D心理情感模型62相关。

另外感兴趣的问题是如何将六种基本表情中容易混淆的表情进行分类。Ekman提出在判别学习中,生气和压恶的表情容易被混淆,害怕和惊讶的表情也容易被混淆。产生混淆的原因是因为他们共享了许多类似的面部运动

19

。惊讶有时候也被错误的认为是感兴趣,但是他们不是相反的一对。

,68,12

在计算机进行识别研究时,这些混淆是要被观测的3

3.2 声音情绪识别的研究

通过声音进行交流我们可有传递不同的信息。如果我们忽略这些,信息只是说和考虑的只是口头(例如单词)部分,我们也许会错过相关表达的重要部分,我们甚至会完全误解信息所表达的意义。然而,与这类处理相反的是,最近这方面有了重大的发展,对于有情绪的语音处理还是没有广泛的研究。

从30年代开始,对带有情绪的语音研究比表情识别的研究历史要长很多。大多数关于带有情绪的语音研究40

,9,13,16,30,59,61

采用―Prosodic‖信息,他包括声调,持续时间,和语气的强度57。Williams

和Stevens66研究真实情感语音的声谱图并且与生成的语音进行比较。他们发现与生成的数据是类似的。Murray和Arnott40回顾了在人类带有情绪声音方面的调查结果,他们也构建了一个通过规则的合成系统在合成语音时来混合情绪

41

。一些人集中研究的是对人类含有情绪的语音的分析一些研

究的是识别带情绪语音的能力。这些研究对于当前的工作都是十分有用的。

对于通过计算机来识别人类带有情绪的语音研究比通过机器来识别表情的研究要少的多。Chiu等9从语音中提取5个特征用多层神经网进行分类。对于20个测试的句子,他们能够准确的标识出三类。Dellaert等16用17个特征和比较不同的分类算法,及其特征选择方法。他们对于4类和每类5个演讲者说50个短句进行分类,获得了79.5%的正确率。Petrushin51对人和机器在讲话中的情感识别进行了对比,获得了类似的识别率(65%左右)。在他们的研究中,30个人说4个句子,每个句子重复5次,代表一类情绪。Scherer61完成了一个大尺度的研究通过14个专业演员。在他的研究中,从说话总提取了29个特征,通过他的研究发现,人类通过纯粹的声音来进行情感识别的正确率大概是60%。他指出―悲伤和生气最容易被识别,接下来是害怕和高兴,厌恶是最坏的‖。

Chen6提出了一种基于规则的方用来对输入的音频数据进行分类,能将其分为下列几类情绪:高兴,伤心,害怕,生气,惊讶和厌恶。输入的数据包括3个人,一个说的是西班牙语,另一说的是僧伽罗语。这些语言的选择是主观的判断不受语言环境的影响。每个演讲者对于每种情绪说6个不同的句子,并且这些句子的内容在大部分情况下所讲的是一类的。他们其中的一些可以被适用于两种不同的类。从语音信号的声调,强度和声调的等高线来估计声音的特征,然后用一些规定好的规则来进行分类。

虽然在过去有些人用更多的分类,但是最近的研究几乎都用Ekman提出的六种基本情绪分类,有时用这六种基本分类是不恰当的。用这六类对声音进行分类,有时候不能清楚的表示出―普遍的‖情感特征。表2给出了Murray和arnott40提出的人类声音影响的总结。这个表结合这些情感给出了大多数的性质特征。列出了与中立声音之间的关系。

表2:人类声音表现与中立声音之间的关系

3.3 从生理信号中进行情感识别

情感大多数趋于外在的物理表现,它也有内在的感知和想法,但是对这些内在人类拥有的情感

处理过程往往不被人所知。尽管如此,一些生理过程能够被人们自然的识别出来。一个陌生人与你握手能够感觉到他的手发粘(这与皮肤传导有关);一个离你很近的朋友能够感觉到你的心跳等等。

在机器,娱乐和人机交互

53

中对于情感的生理模式识别是重要的应用。生理模式识别能够潜在

的帮助我们用来评定和分析压力,生气及其它情绪对健康的影响程度。对于沮丧,焦急和长时间的生气这些情感状况将会阻止免疫系统的工作,使人们容易感染疾病,并且从手术和疾病中恢复的很慢。当用户与机器进行交互时,通过对生理学信号的改变也能检查出压力信号的出现,帮助用来检测产生不必要的愤怒或挫折的原因。这些信息可以帮助开发者来从新设计和提高他们的技术。

在情感理论中一个大的问题是对于每种情感是否都明显的伴随着一个生理学模式4。对于生理学的肌肉运动可以表现一个面部表情但是也不可能永远伴随着一个真实的潜在的情感状态。对于身体感觉和外在表现出来的表情之间的关系仍然是一个尚未解决的研究领域,有着争论的历史。在历史上,James认为情绪的出现会伴随着身体上的改变,例如手出汗或心跳加快

28

。Cannon5和

Schachter60对这个观点有不同的意见,他们的观点是生理的改变不一定就一定能完全的用来区分情绪。Schachter60的观点是,生理的响应,例如当手出汗和心跳加快时,通知大脑,我们会被唤醒然后大脑必须分析状况,对于一个情绪例如害怕或喜欢,我们在使用它之前就已经能够标识了。

因为这些杰出的工作,有一个争论就是情绪除了起简单的激励作用外是否还伴随着特殊的生理改变。Winton等67第一个发现了重大的不同在自律的神经系统中信号依照少数的情绪分类或度量来完成,但是他们没有探讨自动分类。Fridlund和Izard22第一个采用模式识别方法(线性判别式)来从生理特征对情感进行分类,训练率正确率在38-51%(通过交叉确认),他是对4种不同的人脸表情进行分类的(高兴,伤心,生气,害怕),给出了四种面部肌动电流图的信号。Picard等星期的会议这一单一主题下的情感表达上。

53

通过采

用模式识别技术对一组含有八个情绪(包括中性)的生理模式进行分类,而且重心集中在跨越许多

多模态的情感识别方法

在对表情识别和带有情感的语音识别进行研究时,它们在很大程度上彼此是相互独立的。在上述对表情识别的研究中,用到的仍然是图像或视频序列,它们的主题仅仅是展现面部表情而不包括说话。类似的,对于带有情感的语音识别利用到的也仅仅是声音信息。但是会有这样的情况发生,在同一时间,人们的声音和面部表情都发生改变。例如,―他带有微笑的说嗨‖。纯粹的表情识别也许会失败,因为他的嘴部运动也许不符合纯粹―微笑‖的描述。在实际情况中,对于计算机能够识别情感表情,这些情况必须被考虑。

4.1 相关研究

近年来对于语音识别的研究趋向于将语音与视频中含有的暗示结合起来进行研究

54

。当背景噪

声的声音的波形变得十分杂乱时,可以从嘴唇的运动来辅助提高声音的识别率。在进行声音识别时,嘴唇的运动和声音是紧密结合在一起的。对于情感表示的识别,这个联系不是那么紧密。很少有人利用这两种模态来识别情感。

Pelachaud等49构建了一个系统,在进行语音合成时能够产生一个生动的面部表情。这个工作仅仅强调了合成而不是情感的识别。De Silva和Ng15提出了一种基于规则的方法对输入的影音识别进行单一分类,将其分为六类:高兴,伤心,害怕,生气,惊讶和厌恶。对于声频和视频是分别来处理的。他们用光流检测位移和一些关键面部特征的速率(例如嘴角,眼眉的内角)。Medan等

37

用提出的方法来进行估计语音信号,声调和声调的等高线。一个最近邻近的方法被用来进行提取面部特征的分类,同时采用HMM方法对估计声音特征进行分类,可以得到情感分类的一类。对于每一个主题,分类的结果要被描绘成两个图,在这个图的基础上,采用一些规则对多输入的影音进行情感分类。

Chen和Huang7提出一组算法对输入的影音数据进行单一的分类。基本的情感分类包括:高兴,伤心,厌恶,害怕,生气和惊讶。他们从五个人中进行样本收集的,在说话前或者说话后,采用一种恰当的语音情绪,通过做一个恰当的面部表情来表现六种基本情感,每个表情做六次。他们的每种单一情绪序列都开始和终止于一个中性表情。考虑到上面的假设,作者对连续的样本采用了单模态分类方法。

得出的结论是,最惊讶的问题是多模态的情感识别问题。虽然最近对于视频和声频的处理方法有了很大的发展,使对人类表情状况的多模态分析变得容易了。但是只有少数的研究在努力的进行多模态情感分析。在未来,还没有研究的目标是结合所有非语言形式到一个单系统中,这个系统是对人类行为的情感进行分析的。

4.2 用概率图模型来混合多模态信息

迄今为止,对于多模态数据处理的一个通常处理方法就是对多种数据分别进行处理,然后只是在最后阶段进行组合。但是这样得到的结果几乎都是错误的;人们用声频和视频信号进行补充和重复处理。Chen等8做了这个实验。目的是对于多样的输入信号进行一个类似于人的多模态分析,它是通过不同的传感器来完成的。信号不能够是相互独立,在最后的分析中在自由环境下不能被组合。但是一个相反的条件是,他们输入的数据必须在一个联合的特征空间中进行处理,并且依靠环境模型来完成。实际上,除上下文感知问题和对于联合的多感知信息的依靠环境模型外,另外一个需要被考虑的问题是联合特征空间的大小,它能够忍受的最大维度,不同的特征格式,和时间。紧密联合多感知数据融合的一个潜在的方法是发展一种适当的依靠上下文的描述方法,例如Pan等46提出的Bayesian推论方法。

如果我们考虑声频和视频信号处理,噪音和部分的输入数据也要被考虑。一个多模态系统应该能够处理这些有缺点的数据,通过结合输入的数据不断的进行修改,得到最后的结果。达到这个目的的一个方法是,Pantic和Rothkrantz48考虑了人类非语言通信信号的时间实体与时间尺度维数进行对比。通过考虑前面观测到的数据(时间尺度)得到当前的数据,它是通过有用的观测通道来完成(时间实体)。一个统计预测和它的概率能够从这个信息中得到,它能够用来处理故障/一个特殊传感器的错误,并且可以显示当前的动作/反映。概率图模型被使用,例如HMM(包括它们不同等级的变量),Bayesian网络,和动态Bayesian网络都能很好的适应不同来源的信息融合。这些模型都可以通过概率论来处理噪声特征,时间信息和少见的特征值。基于分层的HMM系统户的意图,行为识别甚至用声频和视频信息在视频中进行检测23。

这些研究的成果体现在可以用概率图模型对视频和视频进行融合来检测不连续的事件。所以我们提出了Bayesian网络的拓扑结构从声音和表情中来识别情感,如图2所示。当网络显示是静态时,它能够通过简单的方法扩展为动态的Bayesian网络。网络的拓扑结构用概率的方法联合两种模态。顶点是一个类变量(识别的情感表示)。它受表情识别,声音识别影响。识别的关键问题是要有个情感的含义,通过上下文系统能够被执行(如果这个是可用的)。带有感情的声音识别通过从跟踪的一

12

对于表情

识别得到了很好的结果。动态Bayesian网络和HMM变量24也能融合各种来源的信息,用在识别用

个人的音频中提取的声频特征来完成。表情识别是通过从视频中跟踪的表情特征来完成的。但是识别也是受到变化来影响的,例如一个人说话或者没说话。在一个人说话时的识别用到视觉暗示(嘴部运动)和声音特征(用一个类似于Garg等当声频中含有噪声或者人脸跟踪丢了。

情感上下文24

提到的技术)来完成。提出的网络的参数可以从样

本中学习得到,或者手工设置一些变量。甚至当一些信息缺少时也可以来推断人的情感表情,例如

面部表情声音表达键盘讲话否?面部情感1面部情感N嘴部语音特征 图2:对于双峰的情感识别的Bayesian网络拓扑结构

对于情感识别的另一个问题是在一般情况下很难解决的是一个人的行为归属,这些行为是由他/她的个性,文化,社会关系,当时的心情和当时的环境来决定的。对于这些问题可以采用机器学习的方法来帮助解决:要胜于用纯粹的规则来解释人的行为。我们可以潜在的使用依靠应用模型,用户模型,环境模型的规则在感知的环境中来观测用户的行为

50

。使用概率图模型的另一优点是:能

够有很好的现有算法来适应模型,当学习一个新的模型时可以采用先验知识来完成。例如,情感识别的一个先验模型的训练是基于一个确定的用户来完成的,它可以作为另外一个用户进行模型学习时的一个新起点或者是相同用户在不同环境下的新起点。虽然上下文感知和时间需要学习恰当的规则来得到,这是一个重要的问题,但是许多好处能够从一个恰当的具有感知的HCI工具中得到。

将情感识别的多模态信息进行融合是一个重要的问题,这与其它方面的问题是同等重要的。困难的问题是如何来获得真实的数据和这些获得的数据能够真实的反映一个详细的情感状态。即使这个数据不容易被标识(例如,反常的强烈的情绪,例如激动的情绪),在大部分真实的情况——情感的出现——是很难被构建的。我们在下面章节详细的讨论了这些问题。

4.3 面向情感识别的多模态数据的采集

一般情况下,情感表达的目的是能够在正常的状态下检测出人的情感状态。但是,如同一些摄影师得到结论一样,获得一个真实的微笑是很有挑战的一件事情。叫一个人微笑时,我们通常不能得到一个相同的图像来作为可信的微笑。造成这种情况的基本原因是,人们通常不能感觉到高兴,所以他的微笑是假的,这与真正的微笑在许多细节上是十分不同的。

Picard等53列出了5个原因,它们将影响情感数据的采集:

 自发的挑战伪装的: 情感是通过一个状态或刺激得到的还是通过外界控制得到的?

 实验设置挑战真实世界:这个数据是通过实验得到的,还是在平常的环境中得到的?

 表达挑战感觉:强调的是外部表达还是内部感觉?

 公开的记录挑战隐藏的记录:人们意识到他已经被记录了吗?

 情感的目的挑战其它的目的:人们知道他是实验的一部分吗?实验是关于情感的。

注意这些原因不是必须独立的。大部分自然发生的能够暗示着一个人感觉到的内在情感(感觉),当一个人在一个普通的环境下(真实世界),情感是自然产生的。同样,一个人不知道他已经被记录了(隐藏记录)和他是实验的一部分(其它目的)。这样的数据通常是不可能得到的,因为它是秘密的和偶尔发生的。作为研究,一些研究者53

,64

试图用构造一个类似于自然环境的实验环境。Picard

等53用一个伪装的情况来收集数据,采取的方式是接近于真实世界(构建一个舒适平常的工作环境),基于感觉,公开的记录和情感目的的。获得数据的唯一关键问题是人们要努力的表现出每种情感的内在感觉。Sebe等

64

更多感兴趣的事情是,收集自发的情感数据。他们通过隐藏的摄像机(隐藏记录)设置了一个远程视频设备(实验设置),用来播放一些当前的电影片断。这个设备的主要优点

是它能够自然的引起人们的注意并且通过不同类型的视频来暗中获得人们的情感——例如恐怖片能得到害怕的感觉,喜剧片能得到高兴的感觉等等。

在选择面部状态时,是用伪装的还是自然的表情,这个问题引起了激烈的争论用的吗。

当记录可信(自然的)情感时,有些方面必须被考虑

64

17

。实验者和一

些情感理论家争论的是,自然的表情是面部情感的唯一―正确‖的表达吗。因此这样的状态才是唯一有

。不是所有人表达情感都是一样的;由

于个人的,家庭的,文化的原因,一些人用特殊的方法表达情感。这种状况下的可信情感被记录(例如实验设置),但是他们常常是不正常的和假的。如果一个人知道了他在被记录(公开记录),他所表现出来的情感也许就不再是自然的了。即使如果一个人不知道他在被记录(隐藏记录),由于实验室的情形也使得他不能自然的表现出情感来。在科学家或其它权威人士(表情目的)的指导下,人们尝试着做出恰当的表演,这样情感表达就可以被伪装或控制。另外,只能得到几种普遍的情感并且他们是可以在实验室中通过刺激得到。

另一方面,伪装的表情可以作为替代的选择,在随后提供可靠的维护。增加对脸部的了解,建立的基础是大部分采取自然的观测,对于自然的面部表情,已经有大量的方法用来衡量人脸。相同的情况也发生在语音分析上。这些衡量技术能够用来确定是否有情感行为发生获得在给出的实例中有什么样的情感发生了。这样面部积分(facial scoring)提供了一个可靠的刺激评判标准,这在这个领域中是十分重要的。另外,伪装是可以被指导的,伪装一个特殊的情感,通过运动特定的肌肉,就能够得到想要得到的情感。这样,实验的控制就努力在刺激上,并且,实验的原理和观测者是相互关联的,能够在进行选择时起到分析和指导作用。

有个问题是需要注意的,伪装和自然的行为两者间的区别与人为和自然发生两者间的区别不是直接平行的。虽然伪装是通过人为定义的,但是自然的行为也许是自然的,还有可能不是自然的17。当由于自身原因导致的行为,他们自然发生的行为是自然的。在实验室中出现的自然行为可能是一些有典型的自然行为,或者是令人信服的。如果出现的环境是唯一的,并且与已知的一些现实生活事件不相关的话,所表现出的自然行为就可能是人为的了。

从上面的讨论中可以知道,只要可信的情感是存在的,我们就可以进行分析。伪装的表情可以在一个受限制的环境下用来进行替换,他们大部分用来作为可信表情的基准。

4.4 对于情感识别中未标识的样本利用

像前面章节所指出的,收集情感表达数据是一个十分困难的任务。标识这些数据增加了额外的挑战,它是费时,费力的,而且还会有错误的倾向。另外,一个情感表达识别系统它要在一个真实的环境中,能够容易的获得一个丰富的情感,但是不能够对这些数据进行手工标注。如果计算机不断的询问一个用户的情感,我们可以十分确定的是最终返回的将是生气或烦恼。所以,利用几乎没有用的标识数据和丰富的未标识数据将是十分有用的构造方法。在这标识的数据是一个用户的情感状态(表情)。

概率图模型再次被作为理想的方法来处理这类数据。用有效和收敛的算法可以处理在常规下的错误数据和特殊情况下的未标识数据。Coen等

11

介绍了采用未标识数据进行表情识别,他通过

Bayesian网络来合并标识和未标识数据。但是,采用这种方法时,当下面情况发生时是值得注意的。当是一个纯粹惊讶表情出现时(标识的数据),如果增加一些标识的样本就能够提高分类效果,但是增加一些未标识的样本将降低分类效果。Cohen等11解释产生这样有害的原因是因为假定的分类器的模型与分配产生的数据不匹配了。他们提出了一个面向Bayesian网络空间的随机搜索,利用未标识的样本来使分类器收敛。

得出结论,在未来的研究中需要利用最大的未标识样本来解决情感识别问题,并且可以清楚的知道这类方法将是十分有效的。

讨论与结论

正如Salovey和Maryer58和Goleman25所说的一样,情感工具是―智能‖的重要组成部分。最近科学研究发现情感能力在人类智能中扮演重要的角色,同时也是人机交互模仿人与人之间交换的一种手段。情感在早期的机器智能研究中没有被重视,但是它已经逐渐的成为一个重要的研究领域了。

情感几乎调节了人类通讯的所有模态——面部表情,姿势,手势,音调,选择的用词,呼吸和皮肤温度等等。情感对改变信息起很重要的作用:一些时候说什么不重要,但是如何说的却很重要。人脸在进行情感沟通时是可见的部分,但是当与声音和其它表情表达方式进行比较时,可以发现他们也十分容易受不同的社会条件影响。Picard52注意到,当将多种模态进行合并时,识别效率是十分精确的,信息包括用户的环境,状态,目的和偏爱。低水平的特征合并,高水平的推理,和自然语言的处理很有可能得到一个很好的表情推论。考虑所有这些因素,Reeves和Nass55和Pentland50坚信多模态的基于上下文感知的人机交互很有可能成为人类智能研究的一个重要研究领域。这个领域的发展不仅能够改变专业人员对计算机的使用也能大多数消费者对这个技术感兴趣。

正如这章我们讨论的和Pantic和Rothkrantz48所提出的。虽然视频和声频处理,模式识别,计算机视觉和情感计算技术都有了很大的进展,但是实现一个非语言表达的一个情感状态,它需要是一个鲁棒的,多模态的,适应的,基于上下文感知的分析的方法,离真实世界还是很远的。现在,研究人员必须面对在依靠个体和上下文人类行为缺乏很好理解的时候,能够将多传感器和相关的特征很好的结合起来。此外,对于不同的社会背景和民族这些问题也必须要考虑。基于上下文的感知多模态系统支持机器与人的交互,但是不能涉及用户的隐私。计算机技术,尤其是情感监控工具被看作为是一种―big brother‖工具。正如Schneiderman63所说,大部分的人对于无处不在的计算表现出恐惧。另外一个重要的因素被提到,HCI系统将学习我们的交互方式,相关动作,我们的社会和文化特征。如果对于未来围绕在我们周围的HCI系统,对于所有的系统我们都要进行分别训练,那么很明显,它的效率是低下的和令人讨厌的。解决这个问题的一种方法是正如我们这章所提到的,

将未标识的样本进行合并。此外,系统本身也能够监测人类非语言表达的行为,并且去适应当前的用户,和适应他当前的环境。

通过这章的叙述,我们希望在未来多模态的上下文感知系统能够得到发展,它将是个智能的,有知觉的,能够识别上下文的一个系统。能够适应他们的用户,能够理解他们的感受是什么,并且能做出恰当的响应。在某种意义上,这些系统将是十分友好的,像Blade Runner中的Replicants一样。

参考文献

[1]. J.N. Bassili. Emotion recognition: The role of facial movement and the relative importance of upper and lower

areas of the face. Journal of Personality and Social Psychology, 37(11): 2049-2058, 1979.

[2]. N. Bianchi-Berthouze and C. Lisetti. Modeling multimodal expression of user’s affective subjective experience.

User Modeling and User-Adapted Interaction, 12:49-84, 2002.

[3]. M.J. Black and Y. Yacoob. Tracking and recognizing rigid and non-rigid facial motions using local parametric

models of image motion. In Proc. International Conf. on Computer Vision, pages 374-381, 1995.

[4]. J.T. Cacioppo and L.G. Tassinary. Inferring psychological significance from physiological signals. American

Psychologist, 45:16-28, 1990.

[5]. W.B. Cannon. The James-Lange theory of emotion: A critical examination and an alternative theory.

American Journal of Psychology, 39:106-124, 1927.

[6]. L.S. Chen. Joint processing of audio-visual information for the recognition of emotional expressions in

human-computer interaction. PhD thesis, University of Illinois at Urbana-Champaign, Dept. of Electrical Engineering, 2000.

[7]. L.S. Chen and T.S. Huang. Emotional expressions in audiovisual human computer interaction. In Proc.

International Conference on Multimedia and Expo (ICME), pages 423-426, 2000.

[8]. L.S. Chen, H. Tao, T.S. Huang, T. Miyasato, and R. Nakatsu. Emotion recognition from audiovisual

information. In Proc. IEEE Workshop on Multimedia Signal Processing, pages 83-88, 1998.

[9]. C.C. Chiu, Y.L. Chang, and Y.J. Lai. The analysis and recognition of human vocal emotions. In Proc.

International Computer Symposium, pages 83-88, 1994.

[10]. I. Cohen, N. Sebe, F. Cozman, M. Cirelo, and T.S. Huang. Learning bayesian network classifiers for facial

expression recognition using both labeled and unlabeled data. In Proc. Conf. on Computer Vision and Pattern Recognition, volume 1, pages 595–601, 2003.

[11]. I. Cohen, N. Sebe, F. Cozman, M. Cirelo, and T.S. Huang. Semi-supervised learning of classifiers: Theory,

algorithms, and applications to human-computer interaction. IEEE Trans. on Pattern Analysis and Machine Intelligence, to appear, 2004.

[12]. I. Cohen, N. Sebe, A. Garg, L. Chen, and T.S. Huang. Facial expression recognition from video sequences:

Temporal and static modeling. Computer Vision and Image Understanding, 91(1-2):160-187, 2003.

[13]. R. Cowie and E. Douglas-Cowie. Automatic statistical analysis of the signal and prosodic signs of emotion in

speech. In Proc. International Conf. on Spoken Language Processing, pages 1989-1992, 1996.

[14]. C. Darwin. The Expression of the Emotions in Man and Animals. John Murray, London, 2nd edition, 1890. [15]. L.C. De Silva and P.C Ng. Bimodal emotion recognition. In Proc. Automatic Face and Gesture Recognition,

pages 332-335, 2000.

[16]. F. Dellaert, T. Polzin, and A. Waibel. Recognizing emotion in speech. In Proc. International Conf. on Spoken

Language Processing, pages 1970-1973, 1996.

[17]. P. Ekman, editor. Emotion in the Human Face. Cambridge University Press, New York, NY, 2nd edition,

1982.

[18]. P. Ekman. Strong evidence for universals in facial expressions: A reply to Russell’s mistaken critique.

Psychological Bulletin, 115(2): 268-287, 1994.

[19]. P. Ekman and W.V. Friesen. Facial Action Coding System: Investigator’s Guide. Consulting Psychologists

Press, 1978.

[20]. I.A. Essa and A.P. Pentland. Coding, analysis, interpretation, and recognition of facial expressions. IEEE

Trans. on Pattern Analysis and Machine Intelligence, 19(7): 757-763, 1997.

[21]. B. Fasel and J. Luettin. Automatic facial expression analysis: A survey. Pattern Recognition, 36:259-275,

2003.

[22]. A. Fridlund and C. Izard. Electromyographic studies of facial expressions of emotions and patterns of emotion.

In J. Cacioppo and R. Petty, editors, Social Psychophysiology: A Sourcebook, pages 243–286, 1983. [23]. A. Garg, M. Naphade, and T.S. Huang. Modeling video using input/output markov models with application to

multi-modal event detection. In B. Furht, O. Marques, and B. Furht, editors, Handbook of Video Databases: Design and Applications, 2003.

[24]. A. Garg, V. Pavlovic, and J. Rehg. Boosted learning in dynamic Bayesian networks for multimodal speaker

detection. Proceedings of the IEEE, 91(9):1355–1369, 2003. [25]. D. Goleman. Emotional Intelligence. Bantam Books, 1995.

[26]. E. Hilgard, R.C. Atkinson, and R.L. Hilgard. Introduction to Psychology. Harcourt Brace Jovanovich, New

York, NY, 5th edition, 1971.

[27]. C.E. Izard. Innate and universal facial expressions: Evidence from developmental and cross-cultural research.

Psychological Bulletin, 115(2): 288–299, 1994.

[28]. W. James. The Principles of Psychology. Henry Holt, New York, NY, 1890.

[29]. J.M. Jenkins, K. Oatley, and N.L. Stein, editors. Human Emotions: A Reader. Blackwell Publishers, Malden,

MA, 1998.

[30]. T. Johnstone. Emotional speech elicited using computer games. In Proc. International Conf. on Spoken

Language Processing, pages 1985-1988, 1996.

[31]. P. Lang. The emotion probe: Studies of motivation and attention. American Psychologist, 50(5): 372-385,

1995.

[32]. A. Lanitis, C.J. Taylor, and T.F. Cootes. A unified approach to coding and interpreting face images. In Proc.

International Conf. on Computer Vision, pages 368–373, 1995.

[33]. J. Lien. Automatic recognition of facial expressions using hidden Markov models and estimation of expression

intensity. PhD thesis, Carnegie Mellon University, 1998.

[34]. A Martinez. Face image retrieval using HMMs. In IEEE Workshop on Content-based Access of Images and

Video Libraries, pages 35–39, 1999.

[35]. K. Mase. Recognition of facial expression from optical flow. IEICE Trans., E74(10):3474–3483, 1991. [36]. D. Matsumoto. Cultural influences on judgments of facial expressions of emotion. In Proc. ATR Symposium

on Face and Object Recognition, pages 13–15, 1998.

[37]. Y. Medan, E. Yair, and D. Chazan. Super resolution pitch determination of speech signals. IEEE Trans. on

Signal Processing, 39:40–48, 1991.

[38]. A. Mehrabian. Communication without words. Psychology Today, 2(4):53–56, 1968.

[39]. S. Morishima. Emotion model: A criterion for recognition, synthesis and compression of face and emotion. In

Proc. Automatic Face and Gesture Recognition, pages 284–289, 1995.

[40]. I.R. Murray and J.L. Arnott. Toward the simulation of emotion in synthetic speech: A review of the literature of

human vocal emotion. Journal of the Acoustic Society of America, 93(2):1097–1108, 1993.

[41]. I.R. Murray and J.L. Arnott. Synthesizing emotions in speech: Is it time to get excited? In Proc. International

Conf. on Spoken Language Processing, pages 1816–1819, 1996.

[42]. A. Nefian and M. Hayes. Face recognition using an embedded HMM. In IEEE Conf. on Audio and

Video-based Biometric Person Authentication, pages 19–24, 1999.

[43]. 43. N. Oliver, A. Pentland, and F. B´erard. LAFTER: A real-time face and lips tracker with facial expression

recognition. Pattern Recognition, 33:1369-1382, 2000.

[44]. T. Otsuka and J. Ohya. Recognizing multiple persons’ facial expressions using HMM based on automatic

extraction of significant frames from image sequences. In Proc. International Conf. on Image Processing, pages 546-549, 1997.

[45]. T. Otsuka and J. Ohya. A study of transformation of facial expressions based on expression recognition from

temporal image sequences. Technical report, Institute of Electronic, Information, and Communications Engineers (IEICE), 1997.

[46]. H. Pan, Z.P. Liang, T.J. Anastasio, and T.S. Huang. Exploiting the dependencies in information fusion. In

Proc. Conf. on Computer Vision and Pattern Recognition, volume 2, pages 407-412, 1999.

[47]. M. Pantic and L.J.M. Rothkrantz. Automatic analysis of facial expressions: The state of the art. IEEE Trans.

on Pattern Analysis and Machine Intelligence, 22(12):1424– 1445, 2000.

[48]. M. Pantic and L.J.M. Rothkrantz. Toward an affect-sensitive multimodal human-computer interaction.

Proceedings of the IEEE, 91(9): 1370-1390, 2003.

[49]. C. Pelachaud, N. Badler, and M. Steedman. Generating facial expression for speech. Cognitive Science,

20:1-46, 1996.

[50]. A. Pentland. Looking at people. Communications of the ACM, 43(3): 35-44, 2000.

[51]. V.A. Petrushin. How well can people and computers recognize emotions in speech? In Proc. AAAI Fall

Symposium, pages 141-145, 1998.

[52]. R W. Picard. Affective Computing. MIT Press, Cambridge, MA, 1997.

[53]. R.W. Picard, E. Vyzas, and J. Healey. Toward machine emotional intelligence: Analysis of affective

physiological state. IEEE Trans. on Pattern Analysis and Machine Intelligence, 23(10): 1175-1191, 2001. [54]. G. Potamianos, C. Neti, G. Gravier, A. Garg, and A.W. Senior. Recent advances in the automatic recognition

of audiovisual speech. Proceedings of the IEEE, 91(9): 1306-1326, 2003.

[55]. B. Reeves and C. Nass. The Media Equation: How People Treat Computers, Television and New Media Like

Real People and Places. Cambridge Univ. Press, 1996.

[56]. M. Rosenblum, Y. Yacoob, and L.S. Davis. Human expression recognition from motion using a radial basis

function network architecture. IEEE Trans. on Neural Network, 7(5): 1121-1138, 1996.

[57]. Y. Sagisaka, N. Campbell, and N. Higuchi, editors. Computing Prosody. Springer- Verlag, New York, NY,

1997.

[58]. P. Salovey and J.D. Mayer. Emotional intelligence. Imagination, Cognition, and Personality, 9(3): 185-211,

1990.

[59]. J. Sato and S. Morishima. Emotion modeling in speech production using emotion space. In Proc. IEEE Int.

Workshop on Robot and Human Communication, pages 472-477, 1996.

[60]. S. Schachter. The interaction of cognitive and physiological determinants of emotional state. In L. Berkowitz,

editor, Advances in Experimental Psychology, volume 1, pages 49-80, 1964.

[61]. K.R. Scherer. Adding the affective dimension: A new look in speech analysis and synthesis. In Proc.

International Conf. on Spoken Language Processing, pages 1808– 1811, 1996. [62]. H. Schlosberg. Three dimensions of emotion. Psychological Review, 61:81–88, 1954.

[63]. B. Schneiderman. Human values and the future of technology: A declaration of responsibility. In B.

Schneiderman, editor, Sparks of Innovation in Human-computer Interaction, 1993.

[64]. N. Sebe, M.S. Lew, I. Cohen, Y. Sun, T. Gevers, and T.S. Huang. Authentic facial expression analysis. In

Automatic Face and Gesture Recognition, pages 517–522, 2004.

[65]. N. Ueki, S. Morishima, H. Yamada, and H. Harashima. Expression analysis/synthesis system based on

emotion space constructed by multilayered neural network. Systems and Computers in Japan, 25(13):95–103, 1994.

[66]. C.E. Williams and K.N. Stevens. Emotions and speech: Some acoustical correlates. Journal of the Acoustic

Society of America, 52(4):1238–1250, 1972.

[67]. W. Winton, L. Putman, and R. Krauss. Facial and autonomic manifestations of the dimensional structure of

the emotion. Journal of Experimental Social Psychology, 20:195–216, 1984.

[68]. Y. Yacoob and L.S. Davis. Recognizing human facial expressions from long image sequences using optical

flow. IEEE Trans. on Pattern Analysis and Machine Intelligence, 18(6): 636–642, 1996.

因篇幅问题不能全部显示,请点此查看更多更全内容