首页 / 正文

【Brain】基于生理信号的情感计算研究综述(一)

Zero

情感计算是现代人机交互中的一个重要研究方向, 旨在研究与开发能够识别、解释、处理、模拟人类情感的理论、方法与系统. 生理信号, 包括脑电、心电、皮肤电等, 是情感计算中重要的输入信号. 本文总结了近年来基于生理信号的情感计算研究所取得的进展, 重点关注基于脑电信号的情感计算. 首先介绍情感计算的相关基础理论, 包括情感的定义、情感唤醒的经典理论、情感计算模型等, 然后介绍不同生理信号与情感变化之间的联系, 以及基于生理信号的情感计算工作流程. 接下来介绍生理信号的特征工程和机器学习算法, 重点介绍适合处理个体差异的迁移学习、降低数据标注量的主动学习和融合特征工程与学习器的深度学习算法. 最后, 总结基于生理信号的情感计算研究常用的公开数据集, 并对未来的研究方向进行展望.


0

引言


情感 (Affect) 遍布在人们的日常生活中. 根据《心理学大辞典》[1]的定义, 情感是人类对客观事物和自己需求相比较之后产生的态度和体验. 情感能反映一个人当下的生理心理状态, 也对人们的认知、沟通和决策等产生重要影响[2]. 情感的变化通常是在外界环境的刺激之下产生的, 会伴有个体表征和心理反应的变化, 因此可以通过科学的方法来进行测量和模拟.



情感计算 (Affective Computing)[3]是一个跨学科的研究领域, 涉及计算机科学、心理学和认知科学等多个学科, 旨在研究和开发能够识别、解释、处理、模拟人类情感的理论、方法和系统. 随着 5G 技术、物联网、人机交互、机器学习尤其是深度学习等技术的不断发展, 情感计算在医疗保健、媒体娱乐、信息检索、教育以及智能可穿戴设备等领域都有着广阔的应用前景。


情感计算研究的简要历史如图 1 所示。



1986 年, 人工智能奠基人之一、图灵奖获得者、美国麻省理工学院的 Minsky 教授在他的著作《The Society of Mind》[4]中最早提出了让计算机能够识别情感的概念. Minsky 指出: “问题不在于智能机器能否有情感, 而在于没有情感的机器能否实现智能(The question is not whether intelligent machines can have any emotions, but whether machines can be intelligent without emotions).” 即真正智能的机器必须拥有情感.


虽然人类对情绪、情感的研究已经有很久的历史, 但是直到 1997 年, 美国麻省理工学院的 Picard 教授发表了关于情感计算的首部专著《Affective Computing》[5], 情感计算才正式成为现代计算机学科的一个分支.


2004 年, 欧盟资助 495 万欧元的第六框架计划 HUMAINE (Human-Machine Interaction Net- work on Emotions) 启动, 研究主题为“面向情绪的系统” (Emotion-oriented systems), 为期 4 年, 由英国女王大学牵头, 包括牛津大学、帝国理工学院、以色列特拉维夫大学在内的 26 所大学参与. 在此基础上, 成立了国际情感计算的专业学术组织 HUMAINE, 后更名(更名的一个主要原因是 HUMAINE 也是一个美国动物保护协会的名字, 而且出现更早. 他们经常抗议情感计算的 HUMAINE 侵权. 另一个原因是 HUMAINE 不太能直观地反映情感计算研究.)为 AAAC (Association for the Advancement of Affective Computing). 情 感计算方面最主要的国际会议, 情感计算与智能交互(Affective Computing and Intelligent Interaction, ACII) 国际会议, 就是由 HUMAINE 和 AAAC 发起和主办的.


2010 年, IEEE 计算机学会、计算智能学会和系统、人和控制论学会共同创办了第一个情感计算领域的学术期刊《IEEE Transactions on Affective Computing》, 目前影响因子已达到 7.512.


2014 年 6 月, 微软 (亚洲) 互联网工程院发布了第一代情感计算机器人小冰, 到 2020 年已经更新到了第八代, 产品形态涵盖社交对话机器人、智能语音助理、人工智能内容创作和生产平台等, 已入驻微信、QQ、微博、小米、华为、网易等平台. 小冰负责人沈向洋博士在 2017 年 12 月 3 日乌镇举行的第四届世界互联网大会的演讲里提到, 小冰聊天机器人曾经与单人连续聊天 7,175 句, 持续 29 小时 33 分钟. 如果没有情感理解与表达, 这是不可能实现的.


2017 年, 斯坦福大学李飞飞教授也在公开演讲中指出: “我认为下一步人工智能的发展, 需要加强对情感、情绪的了解, 要走进认知科学、心理学. 我说的不仅是脑科学, 而是认知科学. 因为我们目前对人的情感理解非常少, 而这对于人工智能来说是很重要的.”


鉴于情感计算在计算机、机器人和人工智能研究中日益重要的地位, 相关研究也得到了国内科技界的高度重视. 国家自然科学基金委员会早在 1998 年就将和谐人机环境中的情感计算理论研究列为当年信息技术高技术探索第 6 主题[6]. 2018 年 7 月中国科协发布的 12 个领域 60 个重大问题中, 人机情感交互位列信息科技领域 6 个问题之一. 值得一提的是, 2005 年 8 月首届情感计算与智能交互 (ACII) 国际会议就是在北京召开的, 由中科院自动化所的谭铁牛院士和麻省理工学院的Picard 教授任共同主席. 2018 年 5 月中科院自动化所的陶建华研究员等又发起主办了亚洲情感计算与智能交互会议 (Asian Conference on ACII). 陶建华研究员和华中科技大学伍冬睿教授都曾担任过 AAAC 的执委会委员.


情感计算的常见输入信号包括视频 (面部表情、肢体动作等)、音频、文本、生理信号等. 本文对基于生理信号的情感计算进行综述与展望. 文章组织结构如下: 第 1 节介绍情感计算的相关基础理论; 第 2 节介绍情感计算中常用的生理信号类型; 第 3 节介绍基于生理信号的情感计算流程; 第 4 节总结情感计算中生理信号尤其是脑电信号的特征处理; 第 5 节详细介绍情感计算中的机器学习算法; 第 6 节介绍基于生理信号的情感计算常用的公开数据集; 最后, 第 7 节对基于生理信号的情感计算进行总结与展望.


1

情感计算基础理论

 


1.1情感计算的定义

1997 年, 麻省理工学院的 Picard 教授在其专著《Affective Computing》[5]中明确定义了情感计算的概念: 情感计算是指因为情感引发的、和情感相关的、或者能够影响和决定情感变化的因素的计算(Affective Computing is computing that relates to, arises from, or deliberately influences emotion or other affective phenomena).


根据各个领域近年来所取得的研究成果, 科学家们总结出, 情感是人类在适应社会环境的过程中所逐渐形成的一种机制. 并且由于个体生活环境的差异, 导致不同个体面临相同的环境刺激时, 既可能会产生相同或相似的情感变化, 也可能产生截然不同的情感变化. 这种心理机制能够起到趋利避害的作用. 计算机虽然具备强大的逻辑计算能力, 但是由于缺少与人类相似的心理机制, 使人类在与计算机进行人机交互时往往不能进行更深入的交流. 情感理论是解决这一问题的有效方法, 所以一个实现计算机智能化的有效手段就是将逻辑计算与情感计算相结合, 这也是目前众多研究者重点关注的一个研究课题.


1.2情绪唤醒的经典理论

根据心理学家的研究, 对人类情绪产生关键影响的因素主要包括环境变化、个体需求和认知[7]. 其中环境变化是情绪产生的先决条件, 同时个体需求以及认知也会对人类的情绪产生不同程度的影响.


对于情绪具体是如何产生以及变化的, 目前心理学家并没有统一的理论. 现有的主要理论包括: 刺激和响应理论、生理反应和表现理论、主观认知和评价理论等. 其中刺激和响应理论的应用相对更为广泛. 刺激和响应理论认为, 情感的唤醒和产生的关键因素是主体对客观事物和环境的评价水平.


刺激和响应理论的一个代表性的研究工作是1990 年 Ortony、Clore 和 Collins[8]提出的 OCC (OCC 为三位作者名字首字母缩写) 理论. OCC 情感理论根据诱发情绪的条件将情绪划分为三类, 分别是: 由事件诱发的情绪、由个体行为诱发的情绪和对对象的看法诱发的情绪. 基于该标准, OCC 情感理论具体列出了 22 类情绪的层次结构. 在该模型中, 恐惧、愤怒、高兴和悲伤是最经常出现的 4 种情绪. OCC 理论比较早地以计算机实现为目的进行情感理论建模, 在诸多人机交互技术中得到了较为广泛的应用.


1.3 情绪模型分类

由于情绪本身具有非常高的复杂性和抽象性, 导致诸多研究者在做情感计算的相关工作时并不能达成统一的情绪分类标准. 人们通常将情绪模型分为离散型模型和连续型模型两种.


离散型情绪模型可以从范畴观的角度进行理解. 我国古代文献《礼记》将情绪分为喜、怒、哀、乐、爱、恶、欲等 7 种类别. 文献《白虎通》则将情绪划分为喜、怒、哀、乐、爱、恶等 6 种类别. 我国著名心理学家林传鼎[9]将《说文》中 354 个表示情绪状态的字划分为 18 种情绪状态: 安静、愤怒、喜悦、悲痛、忧伤、哀怜、焦虑、烦闷、恐惧、恭敬、惊骇、疼爱、憎恶、贪心、嫉妒、傲慢、惭愧、羞耻. 1971 年, 美国心理学家 Ekman[10]通过分析人类的面部表情, 将人类的情绪划分为生气、讨厌、害怕、高兴、悲伤和惊讶等 6 种基本情绪类别. 1993 年, 美国应激理论的现代代表人物之一 Lazarus[11]将情绪划分为 15 种类别, 并且每一种情绪状态都有一个相应的核心相关主题, 具体如表 1 所示. 2003 年, 心理学家 Plutchik[12] 将情绪划分为 8 种基本类别: 生气、害怕、悲伤、讨厌、期待、惊讶、赞成和高兴. 离散型情绪划分方法相对比较简单和容易理解, 得到了广泛应用.



连续型情绪模型可以从维度观的角度进行理解. 情绪的维度空间模型又可以分为二维、三维等不同类型. 情绪二维表示模型最早由心理学家Russell[13]在 1980 年提出, 如图 2(a) 所示. 该模型的横轴和纵轴分别表示愉悦度 (Valence) 和唤醒度(Arousal). 愉悦度表示用户情绪的愉悦程度, 唤醒值表示情绪的强烈程度. 模型的四个极点表示四种不同的离散情绪类别: 高兴 (高愉悦/高唤醒)、轻松 (高愉悦/低唤醒)、厌烦 (低愉悦/低唤醒)、惊恐 (低愉悦/高唤醒). 在文献中, 该二维表示模型经常被称为 VA (Valence-Arousal) 模型.


由于情绪的二维空间无法有效区分某些基本情感, 比如害怕和愤怒, Mehrabian[14]提出了情绪的三维空间表示, 在愉悦度和唤醒度的基础上又增加了支配度 (Dominance), 如图 2(b) 所示: 愤怒的支配度高, 而害怕的支配度低. 在文献中, 该三维表示模型经常被称为 VAD (Valence-Arousal-Dominance) 模型.



上述 VA 和 VAD 模型是目前受到较高认同并且得到广泛使用的两种维度型情绪模型.


2

情感计算中的生理信号


人类的情绪变化通常会伴随着生理信号的变化. 生理信号相较于面部表情或者语音信号的优点在于生理信号更能够反应一个人的真实情绪状态, 而面部表情和语音信号对情绪的表征不够细腻,并且易于伪装. 因此, 生理信号是情感计算模型的重要输入信号.


用于情感计算的生理信号主要包括脑电信号、眼动信号、肌电信号、皮肤电信号、心电信号和呼吸信号等, 如表 2 所示. 由于这些生理信号的频率通常比较低, 并且采集时容易受到外界环境的影响, 因此通常需要专门的设备进行采集, 并且在采集之后需要进一步对信号进行预处理, 以提高信号的质量和情感计算的效果.



下面具体介绍几种情感计算中常用的生理信号类型.


2.1脑电信号

脑电信号 (Electroencephalogram, EEG) 是通过脑电帽, 在头皮处将人的大脑产生的微弱的生物电信号收集、放大并记录而得到的信号[15]. 在频域中通常将脑电信号划分为 5 个频段, 不同的频段中能够反应出大脑的不同活动状态, 如表 3 所示. 脑电信号预处理一般包括降采样、滤波、去除伪迹以及特征提取等环节. 常见的脑电信号分析方法有独立成分分析(Independent Component Analysis, ICA)、功率谱密度分析 (Power Spectral Density, PSD)、小波分析 (Wavelet Analysis, WA) 等[16, 17].



2.2心率信号

心率信号对于积极情绪和消极情绪的识别有很大的帮助[18]. 基于心率信号可以得到心率变异性(Heart rate variation, HRV) 指标[19], 即逐次心跳周期差异的变化情况. 当受试者受到刺激时, 心率变异性会被抑制; 而当受试者处于放松状态时, 心率变异性则会回到正常状态.


2.3皮肤电信号

皮肤是人体和外界接触最紧密的器官. 人类情感的变化通常会引起皮肤的生理反应. 研究表明[1], 皮肤电反应 (Galvanic skin response, GSR) 对于情绪识别有很大的帮助. 皮肤电反应的原理是, 当机体受到外界刺激或者情绪状态发生变化时, 其神经系统的活动会引起皮肤内血管的舒张和收缩以及汗腺分泌等变化, 从而导致电阻发生改变. 当受试者受到强烈刺激、情绪波动较大时, 皮肤电变化较大; 而当受试者情绪变化较小时, 皮肤电变化也较小.


3

基于生理信号的情感计算任务流程


在进行情绪识别相关任务时, 既可以使用一种生理信号, 也可以将多种生理信号融合.


以脑电信号为例, 基于脑电的情绪识别主要包括以下步骤[20]:

  1. 对被试进行外界刺激, 使其产生高兴、悲伤、愤怒等情绪变化, 同时采集被试的脑电信号. 刺激方式包括图片、语音、视频、音乐等.

  2. 对所采集的脑电信号进行预处理, 包括降采样、去除眼动信号和肌电信号等噪声, 以及带通滤波.

  3. 特征提取和特征选择.

  4. 训练分类器以及测试.


在基于 EEG 的情绪识别任务中, 需要考虑的因素有: 被试的数量、性别、能够识别的情绪、诱发情绪变化的方式、使用的脑电设备及相关的电极位置、采集的EEG 信号的预处理方法、特征提取方法以及分类器设计等[21].


在基于多生理信号的情感计算任务中, 每种生理信号的获取以及特征处理流程与步骤 1-3 相似. 进一步地, 需要将不同生理信号的特征进行选择和融合, 之后应用于具体的情感计算任务. 表 4 总结了部分情感计算工作中所选用的生理信号类型.



3

情感计算中的特征工程


在基于生理信号的情感计算任务中, 基于采集到的生理数据, 在众多任务场景中, 有两个核心问题, 一是生理信号的特征处理, 二是分类器的设计.


生理信号的特征处理主要包括生理信号的特征提取和多种生理信号的特征融合. 在众多用于情感计算任务的生理信号中, 由于 EEG 一般处于主导作用, 本文重点关注EEG 信号的特征处理, 以及EEG 信号与其他生理信号之间的特征融合.


Qian 等[30]在基于 EEG 的情绪识别任务中, 提出了一种包含主观和客观两部分的组合标签模型, 以反映情感状态的实时变化. 相关情绪识别实验表明了情绪是一种需要较长时间才能表现出来的心理状态. Zheng 等[31]关注不随时间变化的稳定情感模式. 在 SEED 和 DEAP 数据集上的研究结果表明: 稳定的模式会出现在一整个试次中; 在 β 和 γ 频段, 颞叶区域对于积极情绪的激活远大于对消极情绪的激活; 正常情绪的神经模式在枕叶和顶叶区域具有较为明显的 α 频段响应; 对于消极情绪, 其神经模式在顶叶和枕叶区域具有较为明显的 δ 频段响应, 同时在额叶前部具有较高的 γ 频段响应. 此外, 在不同试次之间的结果表明, 以上不同情绪对应的模式也具有稳定性. 该研究表明情绪状态、大脑神经活动的区域以及 EEG 信号的频段之间有一定的联系, 并且同一个体的基于 EEG 的情感模式是稳定的.


以上研究表明, 对 EEG 信号进行有效的特征提取对于情感计算任务非常重要.


4.1特征提取、平滑与降维

在基于脑电信号的情感计算任务中, Duan 等[32]在 2013 年最早提出了一种用于脑电信号的特征提取方式: 微分熵特征 (Differential Entropy, DE). 由于大脑不同的分区受到刺激时会产生不同程度的反应, 所以基于 DE 特征, Duan 等又提出了微分熵的不对称差 (Differential Asymmetry, DASM) 和微分熵的不对称商(Rational Asymmetry, RASM) 两种特征. Duan 等在 SEED 数据集的 6 个用户上进行同用户跨试次实验, 取得了 84.22% 的准确率. 值得指出的是, 现实中存在很多跨用户的场景; 由于不同用户的个体差异, 跨用户测试的准确率一般明显低于在同一用户上进行训练和测试的准确率. 迁移学习是解决跨用户问题的有效手段, 近年来也有越来越多的研究者提出各种各样的迁移学习方法用于情感计算任务.


Jenke 等[33]总结了情感计算任务中 EEG 信号常用的特征提取方式. EEG 信号的特征提取主要包括时域特征、频域特征和时频域特征. 时域特征包括事件相关特征、信号的统计特征 (均值、方差等)、Hjorth 特性、不稳定性指数、分形维数、高阶交叉特征等. 频域特征有频段功率和高阶谱特征等. 时频域特征有希尔伯特-黄谱特征、离散小波变换特征等. 其他特征还包括微分熵的不对称差、微分熵的不对称商、幅度平方相干估计特征、多通道复杂性 D2 特征等. 常用的特征选择方式有特征属性加权、最小关联最大冗余 (Min-Redundancy-Max- Relevance, mRMR)、基于影响因子大小的单变量或多变量的特征选择等.


Yan 等[34]的研究结果表明, 对于情绪识别问题, 性别差异确实存在于神经模式中. 相比于眼动信号, 脑电信号更适合研究情绪识别中的性别差异. 在多数频段和脑区, 女性大脑的活跃程度要低于男性, 尤其是对于恐惧情绪. 与男性相比, 女性在恐惧情绪下更有多样性, 而男性则在悲伤情绪下有更多的个体差异. 在利用脑电信号分析不同性别在情绪诱发时的关键脑区研究中, Yan 等[35]的实验结果表明, 对于男性和女性, 不同情绪下的神经模式侧重于不同的关键脑区, 其中女性偏右侧化而男性偏左侧化.


Moon 等[36]在情绪识别任务中考虑了大脑连通性特征来有效捕捉非对称的大脑活动模式, 并与PSD 特征组合在一起作为卷积神经网络的输入用于训练模型. 两个电极连通性的计算指标有皮尔逊相关系数(Pearson Correlation Coefficient, PCC)、相位锁定值 (Phase Locking Value, PLV) 和相位滞后指数 (Phase Lag Index, PLI).


Wu 等[37]提出了一种与情绪相关的关键子网络选择算法.  他们选取了三种脑功能连接网络特征: 连接强度, 聚类系数, 以及特征向量中心度. 在两个公开情感脑电数据库 SEED 和 SEED-V 上进行的三类情绪和五类情绪识别任务, 揭示了脑功能连接网络特征对于情绪的区分能力. 其中, 连接强度特征的分类性能最佳, 在两个数据集上准确率分别达到了 81.53% 和 74.05 7.09%. 在五类情绪识别中, 连接强度特征比基于单通道分析提取的目前最好的微分熵特征的识别率更高.


Soroush 等[38]提出了基于脑电相空间动力学和庞加莱交叉点的情绪识别模型. 将脑电相空间重构并转换成新的状态空间, 然后利用庞加莱平面对状态空间进行数学描述, 从而对脑电动力学实现量化.


在提取的特征序列里, 除了与情绪相关的脑电特征, 可能还会掺杂其他大脑活动产生的脑电特征, 比如听觉和视觉等行为产生的特有的脑电特征. 为了只利用与情绪相关的特征序列, 我们需要去除这些无关的成分. 情绪变化一般不会非常剧烈, 而是平缓稳定的. 在实际操作中, 我们发现得到的特征序列常常可以观察到剧烈的变化. 由此可见, 脑电特征序列里变化非常剧烈的部分往往是由情绪无关的脑电活动等引起的, 我们可以利用情绪变化缓慢的特性对其进行去除. 常用的脑电特征平滑算法有滑动平均平滑算法和线性动力系统平滑算法[39]. Pham 等[40]对 EEG 特征使用 Savitzky-Golay 方法进行了平滑处理. Savitzky-Golay 平滑器是一种基于局部最小二乘多项式逼近的数据平滑方法, 可以在保持波形峰值形状和高度的同时降低噪声.


由于脑电信号的特征维数较高, 导致模型训练需要较大的时间开销. 为了有效降低特征维数, Hu 等[41]在基于 EEG 的注意力识别任务中使用了基于相关性的特征选择方法. Zheng 等[42]在基于 EEG 的情绪识别任务中, 提出使用群稀疏典型相关性分析(Group Sparse Canonical Correlation Analy- sis, GSCCA) 的方法进行EEG 通道选择. Ozerdem 等[43]也使用人工神经网络在情绪识别任务中进行了EEG 通道选择的相关研究. 值得注意的是, 在脑电信号通道选择的研究工作中, 由于不同研究者使用不同的研究方法, 并且任务场景、所使用的脑电设备等都会不同, 这导致最终选择的 EEG 信号的通道也都不尽相同.


4.2特征融合

由于在情感计算任务中可以使用多种生理信号, 近年来也有一些研究者关注不同组合的生理信号对于情感计算效果的影响.


Zheng 等[44]提出了脑电与眼动信号融合的情绪识别框架. 他们利用眼镜式眼动仪提取了多种不同的眼动特征, 并与脑电特征相结合, 构建了一种新的多模态情绪识别系统, 并取得了良好的识别效果. 他们在 SEED 数据集上的实验结果表明, 眼动特征和脑电特征分别达到了 77.80% 和 78.51% 的准确率, 进一步利用多模态深度学习模型, 结合脑电和眼动特征的准确率达到了 91%, 提高了将近 13%[45]. 这些实验结果说明, 基于脑电和眼动信号融合的情绪识别是很有效的. 另外, 他们进一步揭示了脑电和眼动在识别三类情绪时的互补特性[45], 脑电信号更容易区分正面和负面情绪, 而眼动信号相对于脑电信号能更好地区分中性和负面情绪.


Thammasan 等[46]将 EEG 特征与音乐特征进行多模态融合用于音乐诱发的情绪识别. 他们通过实验证明了 EEG 特征的不稳定性, 而与音乐模态特征的融合能有效缓解这一问题.


Guo 等[47]使用 EEG 和眼动信号 (EM) 以及眼睛的图像信息进行情绪识别. 他们对比了 3 种模态信号在不同组合下对情绪识别结果的影响, 还对比了简单特征融合和双峰深度特征融合两种特征融合方法的效果. 他们的实验结果表明深度特征融合对于提升情绪识别的效果有很大的帮助.


Becker 等[48]公开了一个用于情感计算的多模态生理信号数据集. 该数据集包含了高分辨率的EEG 信号, 同时还有皮肤电 (GSR)、心电 (ECG)、呼吸 (RP)、血氧饱和度 (SpO2) 以及脉搏 (PR) 信号. 文中采用电影片段作为外部刺激来诱发被试的情绪变化. 所提取的特征包括频带功率特征、连接性特征、高阶交叉特征、分形维数特征、统计特征和谱特征等. 进一步地, Becker 等对比了不同特征不同特征组合下的情绪识别准确性.


此外, 还有很多研究者使用深度学习方法研究多模态生理信号的融合, 以提升情感计算任务的效果, 相关研究工作将在下一节中介绍.


参考资料:

权学良, 曾志刚, 蒋建华, 张亚倩, 吕宝粮, 伍冬睿. 基于生理信号的情感计算研究综述. 自动化学报, 2021, 47(x): 1−16 doi:  10.16383/j.aas.c200783


原文阅读 返回顶部