王耀南 高 跃
《人民日报》(2025年01月04日 第 05 版)
编者的话
科技兴则民族兴,科技强则国家强。习近平总书记指出:“必须充分认识科技的战略先导地位和根本支撑作用,锚定2035年建成科技强国的战略目标,加强顶层设计和统筹谋划,加快实现高水平科技自立自强。”
当前,新一轮科技革命和产业变革深入发展,以人工智能、量子科技、生命科学、物质科学、空间科学、绿色低碳技术等为代表的前沿研究,不断取得新进展、新突破。
即日起,每周六见报的“科技·新知”版就和读者见面了。这块版聚焦国内外前沿科技,以有趣视角解读科学新知,让我们一同在日新月异的科技里邂逅新知、遇见未来。
近年来,人工智能发展迅猛,大模型、强化学习、超图计算和情感计算等新技术不断取得突破,引领了从工具化到智能化再到情智化的跃迁。这一趋势不仅驱动着产业升级,更催生了新一代具有情智兼备特征的智能体。
党的二十大报告提出,“以国家战略需求为导向,集聚力量进行原创性引领性科技攻关,坚决打赢关键核心技术攻坚战。”具有情智兼备特征的智能体,即能够感知环境,进行学习和推理,并能通情达理地采取行动、实现特定目标的自主系统。情智兼备的数字人和机器人作为人工智能的重要发展方向,正逐步成为科技创新的前沿。它们不仅代表了人工智能向更加人性化、智能化的方向发展,也为智能体与人类的深度互动提供了新机遇。基于此,中国图象图形学学会推荐的“情智兼备数字人与机器人的研究”问题入选中国科学技术协会2024十大前沿科学问题。
情智兼备:认知与情感的完美融合
情智兼备融合了认知智能和情感智能,代表了全新的智能演进方向。这样的智能体不再是冰冷的计算机程序,而是具有情感、理解和关怀的存在,能够与人类建立更加亲密和深入的联系。认知智能让机器人具备如人一般思考和解决问题的本领,而情感智能则赋予了机器人进行情绪识别、情感表达和情感共鸣的能力。例如,在心理健康辅导中,情智兼备的智能体可以通过语音语调分析和表情识别来感知用户的情绪波动和心理状态。
从数字人与机器人的科研进展来看,国际上的头部科技企业和知名高校在多模态情感识别、情感生成与交互、情感计算专用芯片与硬件方面已经有了一定的突破。例如,谷歌和微软研究团队开发了多模态情感识别系统,表现出色;麻省理工学院和斯坦福大学正在积极开展跨学科合作,结合心理学、神经科学和计算机科学,深入研究情感计算的理论和应用;谷歌的Gemini模型等已经在情感生成方面取得了显著进展。
国内在情感计算算法方面也取得了显著进展,特别是在多媒体信息处理、语音和文字情感识别等领域。许多研究机构和高校,如清华大学、哈尔滨工业大学及厦门大学等,正在构建大规模的情感数据集,支持情感计算模型的训练和优化,研发面向多类开放场景的情感计算方法及工具。国内的科技公司,如科大讯飞和小米,相继推出了具有情感交互功能的智能客服机器人;百度和阿里巴巴等公司开发了多模态情感识别系统,在实际应用中提供高效的情感识别和生成服务。此外,还有一些初创公司和研究团队也正在探索情智兼备技术在教育和医疗领域的应用,开发出情感教育助手和陪伴机器人,提升用户的满意度和服务质量。
三大挑战:情绪感知、个性化分析与仿生化交互
尽管我国在情感智能领域取得了众多进展,但在实现“情智兼备数字人与机器人”的过程中,仍有三大难题亟待解决。
一是多模态情绪感知能力。人类情感的感知是通过多个感官的交织与互动实现的,然而目前的数字人或机器人往往只能依赖单一感官(如语音或面部表情)进行情感识别,在多模态数据的高效融合、多源异构数据一致性和时间同步方面还存在挑战。如何实现跨模态情感表达的整合,如何在有限的资源下平衡模型复杂度和准确性仍是一个难点。
二是个性化情智分析能力。人的情感表达具有个体差异,同样的表情或语句在不同个体、不同语境下的解读可能存在本质区别。因此,人工智能需要具备个性化情智分析能力,能够根据个体差异进行精准识别,避免情感误读。随着大模型、强化学习和超图计算等新技术的涌现与进步,人工智能显著提升了复杂数据分析能力,能够提供更加个性化的情感沟通功能。
三是仿生化情感交互能力。要让数字人、机器人像人类一样与他人进行情感互动,人工智能不仅需要识别情感,还要以自然、流畅的方式表达情感。目前,尽管语音识别和生成技术已有突破,但机器人与人类的情感交流仍显生硬,缺乏深度情感的表达。为突破这一瓶颈,人工智能需要在情感数据处理的基础上,结合肢体动作、面部表情等多维度的表达,形成更加自然的情感交互。
突破之路:多技术协同发展是关键
在通往情智兼备的数字人和机器人研究中,多学科的融合研究和跨领域的技术研发起着至关重要的作用。情智兼备不仅要求机器人具备情感感知能力,还需通过多种技术手段实现情感的生成与表达,形成情感识别与反馈的闭环。要实现这一目标,多个技术领域必须协同发展,其中情感生成与表达、情感识别与反馈、多模态情感感知技术是关键。
情感生成与表达,让智能体更具人情味。情感生成与表达是指数字人和机器人通过特定方式表现出情感反应的能力。这一过程不仅仅是模拟人类的语音语调,还包括通过面部表情、肢体动作等多种方式进行情感的外化。在这方面,情感合成技术尤为重要。通过调节语调、语速、音量等参数,语音合成器能够生成带有情感色彩的声音。例如,当机器人要表达高兴的情绪时,其语调和语速会明显提高,而在表达悲伤时,语调和语速则会相应降低。这种情感化的语音生成技术,使机器人能够在与人类的互动中表现出更加自然和富有情感的反应。
情感识别与反馈,能精准捕捉并回应人类情感。情感识别技术使得机器人能够准确地捕捉人类的情感信号,并基于这些信号做出合适的情感反馈。自然语言处理技术的应用,让数字人、机器人能够理解和生成自然语言,从对话内容的分析中找出情感的线索。通过对用户的语言结构、语气以及关键词的分析,机器人不仅能够判断出用户的情绪,还能够适时地提供情感支持。例如,当用户遇到问题时,机器人能够通过语言和语气的变化,表达出关切与安慰。
多模态情感感知,让情感识别更加全面准确。通过结合语音、图像等多种感知数据,人工智能可以获得更加精准的情感信息。例如,通过同步分析用户的语音语调与面部表情,机器人能够从多个维度捕捉到情感的细节。这样的信息融合极大地提高了情感识别的准确性和可靠性,为情感反馈提供了更为全面的数据支持。结合多模态感知数据,构建更为复杂的情感模型是当前的研究重点。例如,当用户的面部表情和语音语调一致时,系统可以识别出用户的愉悦情绪;而当面部表情和语音语调呈现愤怒时,系统能够迅速判断用户的情绪变化并应对。
应用前景:医疗护理、教育与企业服务
情感智能技术的广泛应用前景令人期待,特别是在医疗护理、教育和企业服务等领域,已展现出巨大的潜力。
在医疗护理领域,情智兼备的机器人在照护老年人、孤独症患者等方面具有极大的优势。通过面部表情识别与语音分析技术,机器人有望实时感知患者的情感变化,为其提供情感支持,帮助缓解孤独感和焦虑感。在孤独症患者的干预中,情智兼备的机器人可以通过互动游戏等方式帮助患者提高社交能力,促进情感认知。一个典型案例是日本软银公司的Pepper机器人在养老院中的应用。Pepper不仅能够进行基础的护理工作,还可以与老人进行情感互动,通过讲故事、聊天和做游戏等方式,提高老人的情感体验,实现更人性化的养老陪伴。
在教育领域,虚拟教师通过情感智能技术,能够识别学生的情感状态,动态调整教学内容和方式。例如,当学生表现出困惑或疲倦时,虚拟教师可以通过增加互动环节或安排休息时间来激发学生的学习兴趣。通过情感分析,虚拟教师可以保持学生的高参与度。美国的一些学校已经开始使用情感智能虚拟教师进行在线教学。这些虚拟教师能够通过面部表情和语音分析,实时了解学生的情绪状态,调整教学策略,提高学习效率。
在企业服务领域,情感智能技术的应用能够显著提升客户体验和满意度。通过分析客户的情感状态,企业能够精准调整服务策略。例如,在客户咨询中,机器人可以根据客户的情感反馈,来调整语气和服务态度。
未来,随着技术的不断发展与突破,情智兼备的数字人和机器人将不再是科幻小说中的存在,而将成为现实生活中的重要伙伴。随着跨学科合作的深入,情智兼备机器人将进一步缩短智能体与人之间的情感距离,推动社会各领域的智能化进程,为人类生活带来更温暖、更智能的服务。
(作者分别为中国工程院院士、中国图象图形学学会理事长,中国图象图形学学会情感计算与理解专业委员会常委、清华大学长聘副教授。赵思成对本文亦有贡献)