您现在的位置是:首页 > 人工智能 >

独家对话云知声董事长梁家恩:多模态交互的“山海经”

2024-09-06 17:38:19作者:于帆来源:

摘要8月底,云知声发布了两段山海多模态大模型(以下简称山海)的实机演示视频。视频一中的男声女声对话流畅自然,难以听出是人机的对话。女声 ...

8月底,云知声发布了两段山海多模态大模型(以下简称山海)的实机演示视频。

视频一中的男声女声对话流畅自然,难以听出是人机的对话。女声要求大模型模仿她讲话,大模型学得惟妙惟肖,难辨真假。视频二则是一段包括语音对话、文字生成、视觉理解、图像生成在内的多模态交互集合。

在山海世界,AI捕捉情感,能说会道。电影《Her》中的桥段正在变成现实。今年5月,Open AI给全球用户展示Her时代的魅力。三个月后,云知声奋力追平,国产大模型扳回一局。

多模态大模型需要哪些能力?当前面临哪些发展难点?未来将在哪些领域爆发其应用潜力?Her时代会往什么方向发展?《中国信息化周报》记者独家对话了云知声董事长梁家恩先生。


云知声董事长梁家恩

厚积薄发秀“肌肉”

能听、能看、会说,朴素概括了山海的多模态交互能力。

云知声发布的官方演示视频中,山海的语音交互十分惊艳。不仅响应流畅,感觉不到延迟,可以随时打断,还能判断用户情绪,给出情感反馈。甚至交互过程还包含停顿、呼吸甚至笑声等副语言元素,拟人感极强。

在视觉交互方面,山海既能通过完成场景理解分析与物体信息描述,也能根据用户指令快速创建视觉内容。演示视频中,山海精准识别出投影仪的物体形态及包装上的文字信息,用时五秒生成投影仪的商品图。

多模态大模型秀出的能力,也是其技术难点所在。

梁家恩表示,相比传统的“语音识别+大语言模型+语音合成”串联系统,多模态交互既能减少模块级联造成的延迟叠加,也能通过联合训练减少误差传递造成的错误累积,还能通过融合副语言和视觉信息,生成更真实的回应。将多模态信息有效融合到大模型中,并将交互延迟控制在300毫秒左右,是最大的挑战。

任何技术的爆发都不是一蹴而就的。云知声2012年就开始将深度学习技术引入智能语音产业应用,2016年开始布局Atlas大规模机器学习超算平台,2019年发布基于BERT的预训练语言模型,2023年5月,云知声首次发布山海大模型,并持续高速迭代。山海多模态大模型,正是在山海大模型的基础上演进而来的。除了智能语音和大模型技术积累,云知声也借助大模型框架,积极拓展多模态理解与生成技术,接连取得佳绩。在A类国际学术会议ACM Multimedia 2024上,云知声拿下了微动作分析挑战赛、面部微表情挑战双赛道、深度伪造检测评测多项冠军,另有多篇论文被录用。

多模态发展的“山海经”

虽然OpenAI在5月已验证了端到端多模态交互大模型的技术可行性,但要真正做出效果,仍面临巨大挑战。

 
多模态大模型的技术架构与大语言模型类似,只多了个将语音、视觉信息编码为向量化表征序列的步骤。但在实际训练过程中,难度却有着指数级的提升。

首先,文本训练数据规模庞大,高质量多模态训练数据则非常稀缺。除了少量开源数据,网上的多模态数据大多仍是原始状态。云知声为训练山海,需要获取海量的音视频数据,通过人机协同处理方式,才构建完成几十万甚至上百万小时规模的高质量多模态数据库。

其次,多模态数据的离散化表征和有效融合是提高多模态大模型性能的关键。但多模态信息不像文本信息那样经过了人脑的抽象压缩,还需要通过充分的训练来提高模型对这些信息的表征能力。同时,不同模态的信息密度也不一致。“我们每秒钟大概只能说5个字左右,但视频通常以每秒24~30帧的速度捕捉图像,语音数据通常以每秒16,000个采样点以上的速率进行采集(通常压缩到每秒50~100帧特征编码)。如何将稀疏不一的多模态信息对齐、融合是训练的难点。”

最后,多模态数据带来的计算量和存储量急剧增加,模型训练效率优化、模型压缩蒸馏提高解码效率,也是要面临的挑战。

梁家恩预测,大模型演进的终极目标会是“世界模型”。大语言模型对世界的理解是抽象的。多模态系统将感官信息对齐融合,会使模型更接近真实世界,未来还要理解“空间、运动和物理”等深层关系,也更懂得人类鲜活生动的沟通交流方式。

“带着锤子找钉子?No!”

在人工智能行业内,技术带来高估值,但无法商业落地导致估值迅速化为泡沫的案例车载斗量。十余年的技术产品化和商业化经验,让云知声坚决避开“带着锤子找钉子”的误区,紧抓业务场景。

多模态大模型能在哪些领域发力?

梁家恩表示,多模态大模型在智慧物联和智慧医疗领域的应用,能快速提升用户体验和服务质量。以智慧医疗为例,医生可以利用多模态信息(如语音输入和图像扫描)来生成病例,提高病例记录的准确性和效率。结合语音描述和图像分析,辅助医生进行更准确的诊断。这既是给医生减负,也为患者提供便利。

此外,梁家恩对多模态大模型在教育、咨询和客服等语言和知识密集型行业的应用前景同样看好。未来,技术的发展、具身智能的应用将进一步拓宽多模态大模型的应用边界。

如何将前景变为现实?梁家恩绕开炫技,指出落地才是关键。首先,应用必须抓住痛点,要在特定场景下真正解决用户的实际问题。其次,“控制成本非常重要,不然大模型只能用作展示,根本无法规模化应用。”最后,要未雨绸缪,要考虑并控制已知和潜在的负面效应,如用户关心的隐私问题和敏感问题。

多模态大模型的出现,让技术界限变得模糊。但企业在特定领域内的数据积累和解决问题的经验仍是其竞争优势。技术的应用需要与特定的业务场景和客户储备相结合。不能拿着锤子找钉子,而是找准钉子后,做强锤子。


(本文不涉密)
责任编辑:于帆

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们