(来源:计算机视觉研究院)

  计算机视觉研究院

  公众号ID计算机视觉研究院

  学习群扫码在主页获取加入方式

  https://pmc.ncbi.nlm.nih.gov/articles/PMC12658079/pdf/41598_2025_Article_26446.pdf

  计算机视觉研究院专栏

  Column of Computer Vision Institute

  文提出让 Pepper 社交机器人和 Llama 2 大模型联手,打造了一个能和人类一起创作故事的神奇系统。

  PART/1

  背景   

  什么是 "协作讲故事"?机器人也能当 "故事合伙人"

  讲故事是人类最古老的交流方式之一,它能教育、娱乐,还能传递情感。但以前,机器人讲故事就像播放录音 —— 都是提前写好的脚本,你没法插嘴,也没法改剧情。

  但大语言模型(LLM)的出现改变了这一切!现在机器人不仅能讲故事,还能和你一起创作故事。你说 "把小红帽改成大灰狼",它马上就能给你编出全新版本;你拿个玩具大象给它看,它立刻就能把大象写进故事里。

  【系统架构图】

  这就是研究团队打造的多模态协作讲故事系统 ——Pepper 机器人不再是单向的 "说书人",而是变成了你的 "故事合伙人"。

  PART/2

  创新   

  三大黑科技加持:这个机器人到底有多厉害?

  这个系统可不是简单的 "AI 聊天 + 机器人",它集成了五大核心模块,每一个都大有来头:

  1. 大脑:Llama 2 大模型(零样本学习)

  研究人员测试了三款主流开源模型:Llama 2 13B、Vicuna 13B 和 Mistral 7B,最终选择了 Llama 2—— 不是因为它最快(Mistral 每秒 89 个 token 碾压全场),而是因为它在对话和创意生成上表现最好。

  【不同 LLM 模型的内存占用和推理速度对比】

  最酷的是,它用的是零样本学习—— 不需要专门针对讲故事任务进行微调,直接就能用!这大大降低了开发门槛。

  2. 眼睛:YOLOv11 目标检测

  用户不仅能用语音改故事,还能拿实物给机器人看!你举个苹果,它就说 "公主吃了一个神奇的苹果";你拿个玩具车,它就加一段 "王子开着跑车来救公主" 的剧情。机器人识别到物体后,还会在胸前的平板上显示出来,让你知道它 "看" 到了。

  3. 表演:手势 + 情感 + 语音三重表达

  这才是最惊艳的部分!机器人讲故事可不是干巴巴念文本:

  • 手势系统

      :用 GAN 生成和语音同步的节奏手势,再加上语义相关的动作(说到 "大象" 就做大象的动作)

  • 情感表达

      :用 RoBERTuito 分析每句话的情绪,然后调节语速、音高,甚至眼睛的颜色(黄色 = 开心,蓝色 = 难过,白色 = 中性)

  • 语音合成

      :用 Nuance TTS 生成自然的人声

  PART/3

  实验    

  真实用户测试:25 个人亲测,结果超出预期

  研究团队找了 25 个志愿者做用户测试,年龄从 20 岁到 40 + 岁,有机器人专家也有完全没接触过的普通人。

【实验设置示意图】

  【交互流程图】

  整个互动流程是这样的:

  机器人先推荐 5 个经典童话(《野兽国》《好饿的毛毛虫》等)

  你选一个,它分三幕讲完:开端 - 冲突 - 结局

  每讲完一幕,它都会停下来问你:"想改点什么吗?"

  你可以用语音提要求,也可以拿实物给它看

  最后,它会带着所有修改,声情并茂地表演完整的新故事!

  【Llama2 推荐的故事列表及出现次数】

  测试结果有多好?看看数据:

  • 88%的用户修改都被成功应用到故事中
  • 96%的用户认为系统 "很有创意"
  • 100%的用户认可这种 "先读原版再修改最后表演" 的模式
  •   整体体验评分:4.56/5 分

  【UEQ 用户体验问卷结果柱状图】

  用户体验问卷显示,这个系统在 "吸引力"" 清晰度 ""刺激性"" 新颖性 "四个维度都达到了" 优秀 " 级别!大家最喜欢的是机器人胸前平板显示的信息(4.84/5 分),还有手势和语义的配合(4.24/5 分)。

  【访谈便签纸分析图】

  【亲和图分析结果柱状图】

  PART/4

  总结与未来展望   

  机器人讲故事,离我们还有多远?

  当然,这个系统还有一些小问题:

  •   语音识别偶尔会出错(30.3% 的转录不精确)

  •   生成修改后的故事需要等约 25 秒

  •   大模型总偏爱那几个经典童话,多样性还不够

  但瑕不掩瑜!这项研究证明了零样本大模型 + 社交机器人这条路完全走得通。想象一下未来:

  •   幼儿园里,机器人陪着小朋友一起编故事

  •   医院里,会讲故事的机器人帮小朋友缓解看病的恐惧

  •   家里,老人也能和机器人一起回忆往事、创作故事

  【各模块平均处理时间表】

  研究团队说,下一步他们会:

  做对比实验 —— 看看有手势和没手势、机器人和真人讲故事的区别

  优化大模型的提示词,让故事更多样

  支持更多语言,找更多不同年龄的用户测试

  这篇论文让我们看到了 AI 和机器人结合的无限可能。以前我们总说 "AI 取代人类",但这个项目告诉我们:AI 更棒的用法,是和人类一起创造

  你改剧情,我来写;你拿道具,我来演 —— 机器人不是来抢 "讲故事" 这个工作的,而是来当我们的创意伙伴,让每个人都能成为故事的创作者。

  或许在不远的将来,每个孩子的床头,都会有一个这样的机器人伙伴:它会听你的想法,会看你的玩具,会用生动的手势和表情,和你一起,讲出属于你们的独一无二的故事。

  有相关需求的你可以联系我们!

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。