(来源:计算机视觉研究院)
计算机视觉研究院

公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
https://pmc.ncbi.nlm.nih.gov/articles/PMC12658079/pdf/41598_2025_Article_26446.pdf
计算机视觉研究院专栏
Column of Computer Vision Institute
本文提出让 Pepper 社交机器人和 Llama 2 大模型联手,打造了一个能和人类一起创作故事的神奇系统。
PART/1
背景
什么是 "协作讲故事"?机器人也能当 "故事合伙人"
讲故事是人类最古老的交流方式之一,它能教育、娱乐,还能传递情感。但以前,机器人讲故事就像播放录音 —— 都是提前写好的脚本,你没法插嘴,也没法改剧情。
但大语言模型(LLM)的出现改变了这一切!现在机器人不仅能讲故事,还能和你一起创作故事。你说 "把小红帽改成大灰狼",它马上就能给你编出全新版本;你拿个玩具大象给它看,它立刻就能把大象写进故事里。

【系统架构图】
这就是研究团队打造的多模态协作讲故事系统 ——Pepper 机器人不再是单向的 "说书人",而是变成了你的 "故事合伙人"。
PART/2
创新
三大黑科技加持:这个机器人到底有多厉害?
这个系统可不是简单的 "AI 聊天 + 机器人",它集成了五大核心模块,每一个都大有来头:
1. 大脑:Llama 2 大模型(零样本学习)
研究人员测试了三款主流开源模型:Llama 2 13B、Vicuna 13B 和 Mistral 7B,最终选择了 Llama 2—— 不是因为它最快(Mistral 每秒 89 个 token 碾压全场),而是因为它在对话和创意生成上表现最好。

【不同 LLM 模型的内存占用和推理速度对比】
最酷的是,它用的是零样本学习—— 不需要专门针对讲故事任务进行微调,直接就能用!这大大降低了开发门槛。
2. 眼睛:YOLOv11 目标检测
用户不仅能用语音改故事,还能拿实物给机器人看!你举个苹果,它就说 "公主吃了一个神奇的苹果";你拿个玩具车,它就加一段 "王子开着跑车来救公主" 的剧情。机器人识别到物体后,还会在胸前的平板上显示出来,让你知道它 "看" 到了。
3. 表演:手势 + 情感 + 语音三重表达
这才是最惊艳的部分!机器人讲故事可不是干巴巴念文本:
- 手势系统
:用 GAN 生成和语音同步的节奏手势,再加上语义相关的动作(说到 "大象" 就做大象的动作)
- 情感表达
:用 RoBERTuito 分析每句话的情绪,然后调节语速、音高,甚至眼睛的颜色(黄色 = 开心,蓝色 = 难过,白色 = 中性)
- 语音合成
:用 Nuance TTS 生成自然的人声
PART/3
实验
真实用户测试:25 个人亲测,结果超出预期
研究团队找了 25 个志愿者做用户测试,年龄从 20 岁到 40 + 岁,有机器人专家也有完全没接触过的普通人。
【实验设置示意图】
【交互流程图】
整个互动流程是这样的:
机器人先推荐 5 个经典童话(《野兽国》《好饿的毛毛虫》等)
你选一个,它分三幕讲完:开端 - 冲突 - 结局
每讲完一幕,它都会停下来问你:"想改点什么吗?"
你可以用语音提要求,也可以拿实物给它看
最后,它会带着所有修改,声情并茂地表演完整的新故事!

【Llama2 推荐的故事列表及出现次数】
测试结果有多好?看看数据:
- 88%的用户修改都被成功应用到故事中
- 96%的用户认为系统 "很有创意"
- 100%的用户认可这种 "先读原版再修改最后表演" 的模式
整体体验评分:4.56/5 分!

【UEQ 用户体验问卷结果柱状图】
用户体验问卷显示,这个系统在 "吸引力"" 清晰度 ""刺激性"" 新颖性 "四个维度都达到了" 优秀 " 级别!大家最喜欢的是机器人胸前平板显示的信息(4.84/5 分),还有手势和语义的配合(4.24/5 分)。

【访谈便签纸分析图】

【亲和图分析结果柱状图】
PART/4
总结与未来展望
机器人讲故事,离我们还有多远?
当然,这个系统还有一些小问题:
语音识别偶尔会出错(30.3% 的转录不精确)
生成修改后的故事需要等约 25 秒
大模型总偏爱那几个经典童话,多样性还不够
但瑕不掩瑜!这项研究证明了零样本大模型 + 社交机器人这条路完全走得通。想象一下未来:
幼儿园里,机器人陪着小朋友一起编故事
医院里,会讲故事的机器人帮小朋友缓解看病的恐惧
家里,老人也能和机器人一起回忆往事、创作故事

【各模块平均处理时间表】
研究团队说,下一步他们会:
做对比实验 —— 看看有手势和没手势、机器人和真人讲故事的区别
优化大模型的提示词,让故事更多样
支持更多语言,找更多不同年龄的用户测试
这篇论文让我们看到了 AI 和机器人结合的无限可能。以前我们总说 "AI 取代人类",但这个项目告诉我们:AI 更棒的用法,是和人类一起创造。
你改剧情,我来写;你拿道具,我来演 —— 机器人不是来抢 "讲故事" 这个工作的,而是来当我们的创意伙伴,让每个人都能成为故事的创作者。
或许在不远的将来,每个孩子的床头,都会有一个这样的机器人伙伴:它会听你的想法,会看你的玩具,会用生动的手势和表情,和你一起,讲出属于你们的独一无二的故事。

有相关需求的你可以联系我们!