当机器人学会讲故事：基于零样本大语言模型的初步研究

　　（来源：计算机视觉研究院）

　　计算机视觉研究院

　　公众号ID｜计算机视觉研究院

　　学习群｜扫码在主页获取加入方式

　　https://pmc.ncbi.nlm.nih.gov/articles/PMC12658079/pdf/41598_2025_Article_26446.pdf

　　计算机视觉研究院专栏

　　Column of Computer Vision Institute

　　本文提出让 Pepper 社交机器人和 Llama 2 大模型联手，打造了一个能和人类一起创作故事的神奇系统。

　　PART/1

　　背景

　　什么是 "协作讲故事"？机器人也能当 "故事合伙人"

　　讲故事是人类最古老的交流方式之一，它能教育、娱乐，还能传递情感。但以前，机器人讲故事就像播放录音 —— 都是提前写好的脚本，你没法插嘴，也没法改剧情。

　　但大语言模型（LLM）的出现改变了这一切！现在机器人不仅能讲故事，还能和你一起创作故事。你说 "把小红帽改成大灰狼"，它马上就能给你编出全新版本；你拿个玩具大象给它看，它立刻就能把大象写进故事里。

　　【系统架构图】

　　这就是研究团队打造的多模态协作讲故事系统 ——Pepper 机器人不再是单向的 "说书人"，而是变成了你的 "故事合伙人"。

　　PART/2

　　创新

　　三大黑科技加持：这个机器人到底有多厉害？

　　这个系统可不是简单的 "AI 聊天 + 机器人"，它集成了五大核心模块，每一个都大有来头：

　　1. 大脑：Llama 2 大模型（零样本学习）

　　研究人员测试了三款主流开源模型：Llama 2 13B、Vicuna 13B 和 Mistral 7B，最终选择了 Llama 2—— 不是因为它最快（Mistral 每秒 89 个 token 碾压全场），而是因为它在对话和创意生成上表现最好。

　　【不同 LLM 模型的内存占用和推理速度对比】

　　最酷的是，它用的是零样本学习—— 不需要专门针对讲故事任务进行微调，直接就能用！这大大降低了开发门槛。

　　2. 眼睛：YOLOv11 目标检测

　　用户不仅能用语音改故事，还能拿实物给机器人看！你举个苹果，它就说 "公主吃了一个神奇的苹果"；你拿个玩具车，它就加一段 "王子开着跑车来救公主" 的剧情。机器人识别到物体后，还会在胸前的平板上显示出来，让你知道它 "看" 到了。

　　3. 表演：手势 + 情感 + 语音三重表达

　　这才是最惊艳的部分！机器人讲故事可不是干巴巴念文本：

手势系统
　　：用 GAN 生成和语音同步的节奏手势，再加上语义相关的动作（说到 "大象" 就做大象的动作）
情感表达
　　：用 RoBERTuito 分析每句话的情绪，然后调节语速、音高，甚至眼睛的颜色（黄色 = 开心，蓝色 = 难过，白色 = 中性）
语音合成
　　：用 Nuance TTS 生成自然的人声

　　PART/3

　　实验

　　真实用户测试：25 个人亲测，结果超出预期

　　研究团队找了 25 个志愿者做用户测试，年龄从 20 岁到 40 + 岁，有机器人专家也有完全没接触过的普通人。

【实验设置示意图】

　　【交互流程图】

　　整个互动流程是这样的：

　　机器人先推荐 5 个经典童话（《野兽国》《好饿的毛毛虫》等）

　　你选一个，它分三幕讲完：开端 - 冲突 - 结局

　　每讲完一幕，它都会停下来问你："想改点什么吗？"

　　你可以用语音提要求，也可以拿实物给它看

　　最后，它会带着所有修改，声情并茂地表演完整的新故事！

　　【Llama2 推荐的故事列表及出现次数】

　　测试结果有多好？看看数据：

88%的用户修改都被成功应用到故事中
96%的用户认为系统 "很有创意"
100%的用户认可这种 "先读原版再修改最后表演" 的模式
　　整体体验评分：4.56/5 分！

　　【UEQ 用户体验问卷结果柱状图】

　　用户体验问卷显示，这个系统在 "吸引力"" 清晰度 ""刺激性"" 新颖性 "四个维度都达到了" 优秀 " 级别！大家最喜欢的是机器人胸前平板显示的信息（4.84/5 分），还有手势和语义的配合（4.24/5 分）。

　　【访谈便签纸分析图】

　　【亲和图分析结果柱状图】

　　PART/4

　　总结与未来展望

　　机器人讲故事，离我们还有多远？

　　当然，这个系统还有一些小问题：

　　语音识别偶尔会出错（30.3% 的转录不精确）
　　生成修改后的故事需要等约 25 秒
　　大模型总偏爱那几个经典童话，多样性还不够

　　但瑕不掩瑜！这项研究证明了零样本大模型 + 社交机器人这条路完全走得通。想象一下未来：

　　幼儿园里，机器人陪着小朋友一起编故事
　　医院里，会讲故事的机器人帮小朋友缓解看病的恐惧
　　家里，老人也能和机器人一起回忆往事、创作故事

　　【各模块平均处理时间表】

　　研究团队说，下一步他们会：

　　做对比实验 —— 看看有手势和没手势、机器人和真人讲故事的区别

　　优化大模型的提示词，让故事更多样

　　支持更多语言，找更多不同年龄的用户测试

　　这篇论文让我们看到了 AI 和机器人结合的无限可能。以前我们总说 "AI 取代人类"，但这个项目告诉我们：AI 更棒的用法，是和人类一起创造。

　　你改剧情，我来写；你拿道具，我来演 —— 机器人不是来抢 "讲故事" 这个工作的，而是来当我们的创意伙伴，让每个人都能成为故事的创作者。

　　或许在不远的将来，每个孩子的床头，都会有一个这样的机器人伙伴：它会听你的想法，会看你的玩具，会用生动的手势和表情，和你一起，讲出属于你们的独一无二的故事。

　　有相关需求的你可以联系我们！

特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

相关动态