视频文字内容:
各位老师、各位领导,大家好。很荣幸参加今天的分享,我是火山引擎的孙玉良。今天主要和各位老师、各位同事朋友,分享火山引擎在教育行业可提供的能力支撑。
教育行业纵深很深,火山引擎可提供各类原子能力,包含大模型、各类平台、面向场景的智能体等。今天抛砖引玉,在教育场景下介绍火山引擎基础能力。实际落地中场景会存在一定偏差,也希望借助本次沙龙分享,和各位老师多交流碰撞,共同探讨挖掘更多优质落地思路。
下面正式开始今天的分享:火山引擎大模型如何驱动教育行业创新、亮点与革新。
按我们的理解,教育行业分为五大阶段:
一、学前教育
面向 3–6 岁幼儿、幼儿园、早教场景。核心痛点:幼儿心智不成熟、专注力弱,如何激发兴趣、把教育做成寓教于乐,是产品研发和场景设计的重点。
二、K12 教育
涵盖小学、初中、高中标准应试教育。核心痛点:减轻老师判作业等工作负担;提升学生知识接收能力,补齐学习差异化,实现因材施教、灵活解题。
三、高等教育
包含本科、研究生、博士生等高阶教育。核心重点:专业知识拓展与科研能力培养。核心痛点:专业文献查找难、内容提炼难、科研深度研究缺乏工具支撑,火山引擎可提供对应能力解决以上问题。
四、职业教育
面向社会实际就业需求,以编程等热门行业为代表。核心痛点:现有职业教育缺少实训环境、教材老旧,和当下社会岗位需求不匹配。火山引擎在编程领域已推出全新职业教育整体解决方案。
五、成人教育
面向在职成年群体,以自考、成考、个人能力提升为主。核心痛点:在职人群时间碎片化,核心需求是把碎片化时间转为系统化学习,这也是我们解决方案的重点。
接下来产品能力介绍,将围绕学前、K12、高等、职业、成人五大教育阶段展开。针对不同阶段提供底层能力,同时也可探讨能力跨阶段、跨场景复用,共同探索新方向。下面基于教育场景理解,向各位领导汇报火山引擎基础能力。
第一部分 学前教育能力
学前教育核心:激发孩子兴趣、实现寓教于乐,幼儿对情感陪伴需求更高。典型产品形态:儿童类 APP(宝宝巴士、喜马拉雅少儿等)、智能陪伴玩具、智能音箱、对话毛绒机器人等。所有产品形态的核心目的:兴趣引导、情感陪伴,在陪伴中潜移默化传授知识。
火山引擎在学前教育提供底层模型能力:语音识别、语音合成。分为两种技术路径:
- 语音识别→对接知识库→知识检索→语音合成回答;
- 端到端模式:模型内置知识库,直接语音对话生成知识交互。同时可叠加数字人、情感情景能力,培养孩子兴趣、完成知识灌输。
1. 语音识别模型核心优势
- 多模态理解:不只是单纯语音识别,可结合多模态输入精准理解语义。结合图片场景解读指代含义,适配幼儿数字人交互、科普视频随时提问场景,结合图像理解指代对象,提升识别精准度。
- 多语种与方言识别:适配各地方言、多国幼儿识别;针对幼儿发音含糊、表达不准,依托上下文推理真实语义。
- 远场识别:适配幼儿开放式对话场景,屏蔽周边环境噪音,精准识别真实表达意图。
- 上下文推理:基于整体对话上下文,推理发音正误、预判后续表达,提升识别效果。
适用场景:儿童在线陪伴教学、课程播放交互、智能终端(对话机器人、毛绒玩具、小天才手表、儿童手机)内置落地。
2. 语音合成能力
语音识别是听懂人话,语音合成是把内容自然语音播报输出。传统 TTS 仅固定文本生硬朗读;火山引擎语音合成基于上下文实现升级:
- 上下文理解:不局限固定文本,依托语境推测真实需求,生成匹配答案,提升交互自然度与回答准确度。
- 情绪语气承接:根据对话情景自适应语速、语调、高低声线,情绪顺势承接,避免语气割裂。
- 自然语言控制播报:可语音指令调节快慢、音量、语气风格,支持故事演绎、情景对话。
- 声音复刻:可复刻老师讲课音色,用统一音色播报课件、讲解内容。
适用场景:在线少儿教育、儿童情感陪伴、智能硬件内置、有声内容制作、教师声音复刻授课。
第二部分 K12 教育能力
K12 不以情感陪伴为主,核心聚焦做题、解题、作业批改两大方向:一方面为老师减负,一方面为学生提升学习效率。
1. 企业级智能体:阿克克劳
基于开源 OpenCoze 智能体框架打造。OpenCoze 优势:具备自主工作、持续演进能力;操作系统级自主执行任务,自主选择工具完成工作;可沉淀人格化记忆,适配使用者习惯;兼容飞书、钉钉等多类办公平台。
OpenCoze 现存问题:本地权限过高存在误操作风险;Token 消耗成本高;开源框架存在漏洞,易遭遇提示词投毒、外部攻击。
火山阿克克劳为企业级升级版:继承 OpenCoze 原有优势,新增全栈安全防护、Token 消耗优化策略、云端安全隔离部署,解决本地依赖、高消耗、安全漏洞问题,深度适配教培场景落地。
K12 落地应用场景
- 作业自动下发与批改老师在飞书 / 微信群下发多维表格作业,提前上传标准答案;智能体自动完成判题,内置数学、化学复杂公式识别,无需额外插件。
- 学情多维统计自动统计作业完成率、提交率、正确率、错题分布,从学生、教学、题目多维度数据分析。
- 个性化薄弱点补强基于学生知识短板,定向推送练习题、弥补知识漏洞。
- 作业提醒与智能约课可设置定时任务自动提醒交作业;匹配师生空闲日程,自动排一对一 / 一对多课程并生成日程。
- 作业批改无人化上传答案与作业后,系统自动判题、生成学情分析、推送补充例题。
- 高频错题专项教研自动统计高频错题,推送老师重点讲解,辅助调整课件内容。
- 碎片化知识模块化梳理学科知识点划分板块,搭建内部知识库,学生可在群内自助问答,无需老师逐一解答。
- 自动生成学情报告为每位学生建立学习画像,分析学科强弱项、错题分类、成绩趋势,自动输出学情分析与提升建议。
2. 学生端:C 2.0 多模态内容理解大模型
作为搜题 APP、扫描笔、学习机的底层支撑,核心能力:
- 多模态复杂任务理解:解析复杂图表、手写例题、几何应用题、物理力学场景,通过 OCR 完成数理化公式、原理智能解析。
- 长指令长链路遵循:支持多轮追问、上下文记忆,不跑偏、不断层,适配语文资料归纳、文章创作、多步骤解题。
- 多技能调用能力:可对接各类教学 APP、教育智能体,作为底座灵活调用工具完成复杂学习任务。
第三部分 高等教育能力
核心解决高校师生文献搜集、信息摘要、科研研究需求,主打联网问答智能体。核心优势:
- 多模型内置融合:集成不同尺寸、不同版本大模型,根据问题领域自动匹配最优模型输出效果。
- 专属搜索工具:依托字节头条、抖音生态获取前沿资讯;支持对接专业文献库、学术数据库插件扩展。
- 垂直领域定制:可按学科划分专属知识板块,配置专业搜索工具、专属知识库与定制模型。
第四部分 职业教育能力
当前职业教育痛点:教材老旧、脱离行业实际,缺少专业实训环境,以编程行业最为突出。AI 编程已成行业趋势,但院校课程覆盖不足、实训缺失。火山引擎推出 Tree AI Coding 工具,打造课程 + 赛事 + 实训全链路解决方案:
- 联合生态伙伴设计 AI 编程专属课程;
- 举办火山杯等 AI 编程专题赛事;
- 搭建 Tree 实训平台,提供工具支持学生项目开发实战。
Tree 产品优势:国内首批 AI 编程工具,用户规模行业领先;支持自然语言生成代码、上下文代码补全、全周期设计开发运营评测等全功能。
第五部分 成人教育能力
核心解决在职人群碎片化学习痛点,主打AI 音视频互动解决方案。核心能力:集成语音识别、语音生成、端到端交互、数字人教师能力。核心亮点:
- 知识口语化讲授:专业内容通俗表达,减少晦涩专业词汇,适配成人自学理解。
- 随时打断交互:学习中可随时暂停、提问、查询资料,支持断点续学。
- 环境降噪与声纹识别:适配嘈杂场景,区分多人对话身份。
- 长期记忆与知识库配置:留存学习进度,对接专业知识库,支持联网查询最新资讯。
- 接口开放可集成:可嵌入各类成人教育平台、AI 教学助手。
第六部分 综合落地应用场景
1. 智能作业批改
流程:任务发布 — 学生交作业 — 模型智能处理 — 自动批改 — 学情分析 — 个性化练习推送。
2. 语文造句作文助手
输入词语即可完成释义、语法解析、自动造句、句式优化;单句扩展段落,梳理作文脉络,提升文字表达与写作能力。
3. 英语口语陪练
数字人 + 语音交互实现情景模拟点餐、买票等实景对话;对话结束复盘发音、语法、句式问题,生成矫正报告并推送拓展练习。
4. 端到端语音交互
整合语音识别、情感承接、情景演绎优势,响应更快、理解更准、情绪更贴合,适配绘本朗读、角色配音、共情对话等场景。
5. 儿童启蒙陪伴
覆盖感官启蒙、事物认知、科学故事、语言表达训练,通过高频交互引导孩子认知世界、主动表达。
6. 全学段智能解题
小学:拆解题型基础要素,拆分加减乘除逻辑;初高中:强化知识点映射、题型变种、逻辑推导梳理;文科:梳理答题思路、词性变化、文史背景体系;职业教育:适配专业题型解析。统一标准:答案准确、逻辑连贯、表述通俗易懂。
结尾
以上是基于个人对教育场景的理解,为各位领导汇报火山引擎基础能力。我们覆盖学前、K12、高等、职业、成人全教育阶段,提供对应底层能力。能力可跨阶段跨场景延伸,后续可和各位老师共同探讨、探索新方向。本次仅做基础能力抛砖引玉,期待后续更多交流与合作。