【导读】8月20-22日,由中国自动化学会主办的2024中国自动化与人工智能教育大会暨2023-2024学年全国青少年劳动技能与智能设计大赛全国决赛在北京召开。会议特别邀请了科大讯飞股份有限公司副总裁、研究院院长刘聪作了题为“讯飞星火大模型最新进展及其在教育领域典型应用”的报告。刘聪院长认为大模型的“智能涌现”推动了AI技术阶跃,也引发了国内外大模型发展浪潮,但通用大模型的发展仍面临诸多技术挑战,例如大模型的可信可解释问题、端到端等新框架推广性问题、大模型个性化“最后一公里”问题、支撑大模型的算力集群建设问题等。同时,刘聪院长也分享了讯飞星火大模型在教育领域的最新应用情况。
在过去的一年多时间里,全球科技发展节奏异常迅速,尤其是以OpenAI为代表的大模型的崛起,推动了新一轮的人工智能浪潮。许多专家指出,这次技术进步对未来经济和科技发展的影响深远。通用人工智能被认为是未来最重要的发展方向之一,预计在未来超过80%的企业将会应用此类技术,而目前这一比例还很少,且主要集中在美国。此外,半导体、物理和生命科学等领域也将受到大模型的深刻影响。
教育是人工智能特别是大模型应用的一个重要领域。白宫已要求支持人工智能工具在教育中的部署,联合国教科文组织也发布了关于生成式人工智能的相关教育和研究指南。今年3月,我国教育部提出推动大模型从课堂走向应用,以人工智能赋能教育。我国对此高度重视,从去年4月的中央政治局会议到12月的中央经济工作会议,都强调了将通用人工智能应用到各类场景的重要性。今年3月的两会上,“人工智能+”行动正式写入政府报告。习近平总书记在今年6月的两院院士大会上再次强调,人工智能、量子技术和基础生物学等前沿技术需要集中涌现,推动链式变革。
一、大模型的发展
过去一年半,无论在国内还是国际上,科技竞争都异常激烈。国际上,OpenAI从发布GPT-3.5到GPT-4/4 Turbo及其多个版本,发展迅猛。谷歌整合了其强大的研究机构Brad和DeepMind,推出了Gemini模型。Meta则采取了开源策略,开发了Llama模型,对我国大模型的发展也产生了积极影响。
认知智能大模型的崛起主要得益于几方面因素。首先,这些模型依然基于深度学习框架,尽管框架未发生根本变化,但此次以ChatGPT为代表的大模型结合了transformer、强化学习等新技术,并通过大规模数据应用,如今通用模型也能实现以前只能由专门模型完成的任务。这些模型通过不断的用户反馈进行迭代,产品设计愈加完善。其次,尽管在大模型基础上延展出现了多模态能力,但语言依然是核心。语言智能是人类智慧的重要部分,人类简史表明,约7万年前的认知革命以及语言的诞生,使得人类文明得以迅速扩展并主宰世界。在教育领域,从中小学到大学,学习载体仍然主要以语言为核心,这使得语言智能在认知模型中的地位尤为突出。
在近期的人工智能发展中,特别是OpenAI在GPT-3.5之后推出的GPT-4、GPT-4V等模型在处理行业复杂任务和多模态数据方面展现了更高的能力。以GPT-4V为例,该模型在复杂场景视觉推理能力的表现非常出色,例如在导航中能够结合图像和文字信息,分析并推荐最短路径。同时,GPT-4V还在更具挑战性的任务中表现出色,例如解决复杂的数学题,不仅需要理解题目本身,还要结合图像内容,并利用代码解释器工具完成解题。此外,GPT-4V在生成图像的强语义一致性方面也表现优异,能够根据简单的提示,如“咖啡店门口的广告牌”,精准识别并生成相应的图像和文字内容。
Sora模型进一步推进了对世界模型和物理规律的模拟与生成。其进展不仅在于算法的创新,也离不开视频训练标注了高质量的数据和强大算力的支撑。目前,国内已有多家企业在视频生成方面取得了显著进展,生产出高质量的视频效果。
在此之后,5月14日发布的GPT-4o模型吸引了广泛关注。该模型首次实现了真正的端到端交互体验,在语音和多模态交互方面具有颠覆性创新。其响应速度极快,能够在交互过程中随时进行打断,支持多模态理解,并表现出情感感知和表达能力。尽管情感表达本身并非全新概念,但OpenAI在GPT-4o的开发过程中进行了系统性工程优化,使其具备了更加成熟的交互能力。
二、大模型遇到的挑战
在过去一年多的时间里,人工智能领域的挑战不断演变。虽然当前的大型语言模型在许多方面已经取得了显著进展,但未来仍有许多问题值得关注,我也将在这些领域展开进一步研究。其中,模型的可信性与可解释性是一个关键问题。尽管模型在发布以来,通过底座模型的改进、基于搜索和插件的增强,幻觉问题有所缓解,但在医疗和金融等对生成结果可靠性要求极高的领域,仍然面临巨大的挑战。
其次是端到端等新框架推广性问题。框架和算法的不断演进,确实在技术指标和用户体验上带来了显著提升。然而,在实际应用中,我们发现仍存在诸多困难,如多模态数据的获取与对齐、数据模式的转变,以及整个过程中可定制化和可解释性的挑战。这些问题都是未来需要深入研究和解决的。
从应用角度来看,大模型个性化“最后一公里”问题也非常关键。在初次接触OpenAI及国内大模型时,用户可能会对其输出感到惊艳,但随着使用的深入,模型生成的内容可能显得平淡,因为它未能充分反映用户的个性化需求。尽管包括OpenAI在内的企业都在努力改进模型的记忆和个性化功能,但从产业角度来看,这仍是一个技术实现上的巨大挑战。
除了上述算法和技术挑战外,支持大模型所需的算力集群也是一个重要的工程化难题。为了探索Scaling Law,需要规模庞大的计算集群,但在国产算力与英伟达生态存在差距的情况下,如何在国产框架下实现有效支持,仍然面临着巨大的挑战。这不仅仅是一个技术问题,更是一个复杂的系统工程。
GPT仍然基于深度神经网络框架,虽然没有跳出新的框架,但该框架成功推动了认知智能和多模态智能的发展,提升了技术的门槛。目前,大家都在探索Scaling Law,但其具体的曲线仍在研究中。大模型在纯文字世界中表现出色,文本输入与输出形成类似函数的闭环,不断学习,且训练数据量充足。在此基础上,大模型以认知智能为核心,拓展到多模态和具身智能,结合实际场景,带来了广泛的应用前景。
三、科大讯飞星火大模型
科大讯飞多年来一直致力于人工智能的发展,积累了丰富的技术和产业经验。自2022年OpenAI发布以来,当年12月,我们启动了“1+N”的攻关计划,其中“1”代表技术底座建设,“N”则涵盖了教育和办公等多个行业场景。过去一年多时间内,进展迅速,从0到1,围绕自主算法和国产算力的改进,星火大模型持续迭代了多个版本,每次发布会都伴随底座更新和相关产品的发布。最新的V4.0版本,实现了全面对标GPT-4 Turbo,并且在国内外中英文12项主流测试集中,星火V4.0实现了8项超越。
星火大模型的多模态能力也取得了显著进展。例如,在教育领域,讯飞星火图文识别大模型能够识别并分析学生的作业,其中包括复杂的数学公式和化学分子式,类似的技术还可应用于医疗检查单和企业文档的处理。
在今年高考后,不论是语文作文还是数学解题,星火大模型都展现出了强大的能力。例如,在高考作文评分中,模型生成的文章平均能获得50-53分,这表明模型对题目语义有着深刻的理解,在文本生成上也有着很强的能力。
四、讯飞星火大模型的技术创新
科大讯飞针对大模型面临的技术挑战,开展了一系列关键工作。
首先,面对大模型可信可解释问题,讯飞通过算法优化和多语言混合协同过滤等方法,结合实际应用场景持续改善。其中,基于评语模型的大模型幻想问题优化属于超级对齐技术方向的探索:评语模型指出大模型存在的幻觉问题,大模型得到评语模型的评价后自我完善提升。同时,评语模型也通过强化训练进一步提升发觉幻觉问题的能力,整个过程无需人参与标注,两个模型相互博弈、共同进化。除此之外,多语言混合协同过滤后进行精细数据清洗的方法也能获取高质量数据。通过多语言句子篇章的全局统一表示,再创建立体化保障机制,改善大模型的污语料和幻觉问题。
在端到端等新框架推广性问题上,近期,讯飞官宣发布星火极速超拟人交互,在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现突破。这背后便是从此前的级联方案,升级为统一神经网络直接实现语音到语音端到端建模,大幅缩短响应时间,做到了真正的“极速”,同时也提升了交互的拟人度和流畅度。
在个性化生成方面,科大讯飞给出的答案是打造更懂你的AI助手,结合通用大模型底座和6月27日率先发布的“个人空间”,AI助手能基于用户画像进行个性化表达,基于交互历史实现记忆学习,基于个人资料进行增强学习。在“个人空间”里,用户可以上传自己的工作、学习、生活、健康等各类资料,形成每个人的专属知识库,再结合人设,让大模型生成更个性化内容。拓展到专业领域,讯飞升级了讯飞晓医APP,能够根据电子病历、检查报告、体检报告等用户个性化资料,构建个人数字健康空间,提供了新的个人及家庭健康管理模式,展现大模型+个性化+专业领域的新可能。
在算力集群建设上,科大讯飞自研平台实现大模型训练推理一体化设计,陆续与华为合作发布了星火一体机、首个国产万卡算力集群“飞星一号”,基于“飞星一号”完成了讯飞星火大模型V3.5、V4.0模型训练,实现全面对标GPT-4 Turbo。目前,“飞星一号”作为国产算力集群代表,整体训练性能已经从30%提升到95%,这一数据仍在持续优化;“飞星一号”已常态化支撑讯飞星火大模型训练,平均资源利用率超90%。在复杂系统工程能力上,讯飞自研出超大集群的智能框架和异构调度系统,保障大模型训练长时稳定运行,平均故障间隔对标Meta的Llama 3.1训练已达到相当水准。
五、讯飞星火在教育领域的应用
在教育领域,科大讯飞基于多年积累的技术与场景经验,致力于通过人工智能技术提升教育质量,满足中小学和高等教育的不同需求。在中小学基础教育中,讯飞的重点在于减负增效,推动“五育并举”。随着新教材、新课程、新高考的引入,教师面临备课与教学设计的巨大压力。基于星火大模型,讯飞推出星火教师助手,以对话式、生成式的自然交互,为教师智能生成科学系统的单元教学规划、创新引领的教学设计、贴合情境的教学课件等内容,提高教师备课效率;在家访、班会设计等日常工作和教研场景,星火教师助手也能启发灵感,助力教师成长。根据一线教师应用数据,星火教师助手实现教学设计效率提升超56%,课件制作效率提升超64%,好评率高达93%。此外,讯飞还利用课堂实录和分析工具,帮助教师优化教学内容,并促进学生高级思维的发展。
在个性化学习方面,讯飞早已开始探索如何因材施教。基于星火大模型对各类学习资源的深度理解能力,目前能够实现跨场景的学生学情画像,并融合其他维度的作答行为数据,实现多维学情诊断画像,进而给出动态学习路径的规划,并基于阶段学情智能生成共性和个性的错题、分层题包,同时提供个性化学习资源,满足孩子自主学习的需求。除了传统的习题类资源,大模型的加持让推荐系统能够拓展到多模态资源,帮助孩子提升学习效果和效率。在获得合适的学习路径和资源后,1对1辅导才是最优解,要历经思路点拨、分布列式、个性纠因这几步。基于星火大模型所全新升级的AI交互式答疑辅学,在精准捕捉孩子每一步标准作答动作后,能以启发引导的风格发问,让孩子通过互动探究式的学习进行自主思考,实现了1对1的个性化辅导;应用试点分析显示,这种方式不仅大大提升了学生主动参与答疑的比例,也显著提升了学习效率。目前,AI 1对1答疑辅导也已经上线讯飞AI学习机,让孩子多了一位AI辅学老师。
在高等教育方面,讯飞致力于帮助高校构建一流学科课程资源。通过知识图谱和代码大模型,讯飞协助高校教师开发实践性强的课程,并自动化命题和评估学生提交的作业。在科研方面,讯飞的科研助手通过文献调研、内容提炼和辅助写作等功能,为科研工作者提效;同时积极与关高校和科研机构团队也基于星火大模型开展AI for Science前沿方向的探索。
(本文根据作者所作报告速记整理而成)