《流浪地球》走入现实?讯飞星火再进化,开源 13B 大模型
CSDN
2024-01-30 19:19:30
0

原标题:《流浪地球》走入现实?讯飞星火再进化,开源 13B 大模型

去年讯飞星火认知大模型 V2.0 发布的时候,科大讯飞董事长刘庆峰曾表示,讯飞星火的代码生成和补齐维度上已经超过了 ChatGPT,并在 2024 年上半年实现对标 GPT-4。如今讯飞星火已经进化至 V3.5 版本,它现在的能力离 GPT-4 还有多远?

作者 | 王启隆

责编 | 唐小引

出品 | CSDN(ID:CSDNnews)

北京时间 1 月 30 日,科大讯飞于合肥滨湖会中心举行星火认知大模型 V3.5 升级发布会,重点展示了讯飞星火认知大模型的底层能力和应用场景,并重磅发布了讯飞语音大模型和首个 13B(130 亿参数)的开源大模型。

星火认知大模型是科大讯飞在通用人工智能领域核心技术与创新能力的重要体现,本次升级使其能力全面提升,在测评体系涵盖的 481 个维度上,通过随机动态数据的严格测试,星火 V3.5 七大能力全面提升,语言理解、数学能力超越了 GPT-4 Turbo,多模态理解能力达到了GPT-4V 的90%+ 水平。

遥想去年的发布会上,刘庆峰坦言,讯飞星火大模型的这一功能和 ChatGPT 相比还有很大差距,有待升级。如今,V3.5 的星火认知大模型代码水平已经达到了 GPT-4 Turbo 的 96%。

值得一提的是,这场发布会并没有通过单纯的“卷数据”或“卷排名”来证明实力,而是从日常、办公、学习及旅游等方面演示了大量的生活应用场景,令人身临其境。话不多说,下面一起看看 GAI(通用人工智能)赋能的生活已经离我们有多近了。

AI Agent 真要来了?

在大会的实机演示环节,科大讯飞研究院院长刘聪博士通过对话展现了星火 App 的全新功能与交互体验。当前星火 V3.5 大模型已经能模拟出自然、流畅且富有情感的声音(吐槽:女声版有点像手游配音演员),而刘聪与星火的对话模拟了日常生活情境,讨论了各自近期的工作忙碌程度、年终总结 PPT 的修改困境、春节放假安排以及春节期间的出游计划等话题。

在对话中,星火表现出高度的人格化特征,不仅能够理解刘聪对于总结发布会 PPT 的压力,还能安慰他,推荐节日放松的方式。紧接着,星火依据刘聪提出的哈尔滨旅游需求,用东北方言介绍了当地冬季特色。当刘聪询问是否可以乘坐前段时间春运首秀的国产商用飞机 C919 前往哈尔滨时,星火会直接联网反馈,告知目前暂无直飞航班,并建议查询其他出行方案。

发布会还对星火认知大模型的多模态能力和推理能力进行了现场演示。对较为复杂的几何轨迹问题,星火大模型能够识别并转化成正多边形轨迹问题,正确分析出行走人在一定路径下能否回到原点及其行走总距离。

在实际生活应用层面,展示了一个有趣的例子:识别校园地图。星火 V3.5 在处理空间关系图时,即使没有视觉参照,也能理解并解释复杂的校园建筑布局,进行导航和路径规划。

这很好地解决了有人会在大学迷路的问题。

输入一张室内平面布局图后,星火 V3.5 能精准分析出房间布局类型,并结合物体识别功能,详细描述了各功能区的具体位置。当被要求生成不同装修风格的效果图时,模型不仅能快速切换风格,还能够在原有基础上根据用户的进一步要求更改细节,如将背景墙更换为特定画面元素。

有相关经验的读者会知道,目前主流的 AIGC PPT 应用都还在根据大纲和通用模板生成一些“万金油”PPT 的阶段,可能适用于大学场合,但到了工作场合就会出现“人干的活比 AI 多”的情况。

讯飞智文相较于传统的 AI PPT 工具,不仅能高效快捷地一键生成符合用户需求的提纲,还能依据用户语音输入的问题及参考资料(比如老板给你的文档)进行精细化的内容分析与组织,打破了以往模板化的局限,真正实现了个性化定制。

此外,生成完毕的 PPT 还生成了对应的演讲参考文本,甚至能借助虚拟人技术将文本转换成语音播报,提升了口头汇报的准备工作效率。

乍一看,讯飞智文就是一个 PPT 制作工具,但实际上里面已经集成了讯飞星火大模型中的多种 AIGC 能力,通过无缝衔接文本生成、数据分析、文生图与语音合成等技术,展现出了一种趋于 GAI 初级形态的应用实践。科幻作品里的想象已经开始一步步走向现实,在未来,集成了多种能力的讯飞智文也会变成被集成的技术之一。

星火相传的语音精神

尽管面临着技术封锁和算力限制,科大讯飞还是携手华为成立联合团队,成功打造出能够支撑万亿参数大模型训练的国产专利平台“飞行一号”。通过算法优化与海量数据训练,讯飞语音大模型现在不仅限于单一的语音识别或合成任务,而是能够应用于万物互联时代的多元化场景,如智能家居控制、智能客服、车载语音助手等,通过语音指令理解和执行,使得用户能够以语音为主要交互方式,更便捷地操控各类智能设备和服务。

讯飞还宣布发布了首个 13B 参数规模的开源大模型,致力于推动国内乃至全球范围内的人工智能技术发展与生态建设,让更多开发者和研究者参与到语音大模型的开发和应用中来,共享技术创新成果,加速 AI 技术的普及与应用落地。

发布会的尾声,刘庆峰着重分享了一本书《星火相传》,这本书通过访谈 56 位科大校友、863 项目的老师和其他科大教职员工,真实记录了科大讯飞的初创故事,尤其是创始人导师王仁华教授从青年时期的求学,到成为中国科学技术大学教师,再到扶持学生科研能力和创业创新,直至支撑整个语音产业发展的全程贡献。

25 年前,中国语音技术领域几乎被国际巨头垄断(如 IBM ViaVoice),面临着巨大挑战,被扼了住咽喉。那时,中国的优秀人才往往选择出国,而国内科研机构与国际先进水平存在明显差距。在王仁华教授的支持下,科大讯飞创立,立志将中文语音技术做到世界最优,掌握中文语音产业的主导权。经过五年亏损后,讯飞最终实现盈利,并在语音合成、识别、翻译等领域取得世界领先的地位,直至今日发展到通用人工智能和大模型技术。

展望未来,随着类似讯飞听见这类尖端语音技术的不断发展,我们或许就能和《流浪地球》里的宇航员一样,一方说着汉语,另一方说着俄语,流畅自如地进行多语言无障碍交流。

相关内容

热门资讯

上海银行:以阅读为纽带,创新适... 来源:滚动播报 (来源:上观新闻) 上海书展期间,金融服务积极投身。上海银行响应“全民阅读”号召,...
799元!有道听力宝M7评测:... 2020 年后,「教育硬件」品类终于等来了自己的「好时代」——各种 AI 学习机、大模型 App 层...
原创 量... 咱今天唠唠量子纠缠这神奇玩意儿,这现象啊,可太颠覆认知了。你说俩粒子,不管分开多老远,状态还能一块儿...
研究人员利用脑机接口尝试解码内... 新华社北京8月18日电 一个研究团队日前在《细胞》杂志发表论文说,他们借助脑机接口技术,在实验中成功...
技术应用 | 大模型安全管理及... 文/中国民生银行 虞刚 牛博强 雷彪 彭晓川 当前人工智能技术正在引领数字化发展新浪潮,其中大模型被...
国资央企加速布局人工智能赛道 ... 国务院国资委最新数据显示,截至2025年7月底,中央企业已在16个重点行业布局800余个人工智能应用...
首届世界人形机器人运动会上湖北... 原标题:首届世界人形机器人运动会上湖北摘首金 “光子”化身秦俑击鼓起舞 光谷东智研发的“光子”人形...
辽宁机器人及人工智能产业集群加... 8月14日,辽宁省机器人及人工智能集群专班工作会议暨辽宁省机器人领域实验室群与产业集群互动对接会在沈...
推动科技创新资源从物理聚合到价... 提升国家创新体系整体效能,是新时期实现高水平科技自立自强、推动高质量发展的关键支撑。作为各类创新要素...
百度在北京成立新科技公司 注册... 天眼查工商信息显示,近日,北京麟行科技有限公司成立,法定代表人为沈阳,注册资本100万人民币,经营范...
大磡社区开展手机摄影培训,解锁... 深圳商报·读创客户端记者 郑恺 8月17日,大磡社区联合南山区关工委 “五老” 讲师团,举办了《搬砖...
我国首次载人航天器地外天体着陆... (来源:中国妇女报) 转自:中国妇女报 近日,传来一则振奋人心的消息:揽月月面着陆器着陆起飞综合验...
总长218公里!GIS系统赋能... 城市供水,关乎千家万户的日常生活。如何提高供水管网安全水平、降低管网漏损?8月16日,记者对此进行走...
苹果采摘机器人在山西万荣进行首... 苹果多臂采摘机器人正在进行采摘作业。山西经济日报全媒体记者 杨永生 摄 8月12日,由国家农业智能装...
漂亮的“店面”图原来10元生成... 外卖大战的硝烟还未散去,外卖店用AI图骗点单现象又引发舆论关注。 近日,多位消费者在社交平台上爆料称...
疑似魅族22真机曝光 后置方形... 【CNMO科技消息】8月18日,有数码博主曝光了即将发布的魅族22系列真机照片。从图片来看,该机采用...
200余名国内外学者在冰城研讨... 如何把林木生物技术领域的实验室成果转化为实际生产力?日前,来自美国、加拿大、比利时等10余个国家和地...
苹果2026年Mac将迈入5G... 苹果公司的创新步伐再次迈出重要一步,据知名苹果记者Mark Gurman的最新爆料,苹果计划在202...
医疗器械企业政策扶持:所得税按... 在医疗健康产业蓬勃发展的当下,医疗器械企业作为其中的关键一环,对提升医疗服务水平、推动行业进步发挥着...
固态电池板块8月18日涨1.5... 证券之星消息,8月18日固态电池板块较上一交易日上涨1.5%,紫建电子领涨。当日上证指数报收于372...