继推理模型Step R-mini之后,春节前夕,阶跃星辰Step系列模型“上新”不停步!
Step-1o系列是阶跃星辰最新研发的原生端到端文本、视觉、语音三模态生成理解一体化模型。一个月前,1o家族的首个模型 Step-1o Audio问世——这也是国内首个千亿参数端到端语音大模型。今天(1月21日)Step-1o系列传来好消息:新成员 Step-1o Vision多模态理解大模型上线,Step-1o Audio语音模型能力升级。
Step-1o Vision是Step-1o多模态系列模型中的视觉版本,相比Step-1V和Step-1.5V视觉理解模型,实现了架构升级,在视觉感知和识别、指令跟随、空间理解与推理等视觉任务效果上实现了大幅提升。
新民晚报记者体验后发现,Step-1o Vision能够精准识别各种复杂图像,包括自然场景、物体细节、图表等,即使遇到图像质量欠佳或存在遮挡、变形等情况,依旧可以准确识别。
Step-1o Vision还是一款高智商的多模态模型,它能根据图片内容进行复杂推理,为你提供解题策略和创作灵感。
而全面升级后的Step-1o Audio情商更高,有了更强大的情绪感知、理解能力和个性化的风格表达,声音更自然,支持多语种及方言理解,同时实现了更低的时延。
据介绍,现在两款模型均已全量开放,登录跃问App即可使用Step-1o Audio和Step-1o Vision,且Step-1o Vision也可在跃问网页端调用。
栏目编辑:王蕾
本文作者:新民晚报 郜阳
图片来源:采访对象供图