万隆蓄财-解读-上海AI实验室开源通用多模态大模型书生·万象3.5
投顾姓名:黎俊 执业编号:A0580624120006
2025-09-04 09:00:14
0
昨晚这条消息,你们注意到了吗?上海 AI 实验室开源的通用多模态大模型书生・万象 3.5(InternVL3.5)具有多方面的显著优势和重要意义,以下是具体解读:


  1. 技术创新点

    • 级联式强化学习框架:创新提出级联式强化学习(Cascade RL)框架,通过 “离线预热 - 在线精调” 两阶段流程,能实现粗到精的渐进式推理能力提升,使全系列模型推理性能相比上一代平均提升 16.0 分。

    • 动态视觉分辨率路由:引入动态视觉分辨率路由(ViR),基于视觉一致性学习(ViCO)为每个图像切片动态选择 1/4 或 1/16 的压缩率,在语义密集区域保留高分辨率,在背景区域自适应压缩,减少 50% 视觉 tokens,在高分辨率任务上几乎无损性能的同时显著提升推理速度。

    • 解耦部署架构:提出 DvD 解耦部署方案,将视觉编码器(ViT+MLP)与语言模型(LLM)分置于不同 GPU,并结合 BF16 精度特征传输与异步流水线设计,使视觉计算与语言生成能够并行执行,有效解决了传统串行部署的资源阻塞问题,38B 模型的吞吐量提升达 4.05 倍。

  2. 性能表现

    • 多模态感知:在图像、视频问答等多模态感知任务中,旗舰模型 InternVL3.5-241B-A28B 以 74.1 的平均得分超越现有开源模型,并与商业模型 GPT-5(74.0)接近;在多模态通用感知基准 MMStar 和 OCRBench 分别取得 77.9 分和 90.7 分,超越 GPT-5 的 75.7 分和 80.7 分。

    • 多模态推理:在多模态推理方面,241B-A28B 模型在 MMMU 基准获得 77.7 分,较前代提升超 5 个百分点,位列开源榜首。其综合推理性能达到 66.9 分,超越上一代模型的 54.6 分以及 Claude-3.7-Sonnet 的 53.9 分,在数学推理、逻辑推理等复杂任务中表现突出。

    • 文本能力:在表现文本能力的 AIME、GPQA 及 IFEval 等多个基准中,可以取得 85.3 的均分,处于开源领先;文本推理基准 AIME25 和 MMLU-Pro 分别达到 75.6 和 81.3 分,全面领先现有开源多模态大模型。

    • 特色任务:在 ScreenSpot-v2 元素定位任务以 92.9 分超越同类模型;在具身智能体测试的 VSI-Bench 以 69.5 分超过 Gemini-2.5-Pro;在 SGP-Bench 矢量图理解以 70.7 分刷新开源纪录,生成任务 FID 值也优于 GPT-4o 和 Claude-3.7-Sonnet。

  3. 模型版本与适用场景

    • 多版本模型:本次开源发布了 9 种不同尺寸的模型,参数从 10 亿到 2410 亿不等,包含稠密模型和专家混合模型(MoE),是首个支持 GPT-OSS 语言模型基座的开源多模态大模型,可满足不同资源需求场景。

    • 应用场景广泛:可跨多个平台,实现恢复已删除文件、导出 PDF、邮件添加附件等任务的自动化;能泛化到全新的复杂大量小样本的具身场景,支持可泛化的长程物体抓取操作;还能根据自然语言指令生成或编辑 SVG 矢量图形,可应用于网页图形生成与工程图纸解析等专业场景。

  4. 对 AI 行业的意义

    • 推动技术进步:刷新了开源模型性能标杆,为多模态 AI 的发展提供了新的技术思路和方法,其先进的技术架构和优化方法可为其他研究人员和开发者提供借鉴,有助于推动整个 AI 领域在多模态处理、推理能力等方面的技术进步。

    • 降低开发成本:开源的模式使得更多的企业和开发者能够基于其进行二次开发和应用,无需从头开始研发,大大降低了研发成本和门槛,能够加速多模态 AI 技术在各个领域的应用落地。

    • 促进生态发展:通过开源可以吸引全球的开发者参与到模型的改进和优化中,形成一个活跃的开源社区,促进知识共享和技术交流,推动多模态 AI 生态系统的繁荣和发展。

风险提示:以上内容仅供参考和学习使用,不作为买卖依据,投资者应当根据自身情况自主做出投资决策并自行承担投资风险。市场有风险,投资需谨慎!
上述只摘职部分案例展示,不代表全部案例表现,案例仅以该反馈时间为准,历史案例不代表未来收益表现,案例仅供验证实力为主,不构成任何投资建议,据此操作风险自担,投资有风险,入市需谨慎。
免责声明:以上内容(包括但不限于图片、文章、音视频等)及操作仅供参考,我司为正规投资咨询经营机构,不指导买卖,不保证收益,投资者应独立决策并自担风险。

相关内容