当前位置:首页 > 中概股上市公司 > 正文内容

业界首个!豆包新模型搅动AI视觉

6个月前 (02-10)中概股上市公司13

  


  

  


  

  


  

  


  

  2月10日,A股视觉认知概念股午后大幅走强,创业板星宸科技直线拉升涨停,全志科技、富瀚微、虹软科技等纷纷大幅冲高。

  消息面上,豆包发布视频生成实验模型“VideoWorld”。据介绍,不同于Sora、DALL-E、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型,仅通过“视觉信息”即可认知世界,也就是说,VideoWorld可通过浏览视频数据,让机器掌握推理、规划和决策等复杂能力。团队实验发现,仅300M参数量下,VideoWorld已取得可观的模型表现。

  目前,该项目代码与模型已开源。

  

  现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。VideoWorld选择去掉语言模型,实现了统一执行理解和推理任务。

  怎么做到的?

  豆包大模型团队称,VideoWorld基于一种潜在动态模型(Latent Dynamics Model,LDM),可高效压缩视频帧间的变化信息,在保留丰富视觉信息的同时,压缩了关键决策和动作相关的视觉变化,显著提升知识学习效率和效果。

  在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld达到了专业5段9x9围棋水平,并能够在多种环境中,执行机器人任务。

  但该模型并不完美,其在真实世界环境中的应用,仍面临着高质量视频生成和多环境泛化等挑战。这一点最直观体现在,视频中存在大量冗余信息,会大大影响模型的学习效率,使得视频序列的知识挖掘效率显著落后于文本形式,不利于模型对复杂知识的快速学习。

  大模型的视觉理解能力一直是AI前沿研究方向之一。对人类而言,与语言相比,“用眼睛看”是门槛更低的认知方式。正如李飞飞教授9年前TED演讲中提到“幼儿可以不依靠语言理解真实世界”。

  AI视觉学习,简单来说,需要大模型理解物品/空间/场景的整体含义,并根据识别内容进行复杂的逻辑计算,根据图像信息更细腻地表述并创作。

  AI视觉学习能力提升,有望催发更多的AI应用。长城证券此前发布研报称,国内AI大模型多模态能力正持续提升,如快手可灵AI大模型、字节豆包AI大模型等视频生成的效果正在持续提升,包括精准语义理解、一致性多镜头生成、动态运镜等。受益于底层技术能力的升级,国内AI应用持续迭代,token调用量持续增长,AI应用有望从中受益。

  

(文章来源:财联社)

   责任编辑:18 原标题:业界首个!豆包新模型搅动AI视觉

相关文章

DeepSeek突传重磅!多家车企宣布 AI应用大爆发

DeepSeek突传重磅!多家车企宣布 AI应用大爆发

  DeepSeek在应用端的想象空间正在打开。   2月8日消息,QuestMobile的最新数据显示,DeepSeek在1月28日的日活跃用户数首次超越豆包,随后在2...

3月13日晚间沪深上市公司重大事项公告最新快递

3月13日晚间沪深上市公司重大事项公告最新快递

  沪深两市多家上市公司3月13日晚间发布公司公告,以下为重要公告汇总。   【品大事】   比亚迪:股东及其一致行动人持股比例被动稀释 触及1%整数倍...

周三热门中概股涨跌不一 台积电涨3.97% 阿里巴巴跌2.86%及知名品牌被曝后

周三热门中概股涨跌不一 台积电涨3.97% 阿里巴巴跌2.86%及知名品牌被曝后

     周三热门中概股涨跌不一。纳斯达克中国金龙指数(HXC)收高0。94%。   上涨股当中(按市值...

百度去年净赚234亿元!文心大模型日调用量增长33倍

百度去年净赚234亿元!文心大模型日调用量增长33倍

        2月18日晚,百度发布2024年第四季度及全年财报,2024年百...

周二热门中概股涨跌不一 理想汽车涨超6%-兴业证券:20张图精析本轮港股行情 南

周二热门中概股涨跌不一 理想汽车涨超6%-兴业证券:20张图精析本轮港股行情 南

     周二热门中概股涨跌不一。纳斯达克中国金龙指数(HXC)收高0。56%。   上涨股当中(按市值...

中金:今年以来油价大幅下跌 航空公司成本有望明显改善及华西证券:预计2030年我

中金:今年以来油价大幅下跌 航空公司成本有望明显改善及华西证券:预计2030年我

  中金公司研报表示,预计2025-2028年中国民航客运供给(可用座公里)年均增速约3。1%(vs2009-2019年15。4%),其中行业客运飞机年均增速仅2。8%。这为航空周期启动奠...