当前位置:首页 > 今日A股公司股市行情 > 正文内容

阿里深夜炸场!通义千问发布新一代端到端旗舰模型Qwen2.5-Omni

5个月前 (03-27)今日A股公司股市行情13

  

  财联社3月27日讯,北京时间周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模型Qwen2.5-Omni。这款端到端多模态模型专为广泛的多模态感知设计,能够处理文本、图像、音频和视频等多种输入,同时能够通过生成文本和合成语音提供实时流式响应。

  据“通义千问Qwen”官方微信号介绍,这款模型的主要特点如下:

  全能创新架构:Qwen团队提出了一种全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

  实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

  自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

  全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。

  卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

  模型性能方面,Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

  在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

  该模型现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源开放。

  

(文章来源:科创板日报)

   责任编辑:137 原标题:阿里深夜炸场!通义千问发布新一代端到端旗舰模型Qwen2.5-Omni

相关文章

港股IPO持续火爆!一日4家公司递表 130家企业排队中!-保险资管“2024成

港股IPO持续火爆!一日4家公司递表 130家企业排队中!-保险资管“2024成

  赴港上市的公司越来越多,仅在5月9日,就有4家公司递表。   港交所官网显示,截至4月30日,仍有130家公司的上市申请在处理中,已上市19家,待上市的公司18家。...

232只股中线走稳 站上半年线

232只股中线走稳 站上半年线

  证券时报·数据宝统计,截至今日下午13:59,上证综指3282.87点,收于半年线之下,涨跌幅-0.12%,A股总成交额为9329.47亿元。到目前为止,今日有232只A股价格突破了半...

2月美国三大债主均增持美国国债 中国增持235亿美元

2月美国三大债主均增持美国国债 中国增持235亿美元

     当地时间4月16日,美国财政部公布的数据显示,2025年2月,美债前三大海外债主日本、中国、英国均增持美...

最高增速达570%!这些新能源车企,最新数据来了

最高增速达570%!这些新能源车企,最新数据来了

  3月1日,多家新能源车企公布2月销量数据。   新势力方面,2月,小鹏汽车稳居新势力“销冠”,成为唯一交付量破3万台的品牌。理想汽车、零跑汽车、小米汽车紧随其后,月交...

开源证券:微信接入DeepSeek加速国产AI生态繁荣

开源证券:微信接入DeepSeek加速国产AI生态繁荣

  事件:微信测试接入DeepSeek   开源证券发表研究报告称:2月16日,腾讯确认微信搜一搜在调用混元大模型丰富AI搜索的同时,正式灰度测试接入DeepSeek。部...

机构测算:险资用足权益资产比例上限 可带来1.66万亿增量资金

机构测算:险资用足权益资产比例上限 可带来1.66万亿增量资金

  国家金融监督管理总局发布《关于调整保险资金权益类资产监管比例有关事项的通知》,优化险资投资比例。富国基金测算显示,保险行业2024年资金运用余额为33.26万亿,预计若用足权益资产比例...