阿里开源支持视频理解的多模态 llm qwen2-凯发k8一触即发

2024年9月20日上午8:45 • 工具软件

国内现在还没有特别好的多模态闭源模型尤其是支持视频理解的，阿里这就开源了。不过最大的qwen2-vl 72b 没有开源，只开源了比较小规模的 2b 和 7b。

qwen2-vl 基于 qwen2 打造，相比 qwen-vl，它具有以下特点：

读懂不同分辨率和不同长宽比的图片：qwen2-vl 在 mathvista、docvqa、realworldqa、mtvqa 等视觉理解基准测试中取得了全球领先的表现。
理解20分钟以上的长视频：qwen2-vl 可理解长视频，并将其用于基于视频的问答、对话和内容创作等应用中。
能够操作手机和机器人的视觉智能体：借助复杂推理和决策的能力，qwen2-vl 可集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作。
多语言支持：为了服务全球用户，除英语和中文外，qwen2-vl 现在还支持理解图像中的多语言文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

模型架构上值得注意的内容：

qwen2-vl 在架构上的一大改进是实现了对原生动态分辨率的全面支持。与上一代模型相比，qwen2-vl 能够处理任意分辨率的图像输入，不同大小图片被转换为动态数量的 tokens，最小只占 4 个 tokens。
架构上的另一重要创新则是多模态旋转位置嵌入（m-rope）。传统的旋转位置嵌入只能捕捉一维序列的位置信息，而 m-rope 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分，使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/yun299487.html

开源支持视频理解视频

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

一亿上下文长度的 llm：ltm-2-mini

上一篇 2024年9月20日

tolan：人格化的 chatbot

下一篇 2024年9月20日

工具软件

morphic studio：为创建受控视频做的 ai 视频平台

morphic studio：为创建受控视频做的 ai 视频平台 morphic studio 包括 canvas 和 compose 功能，canvas 是一个全面的故事板和生成…

2024年8月31日
工具软件

flux 的周边生态发展迅速

flux 的周边生态发展迅速前段时间由于 sd3 的问题，开源的图片生态发展一度停滞，值得关注的新项目和模型几乎没有。 flux 上周发布后这个态势被快速改变了，由于其优秀的图片…

2024年8月31日
工具软件

clapper app：ai 剪辑工具

clapper app：ai 剪辑工具非常强的网页端 ai 生成和视频剪辑工具。接入了 ai 视频需要的各种 api，包括图片生成、llm、语音生成、音乐生成、视频生成。时间轴直…

2024年8月31日
iphone相机在室内灯光下闪烁/闪烁：修复

您的 iphone 相机在室内灯光下闪烁或闪烁太多吗？您用 iphone 拍摄的视频看起来不太好，因为灯光会亮起。您在视频上看到的闪烁是因为刷新率的差异。这是不正常的，有一些方法可…

2024年6月1日 • 苹果apple
工具软件

viva：首个可供使用的 dit 架构视频生成工具

viva：首个可供使用的 dit 架构视频生成工具海外产品 viva 发布了首个开放给全部用户使用的 sora 同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频…

2024年5月20日
工具软件

krea ai 发布 ai 视频生成功能

krea ai 发布 ai 视频生成功能是可以定义首位帧的，而且每张图片对应的提示词都可以自定义。看起来像是之前发过的基于 ipadapter 的 animatediff 的工作…

2024年5月20日
工具软件

deepseek 发布 deepseek-v2 模型

deepseek 发布 deepseek-v2 模型 deepseek 上周发布了deepseek-v2模型，将现在优秀 llm 的价格战又抬上了一个新的高度，百万 token 输…

2024年5月20日
frame：开源的 ai 眼镜

frame：开源的 ai 眼镜由一个开源的ai硬件，frame ai 眼镜。你可以通过语音和 frame 进行沟通，它的回复会显示在眼镜屏幕上，而且会有小图标表示现在的情绪。…

工具软件 2024年5月10日
friend：开源的语音对话ai 硬件

friend：开源的语音对话ai 硬件轻松捕捉对话。只需将其连接到移动设备，无论您走到哪里，都会自动保存会议、聊天和语音备忘录的高质量转录。获取即时摘要、重点亮点、思维导图、待…

工具软件 2024年5月10日
工具软件

生数科技发布vidu 视频生成模型

生数科技发布vidu 视频生成模型生数科技不声不响整了个大活。发布 vidu 视频生成模型，支持长达 16 秒 1080p 视频直接生成。从演示视频来看一致性、运动幅度都达到了…

2024年5月10日
captions：ai 自动视频剪辑工具

captions：ai 自动视频剪辑工具 captions 这个产品可以自动识别超长视频的有价值判断并且自动剪辑成多条适合传播的短视频。生成的短视频可以选择对应的字幕模板，并且支…

工具软件 2024年5月10日
360 ai 浏览器支持 youtube 视频

360 ai 浏览器支持 youtube 视频 llm 的出现让英语知识的获取变得比以前简单非常多，尤其是文字类的内容，翻译以及总结门槛都低了非常多。但是很多知识都在视频里面，我…

工具软件 2024年5月10日
perplexity-inspired llm answer engine：开源的 ai 搜索应用

perplexity-inspired llm answer engine：开源的 ai 搜索应用一个开源的类似 perplexity 的 ai 搜索应用，含构建复杂答案引擎所需…

工具软件 2024年5月10日
reader：jina开源的网页内容爬取工具

reader：jina开源的网页内容爬取工具将网络信息灌输到大语言模型（llm）中是实现信息实体化的关键步骤，但这一过程充满挑战。最直接的方法是直接抓取网页内容并提取其 html…

工具软件 2024年5月10日
rag flow：新的rag开源框架

rag flow：新的rag开源框架 infiniflow开源的项目叫rag flow，有下面这些特点： ragflow的核心功能是文档的智能解析和管理，支持多种格式，并允许用户使…

工具软件 2024年5月10日
工具软件

databricks 发布了新的可能是现在最强的开源模型 dbrx

databricks 发布了新的可能是现在最强的开源模型 dbrx 模型架构： 132b参数的moe模型，一共拥有16个专家，每个token激活4个专家，意味着有36b的活跃参数，…

2024年5月10日
工具软件

open ai 发布了语音克隆方案及sora艺术家测试视频

open ai 发布了语音克隆方案及sora艺术家测试视频多模态的任何一环open ai都想做啊，这个语音克隆的功能也上了，声音和面部以及身体数据是未来内容生产能力爆炸之后，每个…

2024年5月10日
工具软件

adobe 的 videogigagan 项目可以将模糊的视频变成高清

adobe 的人们开发了一种生成式 ai 模型，该模型很快就会让您将视频升级到原始分辨率的八倍。adobe在最近发表的一篇名为videogigagan的论文中声称，该模型远远优于过…

2024年4月25日
工具软件

whatsapp将获得基于文本的状态更新的新界面以及转发和快退视频的能力

whatsapp 通过定期更新不断改进。最近的报道表明，whatsapp正在开发一个新的状态更新界面，为基于文本的更新提供自己的空间。此外，whatsapp 还改进了平台上的视频播…

2024年4月6日
苹果apple

如何在iphone照片应用程序上编辑视频

如何在iphone照片应用程序上编辑视频在不断发展的数字媒体世界中，视频的质量可以产生重大影响。将 iphone 放在口袋里，您可以使用一个非常强大的工具来捕获和编辑视频，这些视…

2024年3月29日
苹果apple

如何在iphone照片应用程序上编辑视频

如何在iphone照片应用程序上编辑视频在不断发展的数字媒体世界中，视频的质量可以产生重大影响。将 iphone 放在口袋里，您可以使用一个非常强大的工具来捕获和编辑视频，这些视…

2024年3月28日
苹果apple

如何加快ipad的使用速度

如何加快ipad的使用速度寻找更快、更智能地完成工作的方法几乎是每个人的首要任务。ipad 是每个人的首选小工具，从忙碌的专业人士到创意人士和学生，它提供的远不止眼前所见。幸运的…

2024年3月26日
工具软件

5 种 ai 工具可改善您的视频编辑并节省时间

5 种 ai 工具可改善您的视频编辑并节省时间如果您正在寻找减少编辑视频时间的方法，您可能会对五种 ai 工具感兴趣，它们不仅可以改善您的视频编辑工作流程，还可以节省您的时间。您…

2024年3月26日
工具软件

open-sora 开源替代 openai 的 sora 文本转视频 ai

open-sora 开源替代 openai 的 sora 文本转视频 ai 继今年早些时候推出 sora 之后，openai 强大的文本到视频 ai 模型以 open-sora 的…

2024年3月26日
工具软件

stable video 3d 从单个图像创建动画

stable video 3d 从单个图像创建动画如果您有兴趣使用新的 stable video 3d（stability ai 发布的工具）从单个图像创建 3d 外观的视频，并…

2024年3月26日

阿里开源支持视频理解的多模态 llm qwen2-凯发k8一触即发

相关推荐