VLM 系列——Qwen-VL 千问—— 论文解读

一、概述

1、是什么

     Qwen-VL全称《Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond》,是一个多模态的视觉-文本模型,当前 Qwen-VL(20231707)可以完成:图像字幕、视觉问答、OCR、文档理解和视觉定位功能,同时支持多语言对话、多图像交错对话、细粒度识别。基于Qwen- 7b (非最终版本权重)语言模型,通过引入一个新的视觉感受器(包括一个语言对齐的视觉编码器和一个位置感知适配器),赋予LLM基础视觉能力。整体模型架构和输入输出接口都非常简洁,精心设计了一个3阶段的训练流水线,在大量的图像-文本语料库上优化整个模型。
    Qwen-VL表示多任务训练后的模型,Qwen-VL-chat是基于Qwen-VL的指令调优(第三阶段SFT——监督微调)后的视觉语言聊天机器人。
        截止20240128后续又出了Qwen-VL-plus、Qwen-VL-MAX,但是目前没有论文和开源,其中Qwen-VL-MAX已经和GPT-4V抗衡,所以还是得端到端大力训啊,狗头狗头。

2、亮点

    *领先的性能:与同类产品相比,Qwen-VL在大量以视觉为中心的理解基准上实现了顶级的准确性。此外,Qwen-VL的出色表现不仅涵盖了传统的基准(如字幕、问答、接地气),还包括最近引入的一些对话基准

http://www.niftyadmin.cn/n/5351312.html

相关文章

Mac下查看、配置和使用环境变量

Mac下查看、配置和使用环境变量 一:Mac怎么查看环境变量命令 printenv一:这个命令会一次性列出所有环境变量的键值对,输出格式为: VAR1value1 VAR2value2 ...二: 也可以通过给这个命令加上环境变量名参数&#xff0…

【正点原子STM32】STM32时钟系统(时钟树、时钟源、分频器和倍频系数、锁相环、STM32CubeMX时钟树、系统时钟配置步骤)

一、认识时钟树 1.1、什么是时钟?1.2、认识时钟树(F1)1.3、认识时钟树(F4)1.4、认识时钟树(F7)1.5、认识时钟树(H7) 二、配置系统时钟 2.1、系统时钟配置步骤2.2、外设…

什么是git,怎样下载安装?

简介: 应用场景: 应用场景:团队企业开发 作用: 安装: 网址:Git - Downloads cmd 安装:winget install --id Git.Git -e --source winget

QWT开源库使用

源代码地址:Qwt Users Guide: Qwt - Qt Widgets for Technical Applications Qwt库包含GUI组件和实用程序类,它们主要用于具有技术背景的程序。除了2D图的框架外,它还提供刻度,滑块,刻度盘,指南针&#xf…

蓝桥杯---九数组分数

1,2,3 ... 9 这九个数字组成一个分数,其值恰好为1/3,如何组法? 下面的程序实现了该功能,请填写划线部分缺失的代码。 注意,只能填写缺少的部分,不要重复抄写已有代码。不要填写任何多余的文字。 代码 public class _05九数组分数 {public static void test(int[] x){int a …

[论文阅读] |RAG评估_Retrieval-Augmented Generation Benchmark

写在前面 检索增强能够有效缓解大模型存在幻觉和知识时效性不足的问题,RAG通常包括文本切分、向量化入库、检索召回和答案生成等基本步骤。近期组里正在探索如何对RAG完整链路进行评估,辅助阶段性优化工作。上周先对评估综述进行了初步的扫描&#xff0…

【Spark系列3】RDD源码解析实战

本文主要讲 1、什么是RDD 2、RDD是如何从数据中构建 一、什么是RDD? RDD:弹性分布式数据集,Resillient Distributed Dataset的缩写。 个人理解:RDD是一个容错的、并行的数据结构,可以让用户显式的将数据存储到磁盘…

mkcert的安装和使用,5分学会在本地开启localhost的https访问方式

mkcert官方仓库地址:https://github.com/FiloSottile/mkcert#installation mkcert 是一个简单的工具,用于制作本地信任的开发证书。它不需要配置。 简化我们在本地搭建 https 环境的复杂性,无需操作繁杂的 openssl 实现自签证书了&#xff…