CLIP浅谈

news/2024/7/19 10:16:36 标签: clip, 多模态, transformer

CLIP论文地址:Learning Transferable Visual Models From Natural Language Supervision
CLIP代码地址:https://github.com/openai/CLIP

简介

CLIP是OpenAI在2021年2月发表的一篇文章,它的主要贡献有以下2点:
1)将图像分类问题映射为了多模态问题,也就是说他的图片标签不再是一个单词类别,而是一段文字描述,例如:“A photo of {label}”;
2)利用4亿的训练数据,将待分类的图片映射为了zero-shot问题,对于新来的数据,只需要把标签记录下来,就可以直接分类,而不需要重新训练。

模型结构

在这里插入图片描述

text encoder可以简单地理解为bert,作用为将图片的描述映射为特征向量,假如有n个句子,就是n个文本特征,image encoder可以理解为vit,假如有n张图片,也会得到n个图片特征。最后将文本特征和图片特征计算余弦距离,可以得到n*n的矩阵。由于每个文本只有一张对应的图片是正例,同理每一张图片只有一句文本是正例,因此对角线处的余弦距离最近,相似度最高,其他位置的距离要尽可能的大,相似度尽可能的低。当训练完成后,在预测的时候,只需要计算每张图片与待预测的类别余弦距离即可,找距离最近,相似度最高的一个类别就是输出结果。

实验结果

在这里插入图片描述

实验结果表明,clip在众多数据集上都战胜了resnet50,这在之前的网络中是不可能的。


http://www.niftyadmin.cn/n/5197046.html

相关文章

【自我管理】To-do list已过时?学写Done List培养事业成功感

自我管理:已完成清单(doneList)培养事业成功感 待办事项清单常常让人感到压力山大,让人不想面对工作。但是,你知道吗?除了待办清单之外,还有一个叫做「已完成清单」的东西,它可能更符…

切面Aspect + 策略模式实现待办提醒功能

1.背景 产品需要实现一个待办提醒功能,就是核心业务发生变更即提醒业务员去处理相关业务。譬如:订单上传了支付凭证,那么就会提醒相关业务员去待办列表操办。 2.表设计 其实表设计主要是两张表sys_todo、sys_todo_detail 一张是待办核心表…

3.什么是Spring IOC 容器?有什么作用?

什么是Spring IOC 容器 控制反转即IoC (Inversion of Control),它把传统上由程序代码直接操控的对象的调用权交给容器,通过容器来实现对 象组件的装配和管理。所谓的“控制反转”概念就是对组件对象控制权的转移,从程序代码本身转移到了外部…

steam搬砖项目2023年现状分析,到底还能不能做?

关于CSGO游戏搬砖项目的5大认知误区 当前的steam搬砖项目市场正变得混乱不堪。你对该项目的了解程度决定了你是否能在这个生态系统中获得收益。 假设你有100万资金,想要全部投入搬砖事业,但对项目一无所知,只看中收益。即使你有充足的资金&a…

亚马逊卖家售后管理做得好,差评投诉不见了!一文分享售后管理技巧

对于亚马逊卖家而言,把产品卖出去之后并非一劳永逸,往往都会涉及到售后服务,即使卖家发出了货物且收到了付款,买家也可能申请售后退货退款。售后服务是亚马逊卖家成功的关键之一,这不仅仅影响着买家的购买体验&#xf…

在UOS系统中编译CEF源码

一、下载cef代码 git clone gitbitbucket.org:chromiumembedded/cef.git 二、执行自动下载代码 由于chromium的代码很大,至少需要准备大概80G的硬盘!!!整个代码量太大还是多准备一些空间吧(强烈建议使用固态硬盘保存否…

dm 聚合函数和group的总结

-- dm:select中只能为group字段,聚合函数;不能有其他内容 select id,user_id,role_id from assets_dm_test.user_role GROUP by role_id; -- mysql: ok 执行ok,但是语法有问题,多条时只显示了第一条 sel…

力扣174. 寻找二叉搜索树中的目标节点(java,二叉搜索树的性质的运用)

Problem: LCR 174. 寻找二叉搜索树中的目标节点 文章目录 思路解题方法即注意点复杂度Code 思路 首先我们可以知道二叉搜索树的如下性质 1.若中序遍历先遍历左子树再右子树可以的到一个递增的序列 2.若中序遍历先遍历右子树再左子树可以的到一个递减的序列 所以我们得出如下思…