【Pytorch:nn.Embedding】简介以及使用方法:用于生成固定数量的具有指定维度的嵌入向量embedding vector

news/2024/7/19 10:18:07 标签: pytorch, embedding, 深度学习, transformer, detr

文章目录

  • 1、nn.Embedding
  • 2、使用场景

1、nn.Embedding

  • 首先我们讲解一下关于嵌入向量embedding vector的概念

1)在自然语言处理NLP领域,是将单词、短语或其他文本单位映射到一个固定长度的实数向量空间中。嵌入向量具有较低的维度,通常在几十到几百维之间,且每个维度都包含一定程度上的语义信息。这意味着在嵌入向量空间中,语义上相似的单词在向量空间中也更加接近。
2)在计算机视觉领域,是将图像或图像中的区域映射到一个固定长度的实数向量空间中。嵌入向量在计算机视觉任务中起到了表示和提取特征的作用。通过将图像映射到嵌入向量空间,可以捕捉到图像的语义信息、视觉特征以及图像之间的相似性。

  • 总之,嵌入向量是具有固定维度的,而不论是在NLP领域还是CV领域,都需要生成多个嵌入向量,因此也有固定数量。
  • 于是,我们就可以简单理解该类为:
CLASS torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None,
norm_type=2.0, scale_grad_by_freq=False, sparse=False, _weight=None, _freeze=False, device=None, dtype=None)
''
一个简单的查找表,用于存储固定词典和尺寸的embeddings:其实就是存储了固定数量的具有固定维度的嵌入向量
该模块需要使用索引检索嵌入向量:也就是说模块的输入是索引列表,输出是相应存储的嵌入向量。
1) num_embeddings: 嵌入向量的数量
2) embedding_dim: 嵌入向量的维度
注意:
1)它的成员变量weight:具有shape为 (num_embeddings, embedding_dim) 的可学习的参数
2)输入为:任意形状[*]的IntTensor或LongTensor,内部元素为索引值,即0到num_embeddings-1之间的值
   输出为:[*, H]的嵌入向量,H为embedding_dim
''
  • 例如:
from torch import nn
import torch


# an Embedding module containing 10 tensors of size 3
embedding = nn.Embedding(10, 3)
# a batch of 2 samples of 4 indices each
input = torch.LongTensor([[1, 2, 4, 5], [4, 3, 2, 9]])
print(embedding(input))
print(embedding.weight)
''
输出为:
tensor([[[ 0.4125,  0.1478,  0.3764],
         [ 0.5272, -0.4960,  1.5926],
         [ 0.2231, -0.7653, -0.5333],
         [ 2.8278,  1.5299,  1.4080]],

        [[ 0.2231, -0.7653, -0.5333],
         [-0.3996,  0.3626, -0.3369],
         [ 0.5272, -0.4960,  1.5926],
         [ 0.6222,  1.3385,  0.6861]]], grad_fn=<EmbeddingBackward>)
Parameter containing:
tensor([[-0.1316, -0.2370, -0.8308],
        [ 0.4125,  0.1478,  0.3764],
        [ 0.5272, -0.4960,  1.5926],
        [-0.3996,  0.3626, -0.3369],
        [ 0.2231, -0.7653, -0.5333],
        [ 2.8278,  1.5299,  1.4080],
        [-0.4182,  0.4665,  1.5345],
        [-1.2107,  0.3569,  0.9719],
        [-0.6439, -0.4095,  0.6130],
        [ 0.6222,  1.3385,  0.6861]], requires_grad=True)
''

2、使用场景

  • transformer decoder输入的嵌入向量Output Embedding
    在这里插入图片描述
  • DETR中的decoder的object queries
    在这里插入图片描述

http://www.niftyadmin.cn/n/4931631.html

相关文章

Java自动化测试之Chrome网页爬取

记录一个好玩的小插件&#xff0c;可以通过它获取网页上的某个元素&#xff0c;然后得到他的值&#xff0c;不过需要懂前端技术&#xff0c;同时还需要一个chrome的小工具&#xff0c;工具放在我的共享文件里了&#xff0c;叫 chromedriver插件 pom 依赖 <dependency>&…

VR家装提升用户信任度,线上体验家装空间感

近些年&#xff0c;VR家装逐渐被各大装修公司引入&#xff0c;VR全景装修的盛行&#xff0c;大大增加了客户“所见即所得”的沉浸式体验感&#xff0c;不再是传统二维平面的看房模式&#xff0c;而是让客户通过视觉、听觉、交互等功能更加真实的体验家装后的效果。 对于传统家装…

jvs-rules API数据源配置说明(含配置APIdemo视频)

在JVS中&#xff0c;多数据源支持多种形态的数据接入&#xff0c;其中API是企业生产过程中常见的数据形态。使用数据源的集成配置&#xff0c;以统一的方式管理和集成多个API的数据。这些平台通常提供各种数据转换和处理功能&#xff0c;使得从不同数据源获取和处理数据变得更加…

Redis_分片集群

10. 分片集群 10.1简介 业务场景&#xff0c;需要存储50G的数据。对于内存和硬盘配置不足&#xff0c;选用两种方式 一种&#xff1a;纵向扩展&#xff1a;加内存&#xff0c;加硬盘&#xff0c;提高CPU。简单、直接。RDB存储效率要考虑。成本要考虑。二种&#xff1a;横向扩…

Debian/Ubuntu清理硬盘空间

Debian/Ubuntu清理硬盘空间_debian清理磁盘空间_weixin_43606319的博客-CSDN博客 1. 删除残余的配置文件 通常Debian/Ubuntu删除软件包可以用两条命令 sudo apt-get remove <package-name> sudo apt-get purge <package-name> remove将会删除软件包&#xff0…

JVM源码剖析之Caused by: java.lang.OutOfMemoryError: GC overhead limit exceeded异常

写在前面&#xff1a; 版本信息&#xff1a; jdk版本&#xff1a;jdk8u40 垃圾回收器&#xff1a;ParallelScavenge new/old最近在群里看到有一位老哥拿着异常信息到处问&#xff0c;而发生的就是java.lang.OutOfMemoryError: GC overhead limit exceeded异常&#xff0c;恰好…

JS dom元素和鼠标位置之间的一系列属性快速参考

clientHeight 获取对象的高度&#xff0c;不计算任何边距、边框、滚动条&#xff0c;但包括该对象的补白。 clientLeft 获取 offsetLeft 属性和客户区域的实际左边之间的距离。 clientTop 获取 offsetTop 属性和客户区域的实际顶端之间的距离。 clie…

怎么学习AJAX相关技术? - 易智编译EaseEditing

学习AJAX&#xff08;Asynchronous JavaScript and XML&#xff09;相关技术可以让你实现网页的异步数据交互&#xff0c;提升用户体验。以下是一些学习AJAX技术的步骤和资源&#xff1a; HTML、CSS和JavaScript基础&#xff1a; 首先&#xff0c;确保你已经掌握了基本的HTML…