LLM资料:中文embedding库

news/2024/7/19 10:07:33 标签: embedding, LLM, 词向量, Transformer

Highlight(重点提示)

理解LLM,就要理解Transformer,但其实最基础的还是要从词的embedding讲起。

毕竟计算机能处理的只有数字,所以万事开头的第一步就是将要处理的任务转换为数字。

面向中文的开源embedding库在自然语言处理领域中扮演着重要的角色,它们能够将文本数据转换为数值向量,进而用于各种机器学习任务。以下是一些常见的面向中文的开源embedding库:

1. Tencent AI Lab Embedding Dataset

  • 简介:由腾讯AI实验室提供的中文和英文词嵌入数据集,包含超过1200万中文词汇和650万英文词汇的预训练词向量
  • 特点:该数据集提供了100维和200维的词向量表示,能够广泛应用于命名实体识别、文本分类等下游任务。
  • 优势:覆盖面广、新颖性强、准确度高,包含了大量领域特定词汇和新兴词汇。
  • 资源:可通过Tencent AI Lab Embedding Dataset页面下载。

2. M3E

  • 简介:Moka(北京希瑞亚斯科技)开源的中文文本嵌入模型,特别针对中文处理进行了优化。
  • 特点:使用大规模中文句对数据集进行训练,支持同质文本相似度计算和异质文本检索。
  • 优势:在文本分类和文本检索任务上表现优异,超越了openai-ada-002模型(ChatGPT官方模型)。
  • 资源:模型地址在M3E GitHub页面。

3. Chinese-Word-Vectors

  • 简介:一个收集了多种预训练中文词向量的资源库。
  • 特点:包含了多种不同来源和训练方法的中文词向量,如使用Word2Vec、GloVe等技术训练的词向量
  • 优势:提供了丰富的中文词向量资源,方便研究者和开发者根据需求选择合适的词向量模型。
  • 资源:可通过Chinese-Word-Vectors GitHub页面获取。

4. FastNLP

  • 简介:一款轻量级的NLP处理套件,支持中文文本处理。
  • 特点:提供了文本分类、命名实体识别等多种NLP任务的处理流程和模型。
  • 优势:易于使用,快速上手,支持自定义流程和模型训练。
  • 资源:可通过FastNLP页面下载。

5. HanLP

  • 简介:一款高性能、高可用的中文语言处理包。
  • 特点:提供了分词、词性标注、命名实体识别、情感分析等多种中文处理功能。
  • 优势:性能优异,支持多种中文处理任务,社区活跃,持续更新。
  • 资源:可通过HanLP GitHub页面获取。

6. SnowNLP

  • 简介:一个用于处理中文文本的Python库。
  • 特点:提供了分词、词性标注、情感分析等中文文本处理功能。
  • 优势:简单易用,适合初学者快速实现中文文本处理。
  • 资源:可通过SnowNLP GitHub页面下载。

这些库和资源为中文自然语言处理提供了强大的支持,无论是学术研究还是商业应用,都可以根据具体需求选择合适的embedding库进行开发和研究。随着AI技术的发展,未来还会有更多高效、实用的embedding库出现,为中文NLP领域带来新的突破。


http://www.niftyadmin.cn/n/5468095.html

相关文章

奇异值分解及MATLAB实现

svd分解基本改变 奇异值分解(Singular Value Decomposition,简称SVD)是线性代数中的一种重要技术,广泛应用于信号处理、统计学、语义分析、图像处理等多个领域。SVD不仅仅是一种数学工具,它提供了一种深入理解数据结构和解决问题的方法。接下来,我们将深入探讨SVD的概念…

在C++文件中调用C文件定义的函数需要加 extern “C“ {

在C文件中调用C文件定义的函数需要加 extern “C” 最近犯了了一个低级错误,在集成一个厂商的算法时,(C文件)总是提示找到不函数的定义错误;所以一直怀疑是厂商给的算法库中没有打包该函数的定义; 最后跟厂…

VUE——生命周期

概念&#xff1a; mounted:挂载 new Vue({el: "#x",data: {},methods: {},mounted() {}, }) 系统会自己调用&#xff0c;不需要我们调用。 案例 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><…

安全可靠!麒麟信安操作系统各版本均不受liblzma/xz漏洞影响!

近日&#xff0c;XZ Utils 5.6.0和5.6.1版本存在严重后门风险的消息披露后&#xff0c;麒麟信安立即展开全面排查&#xff0c;经分析验证&#xff0c;麒麟信安操作系统各版本均不受liblzma/xz漏洞影响。 关于liblzma/xz漏洞 漏洞描述 xz 5.6.0 与 5.6.1 版本的上游代码中发现…

Fiddler模拟App弱网测试---2G、3G网络环境

1.弱网设置 &#xff08;1&#xff09;打开Fiddler→Customize Rules&#xff1b; &#xff08;2&#xff09;找到下面框出的代码&#xff0c;在这里设置弱网参数值&#xff1b; 如果m_SimulateModem为True&#xff0c;也就是fiddler开启了弱网模式&#xff0c;那么上传1KB的内…

面试算法-127-优势洗牌

题目 给定两个长度相等的数组 nums1 和 nums2&#xff0c;nums1 相对于 nums2 的优势可以用满足 nums1[i] > nums2[i] 的索引 i 的数目来描述。 返回 nums1 的任意排列&#xff0c;使其相对于 nums2 的优势最大化。 示例 1&#xff1a; 输入&#xff1a;nums1 [2,7,11,…

ModusToolbox 实战入门- XMC GPIO应用篇

导读 ModusToolbox™ 软体&#xff1a;MCU 开发的利器 ModusToolbox™ 软体是一组支援 MCU 周边配置和应用的工具和发展。这些工具使您能够将我们的 MCU 整合到您现有的开发方法中。 ModusToolbox™ 软体的优点 提供完整的 MCU 周边配置和应用工具可整合到现有的开发方法中…

中颖51芯片学习1. 系统时钟及IO口输出操作

中颖51芯片学习1. 系统时钟及IO口输出操作 一、芯片介绍1. 规格2. 资源3. 中断源&#xff1a;4. 方框图5. 封装&#xff08;1&#xff09;32脚LQFP封装&#xff08;2&#xff09;28脚SOP封装&#xff08;3&#xff09;20脚SOP封装 二、开发环境搭建1. 安装keil2. 安装中颖keil插…