LLM int4算法autoround v0.1即将发布,欢迎试用

news/2024/7/19 11:56:53 标签: transformer, 自然语言处理, pytorch, nlp, chatgpt

概述

AutoRound(https://github.com/intel/auto-round)实现了出色的量化性能,在W4G128上多数场景中接近无损压缩,适用于包括gemma-7B、Mistral-7b、Mixtral-8x7B-v0.1、Mixtral-8x7B-Instruct-v0.1、Phi2、LLAMA2等一系列流行模型。在尽量公正的评估中,AutoRound在W4G128、W4G-1、W3G128、W2G128的大多数场景中优于GPTQ,AWQ等方法
主要特性

  • 广泛的模型支持:AutoRound可以量化多种模型族,涵盖了gemma、Mistral-7b、Mixtral-8x7B-v0.1、LLAMA1、LLAMAv2、GPT、QWEN1、OPT、Bloom、Falcon、GPT-LEO、StableLM-Base-Alpha、Dolly-v2、MPT、GPT-J-6b、ChatGLM2等。
  • 导出灵活性:无缝导出量化模型到ITREX [1]格式,用于部署在Intel CPU上,以及导出到AutoGPTQ [2]格式,用于在Nvidia-GPU上运行。
  • Tuning设备兼容性:支持tuning设备扩展到Intel CPU、Intel Guadi2和Nvidia-GPU。
  • 数据集兼容性:AutoRound支持与Pile10k和MBPP数据集的校准,可轻松扩展以纳入其他所需的数据集。

示例

  • 语言建模模型量化示例。
  • 代码生成模型量化示例。

其他

  • 已量化模型:已在Hugging Face发布几个预先量化的模型,由于公司内部审核,有些模型待发布
  • 大量得准确性数据。

精度数据示例
gemma-7b
Install lm-eval-harness from source, and the git id 96d185fa6232a5ab685ba7c43e45d1dbb3bb906d, Install the latest AutoGPTQ from source first

lm_eval --model hf --model_args pretrained="Intel/gemma-7b-int4-inc",autogptq=True,gptq_use_triton=True --device cuda:0 --tasks lambada_openai,hellaswag,piqa,winogrande,truthfulqa_mc1,openbookqa,boolq,rte,arc_easy,arc_challenge,mmlu --batch_size 32
MetricFP16int4
Avg.0.62390.6307
mmlu0.61620.6147
lambada_openai0.67510.7204
hellaswag0.60470.5903
winogrande0.73240.7514
piqa0.79430.7949
truthfulqa_mc10.30970.3011
openbookqa0.33200.3400
boolq0.82780.8269
rte0.65340.7076
arc_easy0.81780.7959
arc_challenge0.49910.4940

Mixtral-8x7B-Instruct

MetricFP16INT4
Avg.0.70000.6977
mmlu0.68850.6824
lambada_openai0.77180.7790
hellaswag0.67670.6745
winogrande0.76870.7719
piqa0.83510.8335
truthfulqa_mc10.49690.4884
openbookqa0.36800.3720
boolq0.88500.8783
rte0.71840.7004
arc_easy0.86990.8712
arc_challenge0.62200.6229

phi-2
Since we encountered an issue evaluating this model with lm-eval, we opted to evaluate the qdq model instead. In our assessment, we found that its accuracy closely matches that of the real quantized model in most cases except for some small models like opt-125m.

MetricFP16INT4 qdq
Avg.0.61550.6163
mmlu0.54480.5417
lambada_openai0.62680.6225
hellaswag0.55850.5498
winogrande0.75300.7545
piqa0.78670.7824
truthfulqa_mc10.31330.3060
openbookqa0.40000.4100
boolq0.83390.8327
rte0.62450.6643
arc_easy0.79970.7955
arc_challenge0.52900.5196

参考

[1] Intel Extension for Transformers

[2] AutoGPTQ


http://www.niftyadmin.cn/n/5397602.html

相关文章

SRC | 某后台登录绕过到getshell

本文由掌控安全学院 -17828147368 投稿 开局一个登录框,漏洞全靠运气,先测试一下弱口令无果,再来个万能密码绕过登录试试 我*,直接进去了,主要这个系统给人感觉就老 一般只要进入后台,功能点就多起来了&am…

Chat2table,简易表格分析助手

一 写在前面 之前用智谱AI的Chatglm3-6b模型写过一个简单的论文阅读助手,可用来辅助论文阅读等。而像表格,如Excel、CSV文件等内容的分析,也是不可忽略的需要,因此本文同样使用Chatglm3-6b来搭建一个表格分析助手,用于…

【Elasticsearch管理】节点角色及发现机制

文章目录 节点角色Master Eligible NodeData NodeIngest nodetribe nodeCoordinating nodeData Path 发现机制前置概念基本描述设置Zen discoveryPing列表单播基于文件 主节点选举集群故障集群状态更新无master的集群操作单节点集群发现过程 节点角色 任何时候启动一个Elastic…

笔记电商人工智能客服

天猫-店小蜜 标准模式 全自动接待:机器接待。若答不出,转人工引导语,顾客手动转人工。 智能辅助接待:机器人将辅助客服接待,在客服接待过程中提供话术推荐,并自动回复客服尚未接起的买家咨询。 混合接待…

如何在Spring Boot应用中进行文件预览?

在Spring Boot应用中实现文件预览功能&#xff0c;具体方法取决于文件的类型和你想如何预览它们。以下是一些常见文件类型的预览方法&#xff1a; 1. **图片预览**&#xff1a; 对于图片文件&#xff0c;你可以直接在HTML页面中通过<img>标签的src属性引用图片的URL来…

ubuntu开发板问题汇总

1 上网 网线一端连接到开发板 一端连接到无线路由网口 发现局域网可以相互ping通&#xff0c;但是ping www.baidu.com不通&#xff0c;提示消息 ping: bad address www.baidu.com 需要下面命令配置网关 route add default gw 192.168.31.1 然后再ping www,baidu.com即…

【MATLAB】ICEEMDAN_ MFE_SVM_LSTM 神经网络时序预测算法

有意向获取代码&#xff0c;请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 ICEEMDAN是指“改进的完全扩展经验模态分解与自适应噪声”&#xff08;Improved Complete Ensemble Empirical Mode Decomposition with Adaptive Noise&#xff09;&#xff0c;它是CEEM…

电脑周末设置节日提醒倒计时方法教程

每当节日临近&#xff0c;无论是传统的元宵节、端午节&#xff0c;还是其他各种特殊的日子&#xff0c;我总期待着能与家人团聚&#xff0c;或是为自己准备一份小惊喜&#xff0c;享受那份独特的仪式感。 但生活的忙碌和琐碎的事情常常让我忘记这些重要的日子。有时&#xff0…