人工智能相关学习笔记
我在从事更多人工智能相关工作的过程中学到了一些东西
如何解读模型名称
-
开发者/模型名称 (Gemma 4)
-
总参数数 (26B)
-
模型结构 (A4B,Active 4B)
-
训练类型 (指令型)
-
格式 (GGUF)
-
GGUF:应用最广泛的模型,支持 Windows/Linux 系统,CPU 推理能力强
-
MLX:支持 Apple Silicon 芯片的模型
-
Safetensors:原始模型
-
TensorRT:NVIDIA GPU 模型,当整个模型加载到 GPU 上而不进行卸载时,性能最佳
- 量化方法 (UD-Q4_K_XL)
-
UD:Unsloth Dynamic(Unsloth 的专有量化方法),动态策略槽
-
根据实际输入数据确定量化前后的性能下降情况
-
根据测量结果启发式地处理每个张量的量化状态
-
Q4:4 位(基于重要性的量化方法,例如 IQ 和 AWQ) (也存在)
-
FP32(浮点数 32):基本浮点数据类型,使用 32 位
-
FP16(浮点数 16):简化的浮点数据类型,使用 16 位(分配 1/5/10 位)
-
BF16(Brain 浮点数 16):简化的浮点数据类型,使用 16 位(分配 1/8/7 位)
-
INT2 ~ INT8:简化的整数数据类型
-
K:K-Quant 系列
-
XL:Profile
-
根据张量保留精度,从 S 到 XL 划分
-
一些重要的张量保留为 BF16/FP16;这指的是它们被保留的程度。
微调术语表
- PEFT(参数高效微调)
-
低秩自适应 (LoRA):低秩自适应
-
其理论基础是低秩近似(将一个大矩阵表示为两个小矩阵的乘积)。
-
奇异值分解 (SVD) 是一个典型的例子。
-
LLM 权重矩阵本质上非常大。
-
模型由 W(现有模型)+ ΔW 构成,其中 ΔW 被视为调优值。
-
传统上,微调时会处理整个 ΔW = M × N(其中 M 和 N 为模型的初始大小)。
-
将 ΔW 分解为 ΔW = A × B(A = M × R,B = R × N)可以将复杂度从 O(MN) 降低到 O(R(M + N))。
-
QLoRA(量化低秩自适应)
-
一种旨在通过将模型本身量化为 4 位等来调整大型模型的技术。
-
DoRA(权重分解低秩自适应)
-
在 ΔW = A x B 的学习过程中,权重意图在训练期间混合在一起。
-
因此,幅度被分离出来并作为单独的参数进行管理。
- 对齐
-
RLHF(基于人类反馈的强化学习)
-
人类对模型的响应进行排序,通过评分构建奖励模型
-
通过强化学习训练模型,使其以最大化奖励的方式作答
-
DPO(直接偏好优化)
-
省略单独创建奖励模型的步骤,直接优化数据集的偏好
选项值说明
-
GPU 卸载:决定加载到 GPU 上的 Transformer 层数
-
CPU 线程池大小:要使用的 CPU 线程数
-
评估批处理大小:决定一次处理多大提示的选项
-
值越大,VRAM 使用量越多,提示处理速度越快
-
最大并发预测数:可以同时生成的答案数量;根据 lm Studio 的测试,1 应该足够了。
-
RoPE 频率基准/缩放:当需要读取比模型学习到的上下文长度更长的内容时,需要调整此值;默认值为“自动”。
-
将 KV 缓存卸载到 GPU 内存:此选项用于决定是否将对话内容加载到 GPU 内存中。
-
将模型保留在内存中:是否将模型保留在内存中而不卸载。
-
尝试 mmap0:使用内存映射加载模型;当 RAM 充足时,可有效提高加载速度和效率。
-
专家数量:要在 MoE(混合专家)模型中激活的专家数量。
-
将 MoE 权重强制到 CPU 的层数:此设置用于强制某些层的权重到 CPU 上计算。
-
闪存注意力
-
通过将矩阵分割成适合硬件加速 SRAM 的瓦片单元来计算矩阵。
-
由于注意力矩阵无需单独存储,因此可以节省内存并显著提高速度。
-
KV 缓存量化
-
通过 KV 缓存量化来节省内存;默认值通常为 FP16。
待办事项
-
Transformer架构分析
-
与RNN的比较
-
自注意力机制?
댓글 작성
게시글에 대한 의견을 남겨 주세요.