中文
人工智能相关学习笔记

人工智能相关学习笔记

我在从事更多人工智能相关工作的过程中学到了一些东西

如何解读模型名称

  1. 开发者/模型名称 (Gemma 4)

  2. 总参数数 (26B)

  3. 模型结构 (A4B,Active 4B)

  4. 训练类型 (指令型)

  5. 格式 (GGUF)

  • GGUF:应用最广泛的模型,支持 Windows/Linux 系统,CPU 推理能力强

  • MLX:支持 Apple Silicon 芯片的模型

  • Safetensors:原始模型

  • TensorRT:NVIDIA GPU 模型,当整个模型加载到 GPU 上而不进行卸载时,性能最佳

  1. 量化方法 (UD-Q4_K_XL)
  • UD:Unsloth Dynamic(Unsloth 的专有量化方法),动态策略槽

  • 根据实际输入数据确定量化前后的性能下降情况

  • 根据测量结果启发式地处理每个张量的量化状态

  • Q4:4 位(基于重要性的量化方法,例如 IQ 和 AWQ) (也存在)

  • FP32(浮点数 32):基本浮点数据类型,使用 32 位

  • FP16(浮点数 16):简化的浮点数据类型,使用 16 位(分配 1/5/10 位)

  • BF16(Brain 浮点数 16):简化的浮点数据类型,使用 16 位(分配 1/8/7 位)

  • INT2 ~ INT8:简化的整数数据类型

  • K:K-Quant 系列

  • XL:Profile

  • 根据张量保留精度,从 S 到 XL 划分

  • 一些重要的张量保留为 BF16/FP16;这指的是它们被保留的程度。

微调术语表

  1. PEFT(参数高效微调)
  • 低秩自适应 (LoRA):低秩自适应

  • 其理论基础是低秩近似(将一个大矩阵表示为两个小矩阵的乘积)。

  • 奇异值分解 (SVD) 是一个典型的例子。

  • LLM 权重矩阵本质上非常大。

  • 模型由 W(现有模型)+ ΔW 构成,其中 ΔW 被视为调优值。

  • 传统上,微调时会处理整个 ΔW = M × N(其中 M 和 N 为模型的初始大小)。

  • 将 ΔW 分解为 ΔW = A × B(A = M × R,B = R × N)可以将复杂度从 O(MN) 降低到 O(R(M + N))。

  • QLoRA(量化低秩自适应)

  • 一种旨在通过将模型本身量化为 4 位等来调整大型模型的技术。

  • DoRA(权重分解低秩自适应)

  • 在 ΔW = A x B 的学习过程中,权重意图在训练期间混合在一起。

  • 因此,幅度被分离出来并作为单独的参数进行管理。

  1. 对齐
  • RLHF(基于人类反馈的强化学习)

  • 人类对模型的响应进行排序,通过评分构建奖励模型

  • 通过强化学习训练模型,使其以最大化奖励的方式作答

  • DPO(直接偏好优化)

  • 省略单独创建奖励模型的步骤,直接优化数据集的偏好

选项值说明

  • GPU 卸载:决定加载到 GPU 上的 Transformer 层数

  • CPU 线程池大小:要使用的 CPU 线程数

  • 评估批处理大小:决定一次处理多大提示的选项

  • 值越大,VRAM 使用量越多,提示处理速度越快

  • 最大并发预测数:可以同时生成的答案数量;根据 lm Studio 的测试,1 应该足够了。

  • RoPE 频率基准/缩放:当需要读取比模型学习到的上下文长度更长的内容时,需要调整此值;默认值为“自动”。

  • 将 KV 缓存卸载到 GPU 内存:此选项用于决定是否将对话内容加载到 GPU 内存中。

  • 将模型保留在内存中:是否将模型保留在内存中而不卸载。

  • 尝试 mmap0:使用内存映射加载模型;当 RAM 充足时,可有效提高加载速度和效率。

  • 专家数量:要在 MoE(混合专家)模型中激活的专家数量。

  • 将 MoE 权重强制到 CPU 的层数:此设置用于强制某些层的权重到 CPU 上计算。

  • 闪存注意力

  • 通过将矩阵分割成适合硬件加速 SRAM 的瓦片单元来计算矩阵。

  • 由于注意力矩阵无需单独存储,因此可以节省内存并显著提高速度。

  • KV 缓存量化

  • 通过 KV 缓存量化来节省内存;默认值通常为 FP16。

待办事项

  • Transformer架构分析

  • 与RNN的比较

  • 自注意力机制?

댓글 작성

게시글에 대한 의견을 남겨 주세요.

댓글 0