人工智能相关学习笔记

Jun 27, 2026

人工智能相关学习笔记

我在从事更多人工智能相关工作的过程中学到了一些东西

如何解读模型名称

开发者/模型名称 (Gemma 4)
总参数数 (26B)
模型结构 (A4B，Active 4B)
训练类型 (指令型)
格式 (GGUF)

GGUF：应用最广泛的模型，支持 Windows/Linux 系统，CPU 推理能力强
MLX：支持 Apple Silicon 芯片的模型
Safetensors：原始模型
TensorRT：NVIDIA GPU 模型，当整个模型加载到 GPU 上而不进行卸载时，性能最佳

量化方法 (UD-Q4_K_XL)

UD：Unsloth Dynamic（Unsloth 的专有量化方法），动态策略槽
根据实际输入数据确定量化前后的性能下降情况
根据测量结果启发式地处理每个张量的量化状态
Q4：4 位（基于重要性的量化方法，例如 IQ 和 AWQ）（也存在）
FP32（浮点数 32）：基本浮点数据类型，使用 32 位
FP16（浮点数 16）：简化的浮点数据类型，使用 16 位（分配 1/5/10 位）
BF16（Brain 浮点数 16）：简化的浮点数据类型，使用 16 位（分配 1/8/7 位）
INT2 ~ INT8：简化的整数数据类型
K：K-Quant 系列
XL：Profile
根据张量保留精度，从 S 到 XL 划分
一些重要的张量保留为 BF16/FP16；这指的是它们被保留的程度。

微调术语表

PEFT（参数高效微调）

低秩自适应 (LoRA)：低秩自适应
其理论基础是低秩近似（将一个大矩阵表示为两个小矩阵的乘积）。
奇异值分解 (SVD) 是一个典型的例子。
LLM 权重矩阵本质上非常大。
模型由 W（现有模型）+ ΔW 构成，其中 ΔW 被视为调优值。
传统上，微调时会处理整个 ΔW = M × N（其中 M 和 N 为模型的初始大小）。
将 ΔW 分解为 ΔW = A × B（A = M × R，B = R × N）可以将复杂度从 O(MN) 降低到 O(R(M + N))。
QLoRA（量化低秩自适应）
一种旨在通过将模型本身量化为 4 位等来调整大型模型的技术。
DoRA（权重分解低秩自适应）
在 ΔW = A x B 的学习过程中，权重意图在训练期间混合在一起。
因此，幅度被分离出来并作为单独的参数进行管理。

对齐

RLHF（基于人类反馈的强化学习）
人类对模型的响应进行排序，通过评分构建奖励模型
通过强化学习训练模型，使其以最大化奖励的方式作答
DPO（直接偏好优化）
省略单独创建奖励模型的步骤，直接优化数据集的偏好

选项值说明

GPU 卸载：决定加载到 GPU 上的 Transformer 层数
CPU 线程池大小：要使用的 CPU 线程数
评估批处理大小：决定一次处理多大提示的选项
值越大，VRAM 使用量越多，提示处理速度越快
最大并发预测数：可以同时生成的答案数量；根据 lm Studio 的测试，1 应该足够了。
RoPE 频率基准/缩放：当需要读取比模型学习到的上下文长度更长的内容时，需要调整此值；默认值为“自动”。
将 KV 缓存卸载到 GPU 内存：此选项用于决定是否将对话内容加载到 GPU 内存中。
将模型保留在内存中：是否将模型保留在内存中而不卸载。
尝试 mmap0：使用内存映射加载模型；当 RAM 充足时，可有效提高加载速度和效率。

专家数量：要在 MoE（混合专家）模型中激活的专家数量。
将 MoE 权重强制到 CPU 的层数：此设置用于强制某些层的权重到 CPU 上计算。

闪存注意力
通过将矩阵分割成适合硬件加速 SRAM 的瓦片单元来计算矩阵。
由于注意力矩阵无需单独存储，因此可以节省内存并显著提高速度。
KV 缓存量化
通过 KV 缓存量化来节省内存；默认值通常为 FP16。

待办事项

Transformer架构分析
与RNN的比较
自注意力机制？

댓글 작성

게시글에 대한 의견을 남겨 주세요.

이름

비밀번호

공개 범위

댓글 내용

댓글 0개