1020 字

5 分钟

Evolutionary Optimization of Model Merging Recipes

2025-02-02

arXiv:2403.13187v1

这篇是比较早看过的一篇论文，没有做笔记

文章的创新点#

这篇文章的主要创新点包括：

1. 进化算法用于模型合并优化#

现有的大模型合并主要依赖于人工直觉，而本文提出了一种基于 进化算法（Evolutionary Algorithm） 的自动化方法，使模型合并更加系统化、高效化。
该方法不仅优化 权重空间（Parameter Space, PS），还优化 数据流空间（Data Flow Space, DFS） ，突破了传统仅在参数层面优化的限制。

2. 跨领域模型合并（Cross-Domain Merging）#

本文的方法能够有效融合不同领域的模型，例如：
- 日语语言模型（Japanese LLM） 与 数学推理模型（Math LLM）
- 日语语言模型 与 视觉语言模型（VLM）
这为 多模态模型 的发展提供了一种新的路径，尤其是让语言模型具备跨领域能力，而无需额外训练数据或计算资源。

3. 自动化发现最优合并策略（Automated Discovery of Merging Strategies）#

采用 进化算法 搜索最优的模型合并方案，而不是仅依赖人工设计的合并规则。
该方法能够自动发现 非直觉性（non-intuitive） 的合并方式，例如通过优化模型层的排列顺序来提升推理能力。

4. 超越参数规模的高效性能（High Efficiency and Surprising Generalizability）#

通过 进化搜索生成的 7B 参数模型，在某些日语任务上 超越了 70B 参数的模型，说明该方法不仅节省计算资源，还具备出色的 泛化能力。
例如，本文提出的 EvoLLM-JP 在多个 日语大模型基准测试上取得 SOTA（State-of-the-Art） 表现。

5. 进化方法适用于更广泛的模型类型#

除了 语言模型（LLM），本文的方法还成功应用于 视觉语言模型（VLM），甚至未来可能扩展到 扩散模型（Diffusion Models） 等其他类型的深度学习模型。

主要方法的数学原理#

本研究的数学基础主要包括：

1. 进化算法优化模型合并#

进化算法的目标是在 模型合并的参数空间（PS）和数据流空间（DFS） 中搜索最优合并策略。核心数学原理如下：

适应度函数（Fitness Function）#

进化算法通过定义 适应度函数来评估不同合并策略的效果。适应度值通常与任务准确率（如数学推理任务的 MGSM 准确率）相关：

F(T) = Accuracy(T)

其中， $T$ 是合并模型的参数。

CMA-ES 进化优化#

采用 CMA-ES（Covariance Matrix Adaptation Evolution Strategy） 优化权重空间（PS），核心优化目标是：

\theta^* = \arg\min_{\theta} \mathbb{E}[C(\theta)]

其中，CMA-ES 通过 协方差矩阵更新策略，使参数分布在进化过程中逐步收敛到最优解。

2. 参数空间（PS）优化#

在 参数空间（PS） 进行合并时，本文采用 TIES-Merging 和 DARE 方法：

TIES-Merging 主要解决参数干扰问题
- 通过调整 参数符号冲突（sign conflicts） 和减少 不必要的参数变化，降低合并后模型的性能损失。
DARE 方法
- 通过调整合并模型中参数的权重比例，放大有用的模型能力，同时抑制无关参数：
$W_{\text{merged}} = \alpha W_A + (1 - \alpha) W_B$ 其中， $\alpha$ $α$ 是进化搜索优化出的 混合权重。

3. 数据流空间（DFS）优化#

在 数据流空间（DFS） 优化中，核心思想是：

在不同模型的层之间建立动态连接，而不仅仅是静态的权重合并。
令 $h^l_M$ 代表 模型 $M$ 的第 $l$ 层，则搜索最优的数据流路径： $h^l_{\text{merged}} = f(h^l_A, h^l_B)$ 其中，路径 $f$ 是进化搜索的变量，每个层的输入数据可以来自不同的源模型。

优化过程#

搜索合适的层连接策略 $L_{\text{merged}} = \arg\max_{L} Score(L)$
调整层间的缩放参数 $\beta$ $h^l_{\text{merged}} = \beta_A h^l_A + \beta_B h^l_B$ 其中， $\beta_A, \beta_B$ 是从第 $l$ 层到第 $(l+1)$ 层的缩放因子，由进化算法优化。

Evolutionary Optimization of Model Merging Recipes

https://herobrine101.top/posts/evolutionary/

作者

TillyEndless

发布于

2025-02-02

许可协议

CC BY-NC-SA 4.0

【命令】智能体搭建

Knowledge Fusion of Large Language Models