1020 字
5 分钟
Evolutionary Optimization of Model Merging Recipes

arXiv:2403.13187v1

这篇是比较早看过的一篇论文,没有做笔记


文章的创新点#

这篇文章的主要创新点包括:

1. 进化算法用于模型合并优化#

  • 现有的大模型合并主要依赖于人工直觉,而本文提出了一种基于 进化算法(Evolutionary Algorithm) 的自动化方法,使模型合并更加系统化、高效化。
  • 该方法不仅优化 权重空间(Parameter Space, PS),还优化 数据流空间(Data Flow Space, DFS) ,突破了传统仅在参数层面优化的限制。

2. 跨领域模型合并(Cross-Domain Merging)#

  • 本文的方法能够有效融合不同领域的模型,例如:
    • 日语语言模型(Japanese LLM)数学推理模型(Math LLM)
    • 日语语言模型视觉语言模型(VLM)
  • 这为 多模态模型 的发展提供了一种新的路径,尤其是让语言模型具备跨领域能力,而无需额外训练数据或计算资源。

3. 自动化发现最优合并策略(Automated Discovery of Merging Strategies)#

  • 采用 进化算法 搜索最优的模型合并方案,而不是仅依赖人工设计的合并规则。
  • 该方法能够自动发现 非直觉性(non-intuitive) 的合并方式,例如通过优化模型层的排列顺序来提升推理能力。

4. 超越参数规模的高效性能(High Efficiency and Surprising Generalizability)#

  • 通过 进化搜索生成的 7B 参数模型,在某些日语任务上 超越了 70B 参数的模型,说明该方法不仅节省计算资源,还具备出色的 泛化能力
  • 例如,本文提出的 EvoLLM-JP 在多个 日语大模型基准测试上取得 SOTA(State-of-the-Art) 表现。

5. 进化方法适用于更广泛的模型类型#

  • 除了 语言模型(LLM),本文的方法还成功应用于 视觉语言模型(VLM),甚至未来可能扩展到 扩散模型(Diffusion Models) 等其他类型的深度学习模型。

主要方法的数学原理#

本研究的数学基础主要包括:

1. 进化算法优化模型合并#

进化算法的目标是在 模型合并的参数空间(PS)和数据流空间(DFS) 中搜索最优合并策略。核心数学原理如下:

适应度函数(Fitness Function)#

进化算法通过定义 适应度函数来评估不同合并策略的效果。适应度值通常与任务准确率(如数学推理任务的 MGSM 准确率)相关:

F(T)=Accuracy(T)F(T) = Accuracy(T)

其中,TT 是合并模型的参数。

CMA-ES 进化优化#

采用 CMA-ES(Covariance Matrix Adaptation Evolution Strategy) 优化权重空间(PS),核心优化目标是:

θ=argminθE[C(θ)]\theta^* = \arg\min_{\theta} \mathbb{E}[C(\theta)]

其中,CMA-ES 通过 协方差矩阵更新策略,使参数分布在进化过程中逐步收敛到最优解。


2. 参数空间(PS)优化#

参数空间(PS) 进行合并时,本文采用 TIES-MergingDARE 方法:

  • TIES-Merging 主要解决参数干扰问题
    • 通过调整 参数符号冲突(sign conflicts) 和减少 不必要的参数变化,降低合并后模型的性能损失。
  • DARE 方法
    • 通过调整合并模型中参数的权重比例,放大有用的模型能力,同时抑制无关参数:
    Wmerged=αWA+(1α)WBW_{\text{merged}} = \alpha W_A + (1 - \alpha) W_B 其中,α\alpha 是进化搜索优化出的 混合权重

3. 数据流空间(DFS)优化#

数据流空间(DFS) 优化中,核心思想是:

  • 在不同模型的层之间建立动态连接,而不仅仅是静态的权重合并。
  • hMlh^l_M 代表 模型 MM 的第 ll,则搜索最优的数据流路径: hmergedl=f(hAl,hBl)h^l_{\text{merged}} = f(h^l_A, h^l_B) 其中,路径 ff 是进化搜索的变量,每个层的输入数据可以来自不同的源模型。

优化过程#

  1. 搜索合适的层连接策略 Lmerged=argmaxLScore(L)L_{\text{merged}} = \arg\max_{L} Score(L)
  2. 调整层间的缩放参数 β\beta hmergedl=βAhAl+βBhBlh^l_{\text{merged}} = \beta_A h^l_A + \beta_B h^l_B 其中,βA,βB\beta_A, \beta_B 是从第 ll 层到第 (l+1)(l+1) 层的缩放因子,由进化算法优化。

Evolutionary Optimization of Model Merging Recipes
https://herobrine101.top/posts/evolutionary/
作者
发布于
2025-02-02
许可协议
CC BY-NC-SA 4.0