1020 字
5 分钟
Evolutionary Optimization of Model Merging Recipes
arXiv:2403.13187v1
这篇是比较早看过的一篇论文,没有做笔记
文章的创新点
这篇文章的主要创新点包括:
1. 进化算法用于模型合并优化
- 现有的大模型合并主要依赖于人工直觉,而本文提出了一种基于 进化算法(Evolutionary Algorithm) 的自动化方法,使模型合并更加系统化、高效化。
- 该方法不仅优化 权重空间(Parameter Space, PS),还优化 数据流空间(Data Flow Space, DFS) ,突破了传统仅在参数层面优化的限制。
2. 跨领域模型合并(Cross-Domain Merging)
- 本文的方法能够有效融合不同领域的模型,例如:
- 日语语言模型(Japanese LLM) 与 数学推理模型(Math LLM)
- 日语语言模型 与 视觉语言模型(VLM)
- 这为 多模态模型 的发展提供了一种新的路径,尤其是让语言模型具备跨领域能力,而无需额外训练数据或计算资源。
3. 自动化发现最优合并策略(Automated Discovery of Merging Strategies)
- 采用 进化算法 搜索最优的模型合并方案,而不是仅依赖人工设计的合并规则。
- 该方法能够自动发现 非直觉性(non-intuitive) 的合并方式,例如通过优化模型层的排列顺序来提升推理能力。
4. 超越参数规模的高效性能(High Efficiency and Surprising Generalizability)
- 通过 进化搜索生成的 7B 参数模型,在某些日语任务上 超越了 70B 参数的模型,说明该方法不仅节省计算资源,还具备出色的 泛化能力。
- 例如,本文提出的 EvoLLM-JP 在多个 日语大模型基准测试上取得 SOTA(State-of-the-Art) 表现。
5. 进化方法适用于更广泛的模型类型
- 除了 语言模型(LLM),本文的方法还成功应用于 视觉语言模型(VLM),甚至未来可能扩展到 扩散模型(Diffusion Models) 等其他类型的深度学习模型。
主要方法的数学原理
本研究的数学基础主要包括:
1. 进化算法优化模型合并
进化算法的目标是在 模型合并的参数空间(PS)和数据流空间(DFS) 中搜索最优合并策略。核心数学原理如下:
适应度函数(Fitness Function)
进化算法通过定义 适应度函数来评估不同合并策略的效果。适应度值通常与任务准确率(如数学推理任务的 MGSM 准确率)相关:
其中, 是合并模型的参数。
CMA-ES 进化优化
采用 CMA-ES(Covariance Matrix Adaptation Evolution Strategy) 优化权重空间(PS),核心优化目标是:
其中,CMA-ES 通过 协方差矩阵更新策略,使参数分布在进化过程中逐步收敛到最优解。
2. 参数空间(PS)优化
在 参数空间(PS) 进行合并时,本文采用 TIES-Merging 和 DARE 方法:
- TIES-Merging 主要解决参数干扰问题
- 通过调整 参数符号冲突(sign conflicts) 和减少 不必要的参数变化,降低合并后模型的性能损失。
- DARE 方法
- 通过调整合并模型中参数的权重比例,放大有用的模型能力,同时抑制无关参数:
3. 数据流空间(DFS)优化
在 数据流空间(DFS) 优化中,核心思想是:
- 在不同模型的层之间建立动态连接,而不仅仅是静态的权重合并。
- 令 代表 模型 的第 层,则搜索最优的数据流路径: 其中,路径 是进化搜索的变量,每个层的输入数据可以来自不同的源模型。
优化过程
- 搜索合适的层连接策略
- 调整层间的缩放参数 其中, 是从第 层到第 层的缩放因子,由进化算法优化。
Evolutionary Optimization of Model Merging Recipes
https://herobrine101.top/posts/evolutionary/