智能摘要 AI
本文提出了一种基于贝叶斯优化和模型融合的新方法,用于优化预训练语言模型的性能。通过多目标贝叶斯优化,同时优化损失函数和度量函数,确定最优模型融合系数,提升模型泛化能力和度量性能。实验表明,该方法优于传统均匀平均,适用于多目标优化场景,未来可进一步分析损失与度量函数的错配及超参数迁移性。
摘要
针对下游任务对预训练模型进行微调是一种广泛采用的技术,以其在各个领域的适应性和可靠性而闻名。尽管概念简单,但微调需要几个麻烦的工程选择,例如选择超参数和从优化轨迹中确定检查点。为了解决选择最佳模型的困难,一种有效的解决方案是模型融合,它将多个模型组合在一个参数空间中。然而,我们观察到在预训练语言模型的微调过程中,损失和度量景观之间存在很大差异。基于这一观察,我们引入了一种新颖的模型融合技术,该技术通过多目标贝叶斯优化来优化所需的度量和损失。此外,为了有效地选择超参数,我们通过将贝叶斯优化过程集成到我们的框架中建立了一个两阶段程序。在各种下游任务中进行的实验表明,使用我们的贝叶斯优化引导方法可以显着提高性能。
总结
这篇论文提出了一种基于贝叶斯优化(Bayesian Optimization, BO)和模型融合(Model Fusion)的新方法,用于优化预训练语言模型(PLM)的性能,特别是在多目标优化的背景下。论文的核心思想是通过优化多个目标函数(如损失函数和度量函数)来获得最优的模型融合系数,从而提高模型的泛化能力和度量性能。
论文的关键点包括:
- 模型融合与平均系数:
- 通过对多个独立训练的模型进行加权平均,融合成一个综合模型。选择合适的平均系数是优化融合模型性能的关键。
- 平均系数向量 δ∈[0,1]N\delta \in [0, 1]^Nδ∈[0,1]N 用于控制每个模型在最终融合中的贡献。通过贝叶斯优化来确定最优的 δ∗\delta^*δ∗,从而提升融合模型的度量性能。
- 多目标贝叶斯优化(MOBO):
- 实验结果与发现:
- 实验结果表明,通过选择合适的平均系数,模型能够在多个指标上达到更好的平衡。特别是在不同的冻结层数和LoRA秩的情况下,最优超参数具有一致性,这为提高模型性能提供了指导。
- 相比于传统的均匀平均方法,论文提出的加权平均方法能够更好地应对复杂的度量景观,提高模型的泛化能力。
- 应用与未来方向:
- 该方法不仅适用于预训练语言模型的优化,还能应用于其他多目标优化场景,尤其是在面对复杂的度量标准时。
- 未来的研究方向包括进一步分析损失函数和度量函数之间的错配,以及理论上分析如何使得不同训练超参数在微调过程中的迁移性。



评论 (0)