2024.12.02
22:07
「论文阅读」Model Fusion through Bayesian Optimization in Language Model Fine-Tuning
摘要
针对下游任务对预训练模型进行微调是一种广泛采用的技术,以其在各个领域的适应性和可靠性而闻名。尽管概念简单,但微调需要几个麻烦的工程选择,例如选择超参数和从优化轨迹中确定检查点。为了解决选择最佳模型的困难,一种有效的解决方案是模型融合,它将多个模型组合在一个参数空间中。然而,我们观察到在预训练语言模型的微调过程中,损失和度量景观之间存在很大差异。基于这一观察,我们引入了一种新颖的模型融合技术,该技术通过多目标贝叶斯优化来优化所需的度量和损失。此外,为了有效地选择超参数,我们通过将贝叶斯优化过程集成到我们的框架中建立了一个两阶段程序。在各种下游任务中进行的实验表明,使用我们的贝叶斯
...[阅读更多]
2024.11.11
18:05
「高级操作系统结构」研究之Linux启动过程分析
摘要
Linux操作系统因其开源特性和高度的可定制性而广受欢迎,广泛应用于服务器、嵌入式系统和个人计算机等多个领域。启动过程是操作系统正常运行的基础,影响着系统的性能和用户体验。然而,随着系统复杂性的增加,启动过程中的各种问题也日益显现,因此对Linux启动过程的深入分析显得尤为重要。已有的研究主要集中在启动加载器的实现、内核的初始化以及用户空间的启动等方面,但仍缺乏对启动过程整体性能优化和故障排查方法的系统探讨。本研究旨在填补这一空白,通过对Linux启动过程各个阶段的详细分析,提出有效的优化策略和调试技巧,为相关领域的研究提供参考。
书名:「高级操作系统结
...[阅读更多]
2024.11.10
23:49
「论文阅读」DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing
摘要
分析非结构化数据(如复杂文档)一直是数据处理中的一个持续挑战。大型语言模型(LLMs)在这方面显示出了潜力,最近也有提出基于 LLM 的声明式框架来处理非结构化数据。然而,这些框架主要集中于减少执行用户指定操作时的成本,而不是提高准确性,大部分操作依然是按原样执行。这对于复杂任务和数据来说是一个问题,因为即使使用优化过的提示,LLM 在执行用户定义的操作时常常产生不准确的输出。为了解决这一问题,我们提出了 DocETL,一个在优化复杂文档处理管道的同时,考虑到 LLM 局限性的系统。DocETL 提供了一个声明式接口,供用户定义这些处理管道,并使用基于代理的框架自动优化它们,结
...[阅读更多]
2024.10.30
16:58
「论文阅读」SqueezeBERT: What can computer vision teach NLP about efficient neural networks?
摘要
人类每天阅读和编写数百亿条消息。此外,由于大型数据集的可用性、大型计算系统和更好的神经网络模型,自然语言处理 (NLP) 技术在理解、校对和组织这些消息方面取得了长足的进步。因此,在众多应用程序中部署 NLP 以帮助网络用户、社交网络和企业有很大的机会。特别是,我们将智能手机和其他移动设备视为大规模部署 NLP 模型的关键平台。然而,今天的高精度 NLP 神经网络模型(如 BERT 和 RoBERTa)的计算成本非常高,BERT-base 在 Pixel 3 智能手机上对文本片段进行分类需要 1.7 秒。在这项工作中,我们观察到分组卷积等方法对计算机视觉网络产生了显着的加速,但
...[阅读更多]