Eswlnk Blog Eswlnk Blog
  • 资源
    • 精彩视频
    • 破解专区
      • WHMCS
      • WordPress主题
      • WordPress插件
    • 其他分享
    • 极惠VPS
    • PDF资源
  • 关于我
    • 论文阅读
    • 关于本站
    • 通知
    • 左邻右舍
    • 玩物志趣
    • 日志
    • 专题
  • 热议话题
    • 游戏资讯
  • 红黑
    • 渗透分析
    • 攻防对抗
    • 代码发布
  • 自主研发
    • 知识库
    • 插件
      • ToolBox
      • HotSpot AI 热点创作
    • 区块
    • 快乐屋
    • 卡密
  • 乱步
    • 文章榜单
    • 热门标签
  • 问答中心反馈
  • 注册
  • 登录

「论文阅读」DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing

Eswlnk的头像
Eswlnk
2024-11-10 23:49:31
「论文阅读」DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing-Eswlnk Blog
智能摘要 AI
DocETL 是一个针对非结构化文档处理的系统,结合了大型语言模型(LLM)和声明式框架,通过智能代理重写、ETL集成和自动化评估机制优化文档处理管道。其三大创新包括管道逻辑重写、基于代理的计划评估和高效优化算法。实验表明,DocETL 在准确性、全面性上显著优于基准,适用于法律、学术、商务等领域,填补了现有框架的空白。

摘要

分析非结构化数据(如复杂文档)一直是数据处理中的一个持续挑战。大型语言模型(LLMs)在这方面显示出了潜力,最近也有提出基于 LLM 的声明式框架来处理非结构化数据。然而,这些框架主要集中于减少执行用户指定操作时的成本,而不是提高准确性,大部分操作依然是按原样执行。这对于复杂任务和数据来说是一个问题,因为即使使用优化过的提示,LLM 在执行用户定义的操作时常常产生不准确的输出。为了解决这一问题,我们提出了 DocETL,一个在优化复杂文档处理管道的同时,考虑到 LLM 局限性的系统。DocETL 提供了一个声明式接口,供用户定义这些处理管道,并使用基于代理的框架自动优化它们,结合了我们提出的新型代理重写(我们称之为“重写指令”)和优化评估框架。

我们提出了以下三大创新:

  1. 针对 LLM 任务量身定制的管道逻辑重写;
  2. 一种基于代理的计划评估机制,通过合成和协调特定任务的验证提示来进行验证;
  3. 一种优化算法,能高效地找到有前景的计划,同时考虑到 LLM 基于计划生成和评估的时间限制。

我们在三项不同的非结构化文档分析任务上的评估表明,DocETL 提供的计划输出在质量上(例如准确性和全面性)比精心设计的基准高出 1.34 到 4.6 倍,填补了现有声明式框架在非结构化数据分析中的关键空白。

「论文阅读」DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing-Eswlnk Blog

阅读

论文贡献

  1. Agentic Rewriting:提出了智能代理机制,这些代理能够自主理解和生成文档中的内容,进行多种形式的重写和优化,确保信息的传递既符合预定标准,也能满足复杂语境下的需求。
  2. ETL集成:引入了ETL的思想,将文档数据的提取、转换和加载过程融入文档处理流程中,从而使得文档的处理更加高效、系统化。
  3. 自动化评估机制:为了确保文档的质量,论文中提出了一套自动化评估框架,能够对重写后的文档进行精准的质量控制和评分。这一机制能够对文档内容的准确性、可读性和一致性进行全面评估。
  4. 应用场景:DocETL可广泛应用于法律文件、学术文献、商务报告等领域,尤其适用于需要高度自动化处理和质量评估的文档场景。

相关论文

本站默认网盘访问密码:1166
本站默认网盘访问密码:1166
声明:本站原创文章文字版权归本站所有,转载务必注明作者和出处;本站转载文章仅仅代表原作者观点,不代表本站立场,图文版权归原作者所有。如有侵权,请联系我们删除。
DocETLGPT论文
1
0
Eswlnk的头像
Eswlnk
一个有点倒霉的研究牲站长
赞赏

评论 (0)

请登录以参与评论
现在登录
    发表评论

猜你喜欢

  • 「学术分享」UrbanX: Physics-Consistent Post-Processing for Regional Forecasting
  • 学术分享:A Practical Probabilistic Benchmark for AI Weather Models
  • 学术分享:Accurate medium-range global weather forecasting with 3D neural networks
  • 「日志记录」本站文章开启AI智能摘要
  • 「论文阅读」Model Fusion through Bayesian Optimization in Language Model Fine-Tuning
Eswlnk的头像

Eswlnk

一个有点倒霉的研究牲站长
1108
文章
319
评论
679
获赞

随便看看

「日志记录」本站文章开启AI智能摘要
2025-02-22 17:31:51
「论文阅读」SqueezeBERT: What can computer vision teach NLP about efficient neural networks?
2024-10-30 16:58:34
「学术分享」UrbanX: Physics-Consistent Post-Processing for Regional Forecasting
2025-11-12 19:26:18

文章目录

专题展示

WordPress53

工程实践37

热门标签

360 AI API CDN java linux Nginx PDF PHP python SEO Windows WordPress 云服务器 云服务器知识 代码 免费 安全 安卓 工具 开发日志 微信 微软 手机 插件 攻防 攻防对抗 教程 日志 渗透分析 源码 漏洞 电脑 破解 系统 编程 网站优化 网络 网络安全 脚本 苹果 谷歌 软件 运维 逆向
  • 首页
  • 知识库
  • 地图
Copyright © 2023-2025 Eswlnk Blog. Designed by XiaoWu.
本站CDN由 壹盾安全 提供高防CDN安全防护服务
蜀ICP备20002650号-10
页面生成用时 0.799 秒   |  SQL查询 20 次
本站勉强运行:
友情链接: Eswlnk Blog 网站渗透 倦意博客 特资啦!个人资源分享站 祭夜博客 iBAAO壹宝头条
  • WordPress142
  • 网络安全64
  • 漏洞52
  • 软件52
  • 安全48
现在登录
  • 资源
    • 精彩视频
    • 破解专区
      • WHMCS
      • WordPress主题
      • WordPress插件
    • 其他分享
    • 极惠VPS
    • PDF资源
  • 关于我
    • 论文阅读
    • 关于本站
    • 通知
    • 左邻右舍
    • 玩物志趣
    • 日志
    • 专题
  • 热议话题
    • 游戏资讯
  • 红黑
    • 渗透分析
    • 攻防对抗
    • 代码发布
  • 自主研发
    • 知识库
    • 插件
      • ToolBox
      • HotSpot AI 热点创作
    • 区块
    • 快乐屋
    • 卡密
  • 乱步
    • 文章榜单
    • 热门标签
  • 问答中心反馈