Eswlnk Blog Eswlnk Blog
  • 资源
    • 精彩视频
    • 破解专区
      • WHMCS
      • WordPress主题
      • WordPress插件
    • 其他分享
    • 极惠VPS
    • PDF资源
  • 关于我
    • 论文阅读
    • 关于本站
    • 通知
    • 左邻右舍
    • 玩物志趣
    • 日志
    • 专题
  • 热议话题
    • 游戏资讯
  • 红黑
    • 渗透分析
    • 攻防对抗
    • 代码发布
  • 自主研发
    • 知识库
    • 插件
      • ToolBox
      • HotSpot AI 热点创作
    • 区块
    • 快乐屋
    • 卡密
  • 乱步
    • 文章榜单
    • 热门标签
  • 问答中心反馈
  • 注册
  • 登录
首页 › 其他分享 › 关于小数据机器学习的一些思考

关于小数据机器学习的一些思考

Eswlnk的头像
Eswlnk
2022-06-03 20:51:01
关于小数据机器学习的一些思考-Eswlnk Blog
智能摘要 AI
文章探讨了小数据集在机器学习中的应用及其面临的挑战。尽管大数据集更受关注,但在某些情况下,小数据集不可避免,如数据成本高昂、数据量有限或数据快速过时。针对小数据集,作者提出了两种主要方法:一是利用元学习、迁移学习等技术从相关的大数据集中迁移知识;二是直接采用传统统计方法,结合领域知识构建模型以避免过度拟合。Transformer架构也被视为一种通用解决方案,能有效处理多种问题。总之,小数据集虽具挑战,但仍可通过合适的方法实现有效应用。

我觉得使用小数据进行机器学习的技术没有得到足够的讨论。这是有道理的,因为许多 ML 应用程序只能通过收集大量数据才能实现。在小数据集上运行 Kaggle 竞赛基本上与运行“猜随机数”竞赛相同。为了评估某种“小数据”方法的性能,你需要相当多的小数据集,这会很麻烦,所以没有人真正去实现过它。

此外,公司只是喜欢吹嘘他们的数据有多大。但是只能处理小型数据集有很多正当理由:

  • 数据太昂贵而无法获取
  • 不存在比已收集更多的数据
  • 数据过时如此之快,以至于只能将少量数据用于培训目的

我认为基本上有两种方法/哲学来处理这个问题:

关于小数据机器学习的一些思考-Eswlnk Blog

规模就是你所需要的——AGI 即将到来。

虽然您尝试解决的特定问题可能没有足够的数据,但您可以利用的稍微相邻的问题中可能有很多数据。这就是元学习、少样本学习、迁移学习和多任务学习的全部内容。您可以使用无数种不同的技术。如果您想获得概览,可以观看由领先的元学习研究人员之一 Chelsea Finn 提供的免费斯坦福讲座。但也许你真的不需要?在我看来,Transformers 正逐渐成为一种非常通用的架构,只要提供足够的计算和数据,它就可以处理各种问题。

这种方法的一个例子是使用一个经过 TB 级文本训练的大型语言模型来解决您估计客户电子邮件的愤怒程度的特定问题。这是一个“小数据”问题,因为数据集大小有限,您真的不想再生成任何训练样本。

但是同样的方法也可以用于时间序列数据之类的东西。这里相邻的问题可能是由于数据漂移而不再是当前的旧时间序列。或者,您可以使用增强技术综合创建数据。

本身就是一个大型语言模型

当然,也可能存在您甚至无法访问来自相邻问题的数据的情况。在这些可怕的情况下,你只有一种追索权。与其让模型决定应该如何进行预测,不如让你自己决定模型应该如何进行预测。这是统计学家几十年来一直使用的传统方法。我使用过的一个工具是Tensorflow Lattice。它可以通过确定单调性、凸性和成对信任等约束来注入您的领域知识。这非常方便,因为您可以使模型非常灵活,同时防止过度拟合。

这种工作方式非常有趣,因为您可以将自己独特的见解带到要承受的问题上。但也存在风险:您对问题的假设可能是错误的,或者问题的性质会随着时间的推移而缓慢变化,并且预测质量会下降。

本站默认网盘访问密码:1166
本站默认网盘访问密码:1166
小数据数据机器学习
0
0
Eswlnk的头像
Eswlnk
一个有点倒霉的研究牲站长
赞赏
完美解决Windows环境(VMware环境)下Docker Desktop的安装启动问题
上一篇
如何挑选一个好的图床来存储图片
下一篇

评论 (0)

请登录以参与评论
现在登录
    发表评论

猜你喜欢

  • 「亲测有效」Google Gemini 学生优惠:解决身份验证和支付卡验证
  • 资料分享:机器学习(周志华)相关复习资料
  • 解决国际版EdgeOne绑卡和手机验证问题
  • 小工具开发之EdgeOne免费计划兑换工具
  • 「其他分享」市面上静态页面服务商比较与推荐:选择最适合您的平台
Eswlnk的头像

Eswlnk

一个有点倒霉的研究牲站长
1108
文章
319
评论
679
获赞

随便看看

「工具分享」歧路旅人II 修改器
2024-06-11 21:13:59
全新UI!哈希玛特HashMart全开源盲盒系统源码下载
2023-07-08 11:55:27
站长联盟避坑指南之2898站长平台
2021-10-24 20:16:26

文章目录

专题展示

WordPress53

工程实践37

热门标签

360 AI API CDN java linux Nginx PDF PHP python SEO Windows WordPress 云服务器 云服务器知识 代码 免费 安全 安卓 工具 开发日志 微信 微软 手机 插件 攻防 攻防对抗 教程 日志 渗透分析 源码 漏洞 电脑 破解 系统 编程 网站优化 网络 网络安全 脚本 苹果 谷歌 软件 运维 逆向
  • 首页
  • 知识库
  • 地图
Copyright © 2023-2025 Eswlnk Blog. Designed by XiaoWu.
本站CDN由 壹盾安全 提供高防CDN安全防护服务
蜀ICP备20002650号-10
页面生成用时 0.727 秒   |  SQL查询 50 次
本站勉强运行:
友情链接: Eswlnk Blog 网站渗透 倦意博客 特资啦!个人资源分享站 祭夜博客 iBAAO壹宝头条
  • WordPress142
  • 网络安全64
  • 漏洞52
  • 软件52
  • 安全48
现在登录
  • 资源
    • 精彩视频
    • 破解专区
      • WHMCS
      • WordPress主题
      • WordPress插件
    • 其他分享
    • 极惠VPS
    • PDF资源
  • 关于我
    • 论文阅读
    • 关于本站
    • 通知
    • 左邻右舍
    • 玩物志趣
    • 日志
    • 专题
  • 热议话题
    • 游戏资讯
  • 红黑
    • 渗透分析
    • 攻防对抗
    • 代码发布
  • 自主研发
    • 知识库
    • 插件
      • ToolBox
      • HotSpot AI 热点创作
    • 区块
    • 快乐屋
    • 卡密
  • 乱步
    • 文章榜单
    • 热门标签
  • 问答中心反馈