什么是 Alluxio

Alluxio是全球首个开放源码的数据处理技术,该技术主要用于云计算和人工智能。这架起了一个由资料驱动的程序和储存装置组成的桥,可以把资料从储存层面转移到更接近于资料驱动程序的地方,这样就可以方便地进行存取。它也可以让你的应用软件与很多储存设备之间的联系。基于 Alluxio的分层结构可以让您的资料更快速地被存取。

大数据的生态体系中, Alluxio是一个数据驱动的架构或程序(例如 Apache Spark, Presto, Tensorflow, Apache HBase, Apache Hive或 Apache Flink),以及诸如亚马逊S3,谷歌云商店, OpenStack Swift, HDFS, GlusterFS, IBM Cleversafe, EMC ECS, Ceph, NFS, Minio, Alibaba OSS)。Alluxio将所有的数据整合到不同的存储器中,并为它们的高级数据驱动程序开发了一个通用的 API和一个通用的名称。

Alluxio工程来源于 UC Berkeley的 AMPLab (参见文章), BDAS (Berkeley Data Analytics Stack)中起到了数据存取的作用。该软件采用 Apache License2.0的方法进行开放。Alluxio是发展最迅速的大型开放源码大数据计划,它在阿里巴巴, Alluxio,百度, CMU,谷歌, IBM, Intel,南京大学,红帽,腾讯, UC贝克利,以及雅虎。

到今天为止,Alluxio 已经在数百家机构的生产中进行了部署,最大部署运行的集群规模超过 1500 个节点。

「其他分享」Alluxio 开源数据编排技术插图

优势

通过简化应用程序访问其数据的方式(无论数据是什么格式或位置),Alluxio 能够帮助克服从数据中提取信息所面临的困难。Alluxio 的优势包括:

  • 内存速度 I/OAlluxio 能够用作分布式共享缓存服务,这样与 Alluxio 通信的计算应用程序可以透明地缓存频繁访问的数据(尤其是从远程位置),以提供内存级 I/O 吞吐率。此外,Alluxio的层次化存储机制能够充分利用内存、固态硬盘或者磁盘,降低具有弹性扩张特性的数据驱动型应用的成本开销。
  • 简化云存储和对象存储接入:与传统文件系统相比,云存储系统和对象存储系统使用不同的语义,这些语义对性能的影响也不同于传统文件系统。在云存储和对象存储系统上进行常见的文件系统操作(如列出目录和重命名)通常会导致显著的性能开销。当访问云存储中的数据时,应用程序没有节点级数据本地性或跨应用程序缓存。将 Alluxio云存储或对象存储一起部署可以缓解这些问题,因为这样将从 Alluxio 中检索读取数据,而不是从底层云存储或对象存储中检索读取。
  • 简化数据管理Alluxio 提供对多数据源的单点访问。除了连接不同类型的数据源之外,Alluxio 还允许用户同时连接同一存储系统的不同版本,如多个版本的 HDFS,并且无需复杂的系统配置和管理。
  • 应用程序部署简易Alluxio 管理应用程序和文件或对象存储之间的通信,将应用程序的数据访问请求转换为底层存储接口的请求。Alluxio 与 Hadoop 生态系统兼容,现有的数据分析应用程序,如 Spark 和 MapReduce 程序,无需更改任何代码就能在 Alluxio 上运行。

技术创新

Alluxio 将三个关键领域的创新结合在一起,提供了一套独特的功能。

  1. 全局命名空间Alluxio 能够对多个独立存储系统提供单点访问,无论这些存储系统的物理位置在何处。这提供了所有数据源的统一视图和应用程序的标准接口。有关详细信息,请参阅统一命名空间文档
  2. 智能多层级缓存Alluxio 集群能够充当底层存储系统中数据的读写缓存。可配置自动优化数据放置策略,以实现跨内存和磁盘(SSD/HDD)的性能和可靠性。缓存对用户是透明的,使用缓冲来保持与持久存储的一致性。有关详细信息,请参阅 缓存功能文档
  3. 服务器端 API 翻译转换Alluxio支持工业界场景的API接口,例如HDFS API, S3 API, FUSE API, REST API。它能够透明地从标准客户端接口转换到任何存储接口。Alluxio 负责管理应用程序和文件或对象存储之间的通信,从而消除了对复杂系统进行配置和管理的需求。文件数据可以看起来像对象数据,反之亦然。

快速上手指南

如果打算快速地搭建 Alluxio 并运行,请阅读快速上手指南页面,该页面描述了如何部署 Alluxio 并在本地环境下运行示例。

或者,你也可以尝试我们为Presto & Alluxio制作好的快速上手教程,具体点击如下图片链接:

「其他分享」Alluxio 开源数据编排技术插图1

下载和有用资源

你可以从 Alluxio 下载页面获取已发布版本。 每个Alluxio发布版本都提供了与不同 Hadoop 版本兼容的预编译好的二进制文件。 从 Master 分支构建 Alluxio页面解释了如何从源代码编译生成Alluxio项目。 如果你有任何疑问,请联系我们用户邮件列表 或者我们的社区Slack频道

ESWINK , 版权所有丨如未注明 , 均为原创

原文标题:「其他分享」Alluxio 开源数据编排技术

Eswink原创声明