首页 >> 大全

【hadoop】 1001-hadoop介绍

2023-08-30 大全 35 作者:考证青年

数据魔方

双11解决方案

版本

官方版本(2.4.1)

CDH5-商业支持,由商业支持,目前京东在用。

核心

HDFS: File 分布式文件系统

YARN:Yet 资源管理调度系统

问题: 如何解决海量数据存储?

NFS

飞秋模式

_介绍hadoop的架构_介绍hadoop

HDFS的架构

主从结构

主节点:

从节点:

介绍hadoop_介绍hadoop的架构_

.x 中就一个节点,.x中可以由多个节点,组成一个集群

负责

1. 接收用户操作请求 2. 维护文件系统目录结构 3. 管理文件与block之间关系

负责

1. 存储文件 2. 文件被分成block存储在磁盘上 3. 为保证数据安全,文件会有多个副本

和关系

1. 如图开发经理和开发人员的关系

2. 如仓库和管理员的管理

问题: 怎样解决海量数据计算

多进程+多线程方法,采用

_介绍hadoop的架构_介绍hadoop

的特点

1.扩容能力():能可靠地()存储和处理千兆字节(PB)数据。

2.成本低():可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

3.高效率():通过分发数据,可以在数据所在的节点上并行地()处理它们,这使得处理非常的快速。

4.可靠性():能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署()计算任务。

_介绍hadoop_介绍hadoop的架构

的1.0 和 .0 比较

_介绍hadoop_介绍hadoop的架构

自成为大数据工具以来, 就是一个非常棒的数据存储系统,但是需要开发 Java 应用来访问数据的 学习起来却比较困难。

当然,还有别的办法可以从 中获取信息。Hbase数据是 的一部分,它可以让用户按照数据库范式来处理数据。Hive数据仓库则可以让你用类 SQL 的 查询语言来创建查询并转化为 任务。不过 仍受限于单线程性。 任务、Hive 查询、Hbase 操作,等等,这些都要轮流进行。

_介绍hadoop的架构_介绍hadoop

主要的问题集中如下:

YARN解决方案

在 2.0 发布经理 Arun 看来,其最重要的变化是 框架升级为 YARN。扩展 中可以应用的软件种类和应用程度。Arun 本人就是 YARN 项目主管,他指出, 1.0 和 2.0 的区别在于,前者所有的事情都是面向批处理的,而后者则允许多个应用同时在内部访问数据。

相对于当前 系统能处理的事情,把这些功能分开使得 集群资源的管理更加强大。

介绍hadoop__介绍hadoop的架构

重构根本的思想是将 两个主要的功能分离成单独的组件,这两个功能是资源管理和任务调度 / 监控。新的资源管理器全局管理所有应用程序计算资源的分配,每一个应用的 负责相应的调度和协调。一个应用程序无非是一个单独的传统的 任务或者是一个 DAG( 有向无环图 ) 任务。 和每一台机器的节点管理服务器能够管理用户在那台机器上的进程并能对计算进行组织。

事实上,每一个应用的 是一个详细的框架库,它结合从 获得的资源和 协同工作来运行和监控任务。

上图中 支持分层级的应用队列,这些队列享有集群一定比例的资源。从某种意义上讲它就是一个纯粹的调度器,它在执行过程中不对应用进行监控和状态跟踪。同样,它也不能重启因应用失败或者硬件错误而运行失败的任务。

是基于应用程序对资源的需求进行调度的 ; 每一个应用程序需要不同类型的资源因此就需要不同的容器。资源包括:内存,CPU,磁盘,网络等等。可以看出,这同现 固定类型的资源使用模型有显著区别,它给集群的使用带来负面的影响。资源管理器提供一个调度策略的插件,它负责将集群资源分配给多个队列和应用程序。调度插件可以基于现有的能力调度和公平调度模型。

上图中 是每一台机器框架的代理,是执行应用程序的容器,监控应用程序的资源使用情况 (CPU,内存,硬盘,网络 ) 并且向调度器汇报。

每一个应用的 的职责有:向调度器索要适当的资源容器,运行任务,跟踪应用程序的状态和监控它们的进程,处理任务的失败原因。

关于我们

最火推荐

小编推荐

联系我们


版权声明:本站内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 88@qq.com 举报,一经查实,本站将立刻删除。备案号:桂ICP备2021009421号
Powered By Z-BlogPHP.
复制成功
微信号:
我知道了