如何为Hadoop集群选择合适的硬件?

比特网 发表于:12年11月12日 09:00 [转载] 比特网

  • 分享:
[导读]我们的客户开始使用Hadoop时的第一个问题是如何为他们的Hadoop集群选择合适的硬件。这个博客介绍Hadoop管理员需要考虑的各种因素。我们也鼓励其他人根据他们的经验决定Hadoop集群配置。虽然Hadoop设计在工业标准硬件上运行,建议一个理想的集群配置不只是提供硬件规格列表那么容易。

如何挑选适合你的Hadoop集群的硬件

选择机器配置的第一步是了解你的运营团队已经管理的硬件类型。运营团队往往有新机器采购方面的看法,他们倾向于已经熟悉的硬件。Hadoop不是唯一的可以享受规模效益好处的系统。如果你不知道你的工作负载特点,记住第一个Hadoop集群采用平衡的硬件选择方案。

一个基本的Hadoop集群中的节点有四种类型。我们这里把执行特定任务的机器视为一个节点。大部分机器将作为Datanode和 TaskTracker工作。正如我们前面提到的,这些节点存储数据和执行计算功能。在一个平衡的Hadoop集群中,我们建议 Datanode/TaskTracker采用以下硬件规格:

· 4个1TB硬盘,支持JBOD

· 2个四核CPU,至少2-2.5GHz

· 16-24GB 内存(如果你考虑HBase,24-32GB)

· 千兆以太网

namenode负责协调集群中的数据存储,jobtracker协调数据计算任务。最后的节点类型是secondarynamenode,小型集群它可以和 namenode共用一台机器,较大的群集可以采用和namenode节点相同的硬件。我们建议客户购买加固的服务器来运行的 namenodes和jobtrackers,配有冗余电源和企业级RAID磁盘。

namenodes也需要更多的RAM,与集群中的数据块数量相对应。一个好的经验是分布式文件系统中每存储一百万个数据块,namenode 中对应1GB内存。对于一个100个Datanode的集群,32GB RAM的namenode可以提供足够的扩展空间。我们也建议有一个备用机,当 namenode或jobtracker 其中之一突然失败时可以替代使用。

当您的Hadoop集群增长超过20台机器,我们建议配置初始集群,因为它跨越两个机架,每个机架顶部有机架千兆交换机,这些交换机连接10千兆以太网的互连或核心交换机。有两个逻辑机架,运营团队可以更好地理解内部机架和跨机架的网络需求。

有了Hadoop集群,团队可以开始确定工作负载和准备工作负载基准,以确定CPU和IO瓶颈。经过一段时间的基准设定和监测,该小组将有一个更好 的了解,应该如何配置更多的机器。随着规模增长,通常会形成一个异构的Hadoop集群。这样,从一套不是很完美地适合你的工作负载的集群起步,将不会是 一种浪费。

[责任编辑:黄辉]
大黄
以备份起家的CommVault近两年的解决方案不断向更全面的数据保护转型,并对数据管理、数据挖掘也有了一些关注。CommVault中国区技术总监蔡报永接受采访时表示CommVault将继续做一家专注做数据管理和信息管理的软件厂商。
官方微信
weixin
精彩专题更多
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
12月15日,中国闪存联盟成立,同时IBM Flash System卓越中心正式启动
DOIT、DOSTOR、易会移动客户端播报中国存储峰会盛况。
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved.