中国数据存储服务平台

YARN: 让Hadoop更完善?

Apache Hadoop的肯定不是开源分布式文件系统唯一的解决方案,近年来出现了一些hadoop的竞争对手,如HPCC等等,但在蓬勃发展的大数据存储领域它肯定是最有名的和最流行的平台。

虽然hadoop精于数据处理和分析和原始存储,但Hadoop仍有其不足之处,如批量处理的延迟,而且对MapReduce的数据处理很依赖。

YARN是另一种资源的谈判代表,是一个新的框架,Cloudera要求“比早期的MapReduce有更好的适用性”,因为它运行的程序,不遵守MapReduce模型。

Apache Hadoop项目管理委员会的主席和Hortonworks的创始人Arun Murthy,近日在接受采访时表示:“简而言之,我们尝试在Hadoop中采用YARN不仅仅用于MapReduce的数据处理,它允许你MapReduce和Hadoop在相同的集群环境中做得更多。”

Pervasive Software公司的首席技术专家Jim Falgout在接受电话采访时这样形容YARN:“作为一个分布式操作系统,它有一个分布式的调度,分布式文件系统,它能运行分布的工作。”

“但早期的YARN是一个‘基本的’操作系统,你只能运行一个应用程序,”Falgout笑着说。 “这是MapReduce的。” 他补充,“YARN是Hadoop社区走向成熟的一个非常重要的部分。” 它昭示着MapReduce是伟大的,但它并不能解决所有的问题,这并非你要求的所有解决方案。

Falgout已经解决了这个课题。 “MapReduce擅长解决例如为全球网站建立索引这类问题。但是,它不是解决任何问题都最灵活有效的平台,”他最近在网站的博客上写下这些数据。

YARN拓展了hadoop,允许开发人员利用该平台的属性构建不同类型的应用程序。“”

YARN开辟了Hadoop的,允许开发人员构建不同类型的应用程序,利用该平台的属性。 “如果你要使用Hadoop,YARN,在MapReduce分布式操作系统上的所有的应用程序,你写的不错”Falgout说。 “如果Linux这样,它走不到太远。”

Falgout关于YARN的想法,它的小惊喜,Pervasive Software公司,总部位于得克萨斯州奥斯汀??,提供数据管理和分析产品,深入参与Hadoop的大数据。该公司的软件的产品包括DataRush,其目的是提高并行性能的数据处理和分析任务,并快速分析数据访问,制备,分析和报告工具,可视化工作流。

Falgout说,DataRush计划对YARN的普适框架移植,但目前尚未宣布具体的时间表。 “我们没有看到YARN被大面积应用在客户的生产系统,”他补充说。 “我们知道它即将到来,所以我们将可能在下个月开始对YARN的工作。”

Cloudera公司, YARN及其CDH4分布的Hadoop,另外和已实施的早期版本,但被认为是一个alpha版本的软件。Falgout说:“它在那里,你可以看”,“但它尚未做好万全准备。”

YARN 的实施将直接影响最终用户,当然,但它可以提供间接的好处,使非常困难的Hadoop平台更易于使用。 “那是Hadoop近期的大主题, Hadoop的采用令其更易使用,”Falgout说。 “得到它超越了早期那些愿意写MapReduce代码,并经历过麻烦的使用者,因为他们享用了它的一项重大优势。”

预测分析变得更快,更准确,更方便。结合大数据,它引领着一个新时代。此外,在新的,全数字化的高级分析问题的信息:项目管理办公室在浪费钱吗?

未经允许不得转载:存储在线 » YARN: 让Hadoop更完善?
分享到: 更多 (0)