HPC China2013:高能物理大数据存储、处理及挖掘

袁绍龙 发表于:13年10月31日 00:54 [原创] 存储在线

  • 分享:
[导读]来自中国科学院高能物理研究所的研究员孙功星带来了主题为《从大数据到新发现--高能物理大数据存储、处理及挖掘》的主题报告。

2013年10月31日,桂林。HPC China 2013大会进入到第三天。在第三天的会议中,来自中国科学院高能物理研究所的研究员孙功星带来了主题为《从大数据到新发现--高能物理大数据存储、处理及挖掘》的主题报告。孙功星研究员认为在发现希格斯粒子这个过程中计算机的作用非常重要,计算机在未来的高能物理学中将继续发挥重要作用。另外,通过把Hadoop架构引入到高性能物理计算领域,将有助于大幅提升处理与分析的性能。

图一:中国科学院高能物理研究所的研究员孙功星发表演讲

图二:高能物理需要大量的计算资源,并且会产生大量的数据。

孙功星表示,在高能物理领域的大数据处理过程主要包括三个方面:首先是Data Recording,Raw Event从探测器获取,以二进制格式记录的探测器信号,再由计算机产生模拟实验的蒙特卡罗模拟数据,将物理信号数字化;然后是Data Processing,读出Raw/MC Raw,处理产生相关物理信息,如动量、对撞顶点等;最后就是Data Mining,由上千个属性组成的DST Event文件,提供物理学家进行分析,并最后产生物理结果。

图三:高能物理的数据处理过程。

 

图四:物理分析。

孙功星研究员表示,物理学家通过大数据处理三个过程,在里面找到有兴趣的数据。现在我们开始尝试采用Hadoop本地系统,采用Hadoop方案之后,对于网络、磁盘阵列的需求减少很多。当然在高能物理领域的Hadoop应用跟互联网有所不同,因此我们也有针对性,特别是在IO方面做了一些工作,以适用Hadoop架构。通过Lustre和Hadoop架构的对比,我们进行分析测试后发现,在处理性能和文件重建等方面都有着大幅的性能提升。过去传统的方式就是拿数据过来分析,扔掉不重要的数据,然后再拿数据进行分析,再扔掉不重要的数据,过程比较繁琐。通过Hadoop架构,我们将TAG数据放入到Hbase中,TAG数据则是非常小的,利用Hadoop的确是能大幅提升性能。

图五:在MapReduce下面运行C++

图六:测试对比结果。

图七:将TAG数据放入Hbase。

图八:测试性能结果。 

最后,孙功星研究员认为高能物理领域是大数据、数据挖掘的技术,具有完善的数据挖掘软件。未来LHC升级将会产生几倍于现在的数据,给高能物理计算带来更多挑战,因此现在的趋势就是探索新型的计算机体系结构、高性能计算机结合的方案。

[责任编辑:袁绍龙]
袁绍龙
2013年10月30日,桂林。HPC China2013大会进入到第二天。在第二天的会议中,来自华东师范大学云计算与大数据研究中心主任、海量计算研究所所长周傲英教授做了主题为《高性能数据管理系统:回顾和展望》的主题演讲。
官方微信
weixin
精彩专题更多
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
12月15日,中国闪存联盟成立,同时IBM Flash System卓越中心正式启动
DOIT、DOSTOR、易会移动客户端播报中国存储峰会盛况。
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved.