如何逃出大数据困境?开源或是关键手段
剑鱼 发表于:12年04月18日 10:16 [转载] IT168
实现SDA
那么,我们应该如何对结构化和非结构化数据存储进行及时的访问数据和执行分析呢?我们应该如何提问,以帮助我们找到所需要的具体信息,并从存在的隐藏的关系中获得知识呢?
这需要从以搜索为基础的应用程序和(通过类似商业智能的报告的)洞察力开始,基本上就是大数据和那些有疑问的实际用户发起的点到点实时数据访问的结合。关键字搜索加上发现功能(例如聚类、建议和分类)能够帮助用户更快地找到具体内容。
在试过可行的搜索技术中,首当其冲的就是对分析能力的需求,以满足两个领域。首先是客户为导向的结合了原始内容以及所有用户交互的学习方法(客户就 是上帝,对吧?)。这种良性循环也是目前领先的面向消费者的网站(例如亚马逊、谷歌和Facebook)成功运作的原因,并且正在迅速成为一种必然,而不 是那些希望在市场获得竞争力的企业值得拥有的能力。
想象一家每天面对2000万页面浏览量的大型电子商务公司,虽然其核心产品的搜索索引只有500万条目,当你将这500万条目与页面浏览量相乘时, 你将面对一个非常惊人的大数据挑战。但是因为其现有技术的限制,该公司只能保持三个月数据的有效性。该公司可以通过访问其数据归档来对更长时间进行报告, 但是对于实时搜索和分析,该公司只能依赖于过去的三个月中的数据。
为了让其更多的较旧的数据更容易访问和使用,该公司部署了一个大型Hadoop集群,位于其搜索引擎旁边。随后,他们使用 Mahout和Apache Pig等工具来快速和具有成本效益地分析几个月的数据。现在,该公司不仅能够分析谁点击了什么页面,而且还能够分析点击页面的相关性等。而且他们还具有强 大的关键字搜索以及发现和导航能力(用于向上销售和交叉销售)。这些功能结合在一起为该公司提供了更深入的洞察力,并且他们还能够将分析信息反馈回系统以 进行不断改善。
将这些分析信息反馈回业务同样能够让企业通过利用关于员工是如何利用内容的信息来改善运营方式。企业现在能够确定特定主题的专家,看看谁正在使用何 种类型的内容来完成工作等。同样地,这里也建立了一个良性循环,使用系统来提高系统的整体有效性,企业能够更好地进行组织,因为他们不仅理解了他们的数据 (他们从传统商业智能和搜索中获取的数据)的价值,而且知道了其员工的价值。
