大数据自动化分析和开源

日期:2014-8-19作者:张培颖来源:TechTarget中国

【TechTarget中国原创】

现在Apache的开源Storm可能是大数据自动化分析最大的话题了,Storm是一个分布式实时计算系统,按照Storm作者的说法,Storm对于实时计算的意义类似于hadoop对于批处理的意义。在2011年Storm开源之前,Hadoop的大红大紫,让整个业界对于大数据的热情高涨。Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据。但是,Hadoop的缺点也和它的优点同样鲜明——延迟大、响应缓慢、运维复杂。不过根据Forrester最近的调查,我们发现商用厂商在开源Storm也有相关的产品和服务提供。

Storm被广泛应用于实时分析,在线机器学习,持续计算、分布式远程调用等领域。目前Storm已经为一些高调的企业所应用,比如Weather Channel、Spotify和Twitter,但是Forrester的调查中发现,即便如此,这个极为技术性的平台却缺乏更高级的工具以及自动化运行器,而这些则由需要厂商的产品平台来提供。

在七月份的大数据自动化分析平台报告中,Forrester回顾了主要的七个平台:IBM、Informatica、SAP、Software AG、SQLstream、TIBCO和Vitria,总共评估的项目多达50条,包括业务应用和平台集成、数据源、开发工具、执行能力、合作伙伴以及价格等。

如果大数据自动化分析这样的词汇让人感到过于前沿化的话,也需要注意的是一些实时的数据可能会成就或者破坏业务。比如,供应链领导商希望利用实时数据响应制造、交付或者召回问题。对于那些依赖市场数据进行决策制定的产业也很有用。

企业如果要自己制定一个实时的计算系统,要解决很多问题。主要有五方面的问题,低延迟,既然是实时计算系统,延迟一定要低。另外就是高性能,性能如果不够高的话对于机器就是一种浪费。再者是要维持分布式特性,系统都是为应用场景而生的,如果你的应用场景、你的数据和计算单机就能搞定,那么不用考虑这些复杂的问题了。我们所说的是单机搞不定的情况。可扩展。伴随着业务的发展,企业的数据量、计算量可能会越来越大,所以这个系统的可扩展性必须能够保证。最后还要考虑容错的问题,这是分布式系统中通用问题。一个节点不工作了不能影响整体的应用。

物联网、移动化和一些潜在的事件数据也都可能为这些工具创造更多的需求。这份报告中也提供了一些实际应用大数据自动化分析的公司案例,同时将这些部署主要分成三个比较宽泛的领域:实时可视化业务、检测紧急情况以及自动化瞬时行动。毫无疑问在这份报告中,领导的厂商主要是IBM、Informatica、SAP等,他们的解决方案更为成熟。

这份报告也指出初创公司,比如DataTorrent和Continuuity的代号为jetStream的产品也已经加入到自动化分析的市场中,但是二者都旨在Hadoop内部运行。此外IBM也提供了自己对于这个领域的评估。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

张培颖
张培颖

云计算网站编辑

云计算和大数据>更多

  • 评估公共云中机器学习服务

    自从科幻电影中出现了不停闪烁和嘟嘟响的电脑之后,机器学习就被视为计算的未来。今天,未来就在这里,因为机器学习——特别是在云上,变得越来越实用,对企业IT来说也越来越实惠。

  • 华大基因:BT+IT引领物种学科的新开工

    BT和IT融合,为基因组学这个重要的生物学分支奠定了基础。所谓基因组学(英文名称Genomics),就是研究生物基因组、研究如何利用基因的一门学问。它涉及基因测序、基因作图、基因组功能分析等。

  • Oracle IaaS 2.0:支持最大规模、最苛刻的数据库负载

    在甲骨文第2代企业级IaaS云技术大会,甲骨文公司副总裁及北方区总经理孟文波也说,“未来的世界,数据是最有价值的,数据的革命将会是第四次革命中最重要的基础。

  • 移动互联网:企业如何在大数据的野蛮生长中掘金?

    随着全球移动设备、可穿戴设备等智能设备的不断增多,我们看到大数据的数量也不断增长,而且是爆发式的增长。IDC的一份报告预测,到2020年,大数据和业务分析市场将增长至203亿美元,是2015年1120亿美元的两倍。

技术手册>更多

  • 网格计算入门指南

    业务周期的速度和不可预测性已经使很多企业的管理能力逼近了极限。企业需要更具适应性,但他们信息系统的响应速度往往较慢。同时,这些企业希望借助IT系统获得更高的效率,并降低计算成本。

      网格计算是一种新的IT体系结构,它能够适应不断变化的业务需求。网格计算还为IT经济带来了革命性的变化。通过企业网格计算,您可以使用可随需应变的灵活成本结构构建一个功能强大的数据中心。

      虚拟化是关于运行时部署的效率,注重提供方便。因为企业逐渐转向应用SOA,所以它们会寻求服务周期的管理方式,这其中可能就包括调用虚拟容器作为服务、数据、甚至SOA基础设施本身(如虚拟化软件产品)的运行时间。

  • 企业私有云架构构建指南

    由于云计算所带来的好处和虚拟化的本质局限的原因,云计算几乎吸引了所有的眼球。虚拟化主要关注其本身和虚拟机(VM),虚拟机的性能以及一旦物理服务器实现虚拟化后所能实现的功能。与之不同,私有云计算的范围更为广泛,它并不仅仅关注虚拟机本身,而且还包括托管虚拟机的整个基础设施。本文将介绍私有云的优势以及如何构建私有云架构。

  • 多云战略与管理

    一个多云战略可以让用户充分发挥每个云产品的优势来满足每一个业务需求,但是这样一个战略也会引入一定的复杂性。在一个多云模式中,很容易就会陷入失控的状态;用户一个不小心就会错失整个价值主张。但如果有了合适的预防措施,那么一个多云战略将给用户带来许多的红利。

  • 云计算网络安全电子书

    不管你选择软件即服务、平台即服务还是基础架构即服务,有一件事是不可避免的:你需要良好的、可靠的网络连接到云。 网络很可能成为一个障碍,因为云大大改变了网络的作用以及与之配套的硬件和软件。在这本技术手册中,我们将主要介绍云网络安全的相关内容。

TechTarget

最新资源
  • 安全
  • CIO
  • SOA
  • 虚拟化
  • 网络
  • 数据中心