亚马逊CloudSearch优于DIY搜索工具?

日期:2014-1-27作者:Dan Sullivan

【TechTarget中国原创】

大数据对于企业商务智能的价值无可估量。然而,为了这种价值要挖掘大量非结构化文本数据,这意味着至少需要一个基本的搜索服务,有时候是更加高级的文本分析方法。

使用亚马逊Web服务(AWS)的云管理者和开发者现在可以实施自己的搜索服务器,使用流行的开源工具,比如Lucene和Solr;或者使用亚马逊CloudSearch。在决定使用搜索即服务和DIY搜索时,有一些问题需要考虑。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Dan Sullivan
Dan Sullivan

Dan Sullivan是一名作家、系统架构师和顾问,拥有超过20年关于先进的分析、系统架构、数据库设计、企业安全、商业智能的IT从业经验。他的从业范围广泛,包括金融服务业、制造业、医药、软件开发、政府、零售、天然气和石油生产、发电、生命科学和教育。

云计算之经济性>更多

  • 剑走偏锋:Azure新许可亮新招

    即用即付定价一直是公有云自成立以来的中心原则,但是未来的Microsoft Azure客户想要走这条路线需要找到一些值得注意的字符串。

  • Azure Premium Storage账单如何工作?

    对于那些必须管理和维护昂贵硬件的企业来说,在云中存储数据是一个很有吸引力的替代方案。优势包括备份和恢复方案的平滑自动化、增强的可访问性和可扩展性。

  • 奔向2017:减少云计算成本需优先

    随着2016年的结束,企业将公布、评估他们的成本开销——包括云服务在内。 同时,在某些情况下,企业将会越来越意识到云计算的成本将比他们的预期更大。

  • 云免费服务三国鼎立:AWS VS. Google VS. Azure

    AWS免费套餐是那些想要试水云计算的IT团队的一个切入点 。虽然免费服务很诱人,但它值得付出努力吗?

相关推荐

  • 赞!亚马逊CloudSearch数据搜索五步搞定

    亚马逊CloudSearch是一个为云计算中文档创建搜索索引的有用工具。这项服务是基于使用文档现有属性项的,它可允许开发人员新增新的属性项以便于对搜索索引进行微调。

技术手册>更多

  • 开源云计算平台和产品教程

    在寻找开源云计算服务供应商时,拥有较强开发能力团体或特定业务应用的企业往往会习惯性地避开商业云计算服务供应商。但是有些问题依然存在,如开源云计算服务供应商如何体现其价值。谁将拔得头筹?Eucalyptus系统是否能够在与OpenStack的残酷竞争中胜出?OpenStack是否能够摆脱过分项目宣传的老套路,进而推出具有量产商业化性质的云计算产品?红帽公司是否能够进一步明确其模糊不清的云计算战略?那么诸如Abiquo之类的无关虚拟化管理程序公司又如何?谁将成为世人眼中的焦点,成为企业私有云计算实施计划中的宠儿?

  • 云平台选择与部署指南

    云计算应用落地是一个很漫长的过程。在部署云计算之前,用户必须认识各个平台供应商及其云平台,然后根据自身架构选择合适的云平台投入运营。

  • 2013年云计算案例合集

    巨头侵入中国市场,也反映出用户已经接受了云计算技术。在过去的一年中,云计算也在各个行业中有了不俗的表现。

  • 2010年最具价值的技巧指导

    2010年,云在大家心中留下了怎样的印象?用户开始关心并讨论云,开始思考云的好与不好。对此,TechTarget云计算网站特别总结2010年最具价值的技巧指导与大家分享。

TechTarget

最新资源
  • 安全
  • CIO
  • SOA
  • 虚拟化
  • 网络
  • 数据中心
【TechTarget中国原创】

大数据对于企业商务智能的价值无可估量。然而,为了这种价值要挖掘大量非结构化文本数据,这意味着至少需要一个基本的搜索服务,有时候是更加高级的文本分析方法。

使用亚马逊Web服务(AWS)的云管理者和开发者现在可以实施自己的搜索服务器,使用流行的开源工具,比如Lucene和Solr;或者使用亚马逊CloudSearch。在决定使用搜索即服务和DIY搜索时,有一些问题需要考虑。

亚马逊CloudSearch的搜索即服务

亚马逊CloudSearch是一种基于云的搜索服务,企业可以将这个应用集成到索引文件中,响应搜索查询。和其他的AWS服务一样,亚马逊管理服务器实现,而非使用者。亚马逊CloudSearch提供了免费的文本搜索,以及一些更加高级的功能,比如分面搜索和自定制相关性排序。

分面搜索。分面搜索可以让应用用户通过使用文档分类刚要缩小搜索的文档范围。比如,一个文档注册库可能根据多个面或者字段分类文档,比如创建日期、文档类型或者关键话题。

自定制相关性排序。默认情况下,搜索索引中的所有字段都被认为是平等相关的,这也并非总是最佳的权重模式。然而,相关字段权重允许开发者权衡一些字段(比如关键字)的重要性,来确定文档的相关度,最终,在结果集中排列文档。

除了为应用开发者和管理者提供核心搜索服务,亚马逊CloudSearch会根据需求扩展。也在内存中维护了搜索索引来减少延迟。

用Solr和LuceneDIY搜索

亚马逊服务通常在运行企业自己的服务时具备成本竞争力;然而,如果你愿意承担由于用程序管理开销导致的潜在的高成本风险,从而获得更大的控制权和更多的功能的话,你可以看一下第三方的工具。比如,开源搜索平台Apache Solr是一种免费的平台,包括支持高级文本搜索功能、线性扩展性、几近实时的索引和扩展插件架构。Solr也支持更加高级的文本分析操作,比如
单词拆分、正则表达式和听起来不错的过滤器。这个开源平台也包括支持国际化,对于拥有全球用户群的应用而言是一项重要的功能。

使用Solr的另一个优势是访问具体的应用可以减少你自己的开发者需求。以LucidWorks为例,提供了附件来执行命名实体识别;用Drools整合,开源业务规则引擎;调整搜索指针改善搜索结果质量和排序。

Lucene是一个基于Java的搜索和索引服务,也是另外一种选择,但是提供的功能比Solr少。实际上,Solr是基于Lucene的,但是增加了搜索和管理功能。

对比CloudSearch和DIY的成本

亚马逊CloudSearch的收费基于搜索实例的大小、文档批量上传、文档索引操作的数量和数据传输量。搜索实例的成本范围为:小实例每小时0.1美元到双倍超大实例每小时1.1美元

如果搜索服务需要持续较长时间,你可能需要考虑对比亚马逊CloudSearch成本和预留实例价格,而非按需价格。预留实例的一到三年承诺有效。

图1 不同场景成本

亚马逊CloudSearch成本如图所示。亚马逊CloudSearch的成本收到文档注册库的高度影响,决定了搜索实例大小。评估运行自己的搜索服务的成本,比如Lucene或者Solr服务器,由于管理成本的多变性更加困难,但是我们可以评估运行实例的成本,对比在亚马逊CloudSearch上的运行情况。使用按需价格和假定实例每天运行24小时,每月运行三十天,通用小型实例的成本为43.2美元,大型实例的成本为172.8美元,超大型实例的成本为345.6美元。DIY实例和亚马逊CloudSearch成本之间的差异并不明显。在用例查询大型实例中,DIY节省的成本可能少于管理员两个小时的成本。

亚马逊CloudSearch可以让开发者针对基于云的应用快速实施搜索功能。服务包括支持基本的搜索操作,以及一些比DIY方法更具成本竞争优势的更加高级的性能。对于需要更多高级需求的用户,管理自己的服务的额外支出等价于高级搜索和文本分析带来的好处。