亚马逊CloudSearch优于DIY搜索工具?

日期:2014-1-27作者:Dan Sullivan

【TechTarget中国原创】

大数据对于企业商务智能的价值无可估量。然而,为了这种价值要挖掘大量非结构化文本数据,这意味着至少需要一个基本的搜索服务,有时候是更加高级的文本分析方法。

使用亚马逊Web服务(AWS)的云管理者和开发者现在可以实施自己的搜索服务器,使用流行的开源工具,比如Lucene和Solr;或者使用亚马逊CloudSearch。在决定使用搜索即服务和DIY搜索时,有一些问题需要考虑。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Dan Sullivan
Dan Sullivan

Dan Sullivan是一名作家、系统架构师和顾问,拥有超过20年关于先进的分析、系统架构、数据库设计、企业安全、商业智能的IT从业经验。他的从业范围广泛,包括金融服务业、制造业、医药、软件开发、政府、零售、天然气和石油生产、发电、生命科学和教育。

云计算之经济性>更多

  • 剑走偏锋:Azure新许可亮新招

    即用即付定价一直是公有云自成立以来的中心原则,但是未来的Microsoft Azure客户想要走这条路线需要找到一些值得注意的字符串。

  • Azure Premium Storage账单如何工作?

    对于那些必须管理和维护昂贵硬件的企业来说,在云中存储数据是一个很有吸引力的替代方案。优势包括备份和恢复方案的平滑自动化、增强的可访问性和可扩展性。

  • 奔向2017:减少云计算成本需优先

    随着2016年的结束,企业将公布、评估他们的成本开销——包括云服务在内。 同时,在某些情况下,企业将会越来越意识到云计算的成本将比他们的预期更大。

  • 云免费服务三国鼎立:AWS VS. Google VS. Azure

    AWS免费套餐是那些想要试水云计算的IT团队的一个切入点 。虽然免费服务很诱人,但它值得付出努力吗?

相关推荐

  • 赞!亚马逊CloudSearch数据搜索五步搞定

    亚马逊CloudSearch是一个为云计算中文档创建搜索索引的有用工具。这项服务是基于使用文档现有属性项的,它可允许开发人员新增新的属性项以便于对搜索索引进行微调。

技术手册>更多

  • 不可不知的云加密

    对很多组织来说,适当的在云中加密数据,安全的创建并保留加密密钥,还有在理论上,防止任何云供应商的管理人员访问这些密钥等需求,在任何的云计算环境里,尤其是基础架构即服务(IaaS)领域方面,都是一些最抢手最重要的安全机制。

  • 亚马逊IaaS服务解析

    亚马逊的web服务(AWS)在云计算领域一直处于不可撼动的地位。AWS是一个典型的IaaS服务,提供了一组服务,包括存储(S3)、计算能力(EC2)等

  • OpenStack实战指导手册

    本技术手册我们将侧重介绍OpenStack的最新动态,以及如何用OpenStack构建云计算,同时我们在最后引入拉美最大在线电子交易网站MercadoLibre的实战,看他们如何用OpenStack开发云存储业务。

  • 云计算灾难恢复(DR)计划书

    早期应用云计算的企业已经证明了云计算部署的可行性和管理以及降低成本的优势,事实上,在使用软件即服务应用程序如CRM和ERP成功地驾驭云计算后,现在很多企业都希望通过基于云的灾难恢复(DR)解决方案替代传统的现场备份。Gartner公司指出,直到2014年,超过30%的中型企业将会采用云计算的灾难恢复或作为一种恢复服务。本技术手册将介绍如何实现完整的云计算灾难恢复计划。

TechTarget

最新资源
  • 安全
  • CIO
  • SOA
  • 虚拟化
  • 网络
  • 数据中心
【TechTarget中国原创】

大数据对于企业商务智能的价值无可估量。然而,为了这种价值要挖掘大量非结构化文本数据,这意味着至少需要一个基本的搜索服务,有时候是更加高级的文本分析方法。

使用亚马逊Web服务(AWS)的云管理者和开发者现在可以实施自己的搜索服务器,使用流行的开源工具,比如Lucene和Solr;或者使用亚马逊CloudSearch。在决定使用搜索即服务和DIY搜索时,有一些问题需要考虑。

亚马逊CloudSearch的搜索即服务

亚马逊CloudSearch是一种基于云的搜索服务,企业可以将这个应用集成到索引文件中,响应搜索查询。和其他的AWS服务一样,亚马逊管理服务器实现,而非使用者。亚马逊CloudSearch提供了免费的文本搜索,以及一些更加高级的功能,比如分面搜索和自定制相关性排序。

分面搜索。分面搜索可以让应用用户通过使用文档分类刚要缩小搜索的文档范围。比如,一个文档注册库可能根据多个面或者字段分类文档,比如创建日期、文档类型或者关键话题。

自定制相关性排序。默认情况下,搜索索引中的所有字段都被认为是平等相关的,这也并非总是最佳的权重模式。然而,相关字段权重允许开发者权衡一些字段(比如关键字)的重要性,来确定文档的相关度,最终,在结果集中排列文档。

除了为应用开发者和管理者提供核心搜索服务,亚马逊CloudSearch会根据需求扩展。也在内存中维护了搜索索引来减少延迟。

用Solr和LuceneDIY搜索

亚马逊服务通常在运行企业自己的服务时具备成本竞争力;然而,如果你愿意承担由于用程序管理开销导致的潜在的高成本风险,从而获得更大的控制权和更多的功能的话,你可以看一下第三方的工具。比如,开源搜索平台Apache Solr是一种免费的平台,包括支持高级文本搜索功能、线性扩展性、几近实时的索引和扩展插件架构。Solr也支持更加高级的文本分析操作,比如
单词拆分、正则表达式和听起来不错的过滤器。这个开源平台也包括支持国际化,对于拥有全球用户群的应用而言是一项重要的功能。

使用Solr的另一个优势是访问具体的应用可以减少你自己的开发者需求。以LucidWorks为例,提供了附件来执行命名实体识别;用Drools整合,开源业务规则引擎;调整搜索指针改善搜索结果质量和排序。

Lucene是一个基于Java的搜索和索引服务,也是另外一种选择,但是提供的功能比Solr少。实际上,Solr是基于Lucene的,但是增加了搜索和管理功能。

对比CloudSearch和DIY的成本

亚马逊CloudSearch的收费基于搜索实例的大小、文档批量上传、文档索引操作的数量和数据传输量。搜索实例的成本范围为:小实例每小时0.1美元到双倍超大实例每小时1.1美元

如果搜索服务需要持续较长时间,你可能需要考虑对比亚马逊CloudSearch成本和预留实例价格,而非按需价格。预留实例的一到三年承诺有效。

图1 不同场景成本

亚马逊CloudSearch成本如图所示。亚马逊CloudSearch的成本收到文档注册库的高度影响,决定了搜索实例大小。评估运行自己的搜索服务的成本,比如Lucene或者Solr服务器,由于管理成本的多变性更加困难,但是我们可以评估运行实例的成本,对比在亚马逊CloudSearch上的运行情况。使用按需价格和假定实例每天运行24小时,每月运行三十天,通用小型实例的成本为43.2美元,大型实例的成本为172.8美元,超大型实例的成本为345.6美元。DIY实例和亚马逊CloudSearch成本之间的差异并不明显。在用例查询大型实例中,DIY节省的成本可能少于管理员两个小时的成本。

亚马逊CloudSearch可以让开发者针对基于云的应用快速实施搜索功能。服务包括支持基本的搜索操作,以及一些比DIY方法更具成本竞争优势的更加高级的性能。对于需要更多高级需求的用户,管理自己的服务的额外支出等价于高级搜索和文本分析带来的好处。