首页: 电子电路图,电子技术资料网站首页

电子资料下载: 电子资料下载频道 -- 为电子工程师提供激发创新灵感的新方案、新的参考设计、新的设计构想等可下载的电子资料！

电子技术应用: 电子技术应用频道 -- 为电子工程师提供电子产品设计所需的技术分析、设计技巧、设计工具、测试工具等技术文章！

电子元器件: 专业的电子元器件平台 -- 及时发布大量最新IC、分立器件、模组等电子元器件产品信息！

电子电路图: 电路图频道 -- 提供电子电路图,原理图,汽车电路图,手机电路图,功放电路图,电源电路图等电路图纸

电子技术论坛: 构建电子工程师交流的平台 -- 在交流中进一步学习设计技巧、规划技术人生、提升自我价值！

源码下载: 源码下载频道; uCOS编程 C/C++语言编程 Symbian编程 Linux/uClinux/Unix编程 Windows编程 matlab源程序 php源码下载 asp.net源码下载 java源码下载汇编编程驱动程序单片机编程数值算法/人工智能

您的位置：电子发烧友网>源码下载>数值算法/人工智能>

大数据搜索引擎对比分析

大小：0.8 MB 人气： 2017-10-10 需要积分：1

推荐 + 挑错 + 收藏(0) + 用户评论（0）

前往下载地址

分享到:

标签：搜索引擎(13272)

　　想要学习更专业的互联网知识欢迎加入官网技术交流Q群：547147889
　　大数据是一个包括一切的术语，指的是数据集很大很复杂，他们需要特别设计的硬件和软件工具。数据集通常是 T 或者更大级别。这些数据集从各种各样的来源创建，包括传感器，收集气象信息，公开可用的信息，如杂志、报纸、文章。还包括购买交易记录、网络日志、医疗记录、军事侦察、视频和图像档案和大规模的电子商务等等。
　　要分析这些数据需要专门的软硬件，本文介绍 7 个开源的搜索引擎适合用于大数据处理：
　　Apache Lucene
　　Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包，是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。 Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。
　　特性：
　　索引过程：
　　在现在流行的硬件平台上每个小时可处理超过 150GB 的数据
　　内存占用小，只需 1MB 的堆内存
　　增量索引和批量索引速度一样快
　　索引大小约为文本索引的 20-30% 大小
　　静态索引修剪
　　搜索算法：
　　范围搜索 - 优先返回最佳结果
　　很多强大的查询类型：短语查询、通配符查询、近似查询、范围查询等
　　可单独针对某个字段查询
　　可单独根据某个字段排序
　　多索引搜索并合并搜索结果
　　允许同步更新索引和搜索
　　灵活的门面搜索、高亮显示、结果集的联合和分组
　　快速，低内存占用和容错
　　可插入式排名模型，包括 VSM 和 Okapi MB25
　　可配置的存储引擎
　　跨平台解决方案
　　100% 纯 Java
　　其他语言提供索引兼容的实现
　　Apache Solr
　　Apache Solr （读音： SOLer）是一个开源的搜索服务器。Solr 使用 Java 语言开发，主要基于 HTTP 和 Apache Lucene 实现。Apache Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成，每个 Field 表示资源的一个属性。Solr 中的每个 Document 需要有能唯一标识其自身的属性，默认情况下这个属性的名字是 id，在 Schema 配置文件中使用：id进行描述。
　　ElasticSearch
　　Elastic Search 是一个基于Lucene构建的开源，分布式，RESTful搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。支持通过HTTP使用JSON进行数据索引。
　　Sphinx
　　Sphinx是一个基于SQL的全文检索引擎，可以结合MySQL，PostgreSQL做全文搜索，它可以提供比数据库本身更专业的搜索功能，使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口，如PHP，Python，Perl，Ruby等，同时为MySQL也设计了一个存储引擎插件。
　　Xapian
　　Xapian是一个用C++编写的全文检索程序，他的作用类似于Java的lucene。尽管在Java世界lucene已经是标准的全文检索程序，但是C/C++世界并没有相应的工具，而Xapian则填补了这个缺憾。
　　Nutch
　　Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
　　尽管Web搜索是漫游Internet的基本要求，但是现有web搜索引擎的数目却在下降。并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益。这显然不利于广大Internet用户。
　　Nutch为我们提供了这样一个不同的选择。相对于那些商用的搜索引擎， Nutch作为开放源代码搜索引擎将会更加透明，从而更值得大家信赖。现在所有主要的搜索引擎都采用私有的排序算法，而不会解释为什么一个网页会排在一个特定的位置。除此之外，有的搜索引擎依照网站所付的费用，而不是根据它们本身的价值进行排序。与它们不同， Nucth没有什么需要隐瞒，也没有动机去扭曲搜索的结果。 Nutch将尽自己最大的努力为用户提供最好的搜索结果。
　　Nutch 致力于让每个人能很容易，同时花费很少就可以配置世界一流的Web搜索引擎。为了完成这一宏伟的目标， Nutch必须能够做到：
　　每个月取几十亿网页
　　为这些网页维护一个索引
　　对索引文件进行每秒上千次的搜索
　　提供高质量的搜索结果
　　以最小的成本运作
　　LGTE
　　LGTE 是基于 Lucene 提供了扩展 Lucene API 用于集成很多服务，例如片段生成、查询扩展等等，并提供了一组单元测试。
　　特性包括：
　　提供了简单和高效的 Lucene API 的抽象层
　　在主题、时间和地理方面支持集成检索和排序的依据
　　支持 Lucene 标准的检索模型，提供更高级的概率检索方法
　　支持 Rochio 查询扩展
　　提供了用于 IR 仿真体验的框架（例如处理 CLEF/TREC 主题）
　　包含 trec_eval 工具的 Java 替换版
　　包含一个简单的测试应用，用来搜索 Braun Corpus 或 Cranfield Corpus
　　TREC/CLEF 仿真框架 - 集合索引的工具，运行主题搜索并使用 treckeval 格式输出结果
　　使用不同文件夹提供隔离字段
　　通过外键字段提供层次化的索引
　　提供用于使用 Yahoo PlaceMaker 解析文档的类

非常好我支持^.^

(0) 0%

不好我反对

(0) 0%

下载地址

不能下载？请通知我们

大数据搜索引擎对比分析下载

普通下载普通下载

用户评论

发表评论即可获得积分！ 详见积分规则

发表评论

用户评论

评价:好评中评差评

发表评论，获取积分！请遵守相关规定！

注册会员

游客:

大数据搜索引擎对比分析

下载地址

大数据搜索引擎对比分析下载

相关电子资料下载

用户评论

发表评论

分享你我的电子世界

实用电子设计资料下载

源码下载排行

热门词