搜索引擎建立网页索引,处理的对象是文本文件。对于搜索引擎爬虫来说,抓取下来的网页包括各种格式,如html、图片、doc、pdf,多媒体、动态网页及其他格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索
……[查看详情]Robots协议是Web站点和搜索引擎爬虫交互的一种方式,Robots.txt是存放在站点根目录下的一个纯文本文件。该文件可以指定搜索引擎爬虫只抓取指定的内容,或者是禁止搜索引擎爬虫抓取网站的部分或全部内容。当一个搜索引擎爬虫访问一个站点时,它会首先检查该站
……[查看详情]Robots协议是Web站点和搜索引擎爬虫交互的一种方式,Robots.txt是存放在站点根目录下的一个纯文本文件。该文件可以指定搜索引擎爬虫只抓取指定的内容,或者是禁止搜索引擎爬虫抓取网站的部分或全部内容。当一个搜索引擎爬虫访问一个站点时,它会首先检查该站
……[查看详情]DMOZ是国外权威的目录搜索引擎,DMOZ对于搜索引擎优化起到的作用一向被SEOer推崇。但是因为DMOZ收录网站的时间过长,更新信息过慢,导致DMOZ所收录的信息没有及时呈现出来。DMOZ的中文类别的某些目录,更是长期处于不更新状态。 因为DMOZ是权威的目录,它所
……[查看详情]DMOZ是国外权威的目录搜索引擎,DMOZ对于搜索引擎优化起到的作用一向被SEOer推崇。但是因为DMOZ收录网站的时间过长,更新信息过慢,导致DMOZ所收录的信息没有及时呈现出来。DMOZ的中文类别的某些目录,更是长期处于不更新状态。 因为DMOZ是权威的目录,它所
……[查看详情]网络资源数量巨大,种类多样。任何搜索引擎要采集所有的网络资源,既不可能,也没有必要。如何根据链接结构及对网络数据的分析确定适用的访问策略,是信息采集的关键。常见的访问策略包括常规遍历算法和优化遍历算法两类。 常规遍历形式,通常包括广度优先算
……[查看详情]网络资源数量巨大,种类多样。任何搜索引擎要采集所有的网络资源,既不可能,也没有必要。如何根据链接结构及对网络数据的分析确定适用的访问策略,是信息采集的关键。常见的访问策略包括常规遍历算法和优化遍历算法两类。 常规遍历形式,通常包括广度优先算
……[查看详情]搜索引擎的一个突出问题是,关键词搜索返回的网络资源数量过多,用户很难完整地浏览,研究发现,多数普通用户在检索时,只浏览前一、两页的网络资源。因此如何在检索结果提供时,将最符合检索要求的资源在排列中靠前,成为提高检准率的重要手段。针对这一情
……[查看详情]搜索引擎的一个突出问题是,关键词搜索返回的网络资源数量过多,用户很难完整地浏览,研究发现,多数普通用户在检索时,只浏览前一、两页的网络资源。因此如何在检索结果提供时,将最符合检索要求的资源在排列中靠前,成为提高检准率的重要手段。针对这一情
……[查看详情]搜索引擎如何鉴别镜像网站 有一个客户向思亿欧咨询说,2个同类型的站,产品一样,主题风格一样,不一样的是结果,不同的系统生成静态。谷歌会如何分出重要的那个网站? 从内容上判断 判断某个网站内容的丰富性、权威性、更新频率等。哪一个网站的内容比另外
……[查看详情]搜索引擎如何鉴别镜像网站 有一个客户向思亿欧咨询说,2个同类型的站,产品一样,主题风格一样,不一样的是结果,不同的系统生成静态。谷歌会如何分出重要的那个网站? 从内容上判断 判断某个网站内容的丰富性、权威性、更新频率等。哪一个网站的内容比另外
……[查看详情]虽然现代搜索引擎已经取得了很大的成功,但是我们也应当看到,现代搜索引擎仍然存在很多不足之处,主要表现为以下几个方面: 首先,它缺乏信息收集和信息检索的同步性。搜索引擎在检索时依据的是利用爬虫程序事先遍历互联网后得到的网页索引信息,而由于遍历
……[查看详情]虽然现代搜索引擎已经取得了很大的成功,但是我们也应当看到,现代搜索引擎仍然存在很多不足之处,主要表现为以下几个方面: 首先,它缺乏信息收集和信息检索的同步性。搜索引擎在检索时依据的是利用爬虫程序事先遍历互联网后得到的网页索引信息,而由于遍历
……[查看详情]不同的Web信息检索系统在工作原理上各不一样,下面就结合搜索引擎来具体说明一下一般Web信息检索系统的特点。虽然各个搜索引擎的具体实现不尽相同,但一般包含爬虫程序、分析程序、索引程序、检索程序和用户接口界面5个基本部分,而且大致的工作原理是相同的
……[查看详情]不同的Web信息检索系统在工作原理上各不一样,下面就结合搜索引擎来具体说明一下一般Web信息检索系统的特点。虽然各个搜索引擎的具体实现不尽相同,但一般包含爬虫程序、分析程序、索引程序、检索程序和用户接口界面5个基本部分,而且大致的工作原理是相同的
……[查看详情]