搜索引擎中的网络蜘蛛技术探析
摘要:搜索引擎技术可以从海量的网络信息中获得我们想要的信息,随着网络信息资源的急剧增长其作用越来越显著。本文介绍了搜索引擎技术中的网路蜘蛛,分析了其对文件的处理方法,研究了其搜索与更新策略。
关键词:搜索引擎;网路蜘蛛;更新策略
一 网络蜘蛛工作原理
网络蜘蛛,即搜索引擎机器人程序。将整个互联网想象成一张很大的蜘蛛网,而搜索引擎机器人程序通过链接来抓取信息的过程就像是蜘蛛在这张网上爬来爬去一样。网络蜘蛛是通过链接地址来寻找网页的。它由一个启始链接开始抓取网页内容,同时也采集网页上的链接,并将这些链接作为它下一步抓取的链接地址,如此循环,直到达到某个停止条件后才会停止。停止条件的设定通常是以时间或是数量为依据,有时也会以链接的层数来限制网络蜘蛛的运行。
二 网路蜘蛛与网站的交互问题
网络蜘蛛访问一个网站,通常会去寻找一个特殊的文本文件,这个文件如果存在的话通常会放在网站的根目录下。它是专门用来同网络蜘蛛交互用的专用文件。它会将网站管理者的意思传递给访问它的网络蜘蛛,告诉网站同意或是禁止某些或是所有蜘蛛访问网站的某个特定的网页或者目录。它的结构和语法都比较简单,一般网络蜘蛛都可以很容易的理解网站的意思。正规的搜索引擎通过读取这个文件可以很方便的理解网站的意思并按照网站管理者的意思来进行友好的访问。但是这个仅仅只是网络的一个约定协议而以,并没有对其制定相应的强迫手段,更没有提出相应的惩罚,所以这个约定对于遵守者是有效的,但对于那些不懂生规矩的蜘蛛是一点作用都没有。
在网页中的Meta字段同样也可以放入和上面文件相同效用的内容,它可以告诉网络蜘蛛这个网页对于网站管理者来说,是需要被收录还是仅仅被浏览或是根本就不允许蜘蛛访问。这个字段通常会放在文档的头部,通过读取这个字段,蜘蛛可以在没有读取到全部文档的情况下就了解文档的相关信息,可以避免将无效的网页取下来后又将其废弃而造成无谓的浪费。同样这个规则也是没有特殊限制的,遵守程度完全靠网络蜘蛛的自觉性和网站的设计方式来决定。为了让网站被搜索引擎搜索到,尤其是那些网站所有者希望网络蜘蛛采集的网页,网站的设计者通常会在网站中放入一个叫做的网页,并将它作为网站的入口文件。
三 网络蜘蛛对于文件的处理
(一)二进制文件处理
网络上除了有大量的HTML文件和XML文件外,也有大量的二进制文件。为了使网页的内容更加丰富,图片和多媒体文件被网页大量的引用。它们在网页上也是以超链接的形式出现的,因而在链接提取的阶段它们也是会被放在待访问队列中。对于二进制文件通过文件的内容来完成文件的索引是不现实的,现在的技术还没有达到可以通过二进制文件来理解文件内容的地步。因而对于这些文件的处理一般是采用单独处理的方式,其内容的理解完全需要依靠二进制文件的锚点描述来完成。锚点描述通常代表了文件的标题或是基本内容。锚点信息一般是由引用网页来提供,而不是放在二进制文件本身。二进制文件由于种类的差别问题,也需要分别来进行处理。
(二)脚本文件的处理
-
高层建筑工程深基坑支护施工技术研究
高层建筑深基坑支护施工过程中,需要确保整个施工过程的合理性和科学性,这也是基坑支护施工中的重点内容。对于高层建筑中的深基坑支护工程来说,在具体施工过程中,防水、挖土、维护等内容都是工程中的关键问题。摘要:随着我国建筑水平的不断提升,高层建筑数量日益增多...
-
谈人的全面发展思想的理论奠基
论文关键词:马克思恩格斯人的全面发展唯物史观论文相关查阅:毕业论文范文、计算机毕业论文、毕业论文格式、行政管理论文、毕业论文论文摘要:人的全面发展思想伴随着马克思、恩格斯历史唯物主义和剩余价值学说的逐步确立而确立。其内涵包括人的需要的全面发展、...
-
供电企业班组员工绩效管理探讨
近年来,供电企业在不断创新与发展中,取得了不错的效益,随之而来的就是员工的绩效考核问题越发严重。为此,我们根据供电企业的特点,从整体方面对绩效考核探索出一个完善的考核模式。在现代信息社会,电成为了人们生活中必不可少的一部分,而供电企业也因为行业的增大而对...
-
区域产业经济论文
加快区域产业结构调整升级,促进区域产业高级化与合理化。那么,如何快速发展区域产业经济呢?一技术进步对经济增长的测度分析所使用的数据取自甘肃省2002—2011年的数据,数据来源于《甘肃省统计年鉴》。用甘肃省GDP表示总产出水平,由于各地区就业或劳务人口统计...