CPM搜索引擎的设计与实现
目录
摘要 2
前 言 4
1 概述 5
1.1 搜索引擎的概念 5
1.2 1些著名的搜索引擎 6
1.2.1 Google 6
1.2.2 百度 7
1.2.3 天网 7
1.3 典型WEB搜索引擎工作原理 7
1.4 CPM搜索引擎工作原理 9
2 CPM搜索总体设计 10
2.1基本要求 10
2.2 体系结构规划分析 11
2.3 各模块设计策略分析 11
2.3.1 网页搜集 11
2.3.2 预处理 13
2.3.3 查询服务 14
2.4 体系结构 16
3 网页搜集模块的设计与实现 18
3.1 超文本传输协议 18
3.2 网络蜘蛛原理 19
3.3 网络蜘蛛的类结构 20
3.4 CSPIDERTHREAD类 21
3.5 网络蜘蛛爬取策略 26
3.6 控制对1个站点并发搜索线程的数目 26
3.7 数据库设计 26
4 预处理模块的设计与实现 28
4.1 分析网页 28
4.1.1 分析网页内容 28
4.1.2 获取网页所有链接URL 29
4.3 网页重复搜集的避免 30
4.4 网页重要程度确定 31
4.5 中文分词 31
4.5.1 算法介绍 31
4.5.2 正向减字最大匹配法 33
4.5.3 分词系统实现 35
5 查询服务模块设计与实现 40
5.1 查询服务系统结构 40
5.2 查询结果显示 41
5.3 用户界面 41
5.4 针对查询服务对分词系统的改进 43
6 结束语 44
致谢 46
参 考 文 献 47
附录 48
1 网络蜘蛛程序与数据库接口实现 48
2 分词系统对文章处理的函数实现 49
CPM搜索引擎的设计与实现
摘要:本文论述了1个小型搜索引擎(CPM搜索)系统的设计原理、设计思想及具体的实现过程,对在设计过程中涉及到的.关键算法作了具体分析和介绍,并对各个模块的架构以及设计思想和设计过程作了详细阐述。该系统主要包括3个模块:网页搜集、预处理和查询服务。网页搜集和预处理模块采用VC++开发 ,实现了抢先式多线程网络蜘蛛程序和中文分词系统。查询服务模块实现了基于ASP的Web服务系统。
CPM搜索是个人毕业设计做的1个小型搜索引擎系统,设计的目的就是让它足够小,但是又让它具备完整的搜索服务功能。便于任何1个对搜索引擎感兴趣的人可以利用自己有限的硬件资源(如自己的台式机)搭建,实现小型搜索服务,如校园搜索。
关键字:网络蜘蛛;中文分词;网页重要程度;网页索引词;动态库
The Design And Realization of CPM Search Engine
Abstract: There is a small search engine (CPM search) system design principles, design concepts and concrete realization process in the discourse. in the design process involves a specific analysis of the key algorithms and introduction, and the structure and design of the various modules of ideas and made a detailed design process. The system consists of three main modules : web collection, pretreatment and query services. Collection and pretreatment module used VC++ development, achieving pre-empt a number of systems network spider procedures and Chinese participle system. Query service module based on the ASP achievement of the Web system.
CPM is a small search engine search which i designed in my graduate-design time. The aim of design it is enough small, but it has also integrated search service functions. A search engine for any interested person may make use of its limited hardware resources (such as their desktop) structures, and achieve small search services, such as campus search.
KeyWords:Network spiders;the Chinese participle;the degree of importance of the website;dynamic link libraries
包括:毕业论文 任务书 没有源代码
-
倾听音乐、聆听音乐、静听音乐
音乐欣赏,是人的听觉器官接触音乐作品的音响运动形式而产生的一种能动的审美活动,也是一种通过音乐形象去体验和认识社会生活的积极的思维活动。通过音乐欣赏教学,可以接触古今中外的各种题材、体裁、风格的作品,从而开阔音乐视野,懂得一些基本的音乐知识,培养高尚的...
-
“多读”是语文教学的精髓
在文章中,不论是事情的记叙,人物和情境的描写,还是事物的介绍说明,观点的阐述和议论,都直接或间接,直露或含蓄地表达着作者的思想感情倾向,对学生起思想导航和激励作用,产生美感和丰富的想象,使学生不断地受到真善美的熏陶和感染。这在多数情况下都是通过朗读来实现的,忽...
-
供电企业班组员工绩效管理探讨
近年来,供电企业在不断创新与发展中,取得了不错的效益,随之而来的就是员工的绩效考核问题越发严重。为此,我们根据供电企业的特点,从整体方面对绩效考核探索出一个完善的考核模式。在现代信息社会,电成为了人们生活中必不可少的一部分,而供电企业也因为行业的增大而对...
-
浅议体育课多班同课窘境的应对策略论文
随着学校规模的不断扩大,在同一课次、同一场地上体育课的班级数也越来越多,而由于受场地、器材等因素的影响,造成了体育课多班同课教学的窘境。一、体育课多班同课教学窘境的原因1、体育设施配备滞后,同场教学有序开展受到制约。场地、器材配备与同课教学需求的差...