广博吧

位置:首页 > 学习经验 > 毕业论文

CPM搜索引擎的设计与实现

毕业论文

目录
摘要 2
前 言 4
1 概述 5
1.1 搜索引擎的概念 5
1.2 1些著名的搜索引擎 6
1.2.1 Google 6
1.2.2 百度 7
1.2.3 天网 7
1.3 典型WEB搜索引擎工作原理 7
1.4 CPM搜索引擎工作原理 9
2  CPM搜索总体设计 10
2.1基本要求 10
2.2 体系结构规划分析 11
2.3 各模块设计策略分析 11
2.3.1 网页搜集 11
2.3.2 预处理 13
2.3.3 查询服务 14
2.4 体系结构 16
3 网页搜集模块的设计与实现 18
3.1 超文本传输协议 18
3.2 网络蜘蛛原理 19
3.3 网络蜘蛛的类结构 20
3.4 CSPIDERTHREAD类 21
3.5 网络蜘蛛爬取策略 26
3.6 控制对1个站点并发搜索线程的数目 26
3.7 数据库设计 26
4 预处理模块的设计与实现 28
4.1 分析网页 28
4.1.1 分析网页内容 28
4.1.2 获取网页所有链接URL 29
4.3 网页重复搜集的避免 30
4.4 网页重要程度确定 31
4.5 中文分词 31
4.5.1 算法介绍 31
4.5.2 正向减字最大匹配法 33
4.5.3 分词系统实现 35
5 查询服务模块设计与实现 40
5.1 查询服务系统结构 40
5.2 查询结果显示 41
5.3 用户界面 41
5.4 针对查询服务对分词系统的改进 43
6 结束语 44
致谢 46
参 考 文 献 47
附录 48
1 网络蜘蛛程序与数据库接口实现 48
2 分词系统对文章处理的函数实现 49

CPM搜索引擎的设计与实现

 
CPM搜索引擎的设计与实现

摘要:本文论述了1个小型搜索引擎(CPM搜索)系统的设计原理、设计思想及具体的实现过程,对在设计过程中涉及到的.关键算法作了具体分析和介绍,并对各个模块的架构以及设计思想和设计过程作了详细阐述。该系统主要包括3个模块:网页搜集、预处理和查询服务。网页搜集和预处理模块采用VC++开发 ,实现了抢先式多线程网络蜘蛛程序和中文分词系统。查询服务模块实现了基于ASP的Web服务系统。
CPM搜索是个人毕业设计做的1个小型搜索引擎系统,设计的目的就是让它足够小,但是又让它具备完整的搜索服务功能。便于任何1个对搜索引擎感兴趣的人可以利用自己有限的硬件资源(如自己的台式机)搭建,实现小型搜索服务,如校园搜索。

关键字:网络蜘蛛;中文分词;网页重要程度;网页索引词;动态库
 
 
The Design And Realization of CPM Search Engine

Abstract: There is a small search engine (CPM search) system design principles, design concepts and concrete realization process in the discourse. in the design process involves a specific analysis of the key algorithms and introduction, and the structure and design of the various modules of ideas and made a detailed design process. The system consists of three main modules : web collection, pretreatment and query services. Collection and pretreatment module used VC++ development, achieving pre-empt a number of systems network spider procedures and Chinese participle system. Query service module based on the ASP achievement of the Web system.
CPM is a small search engine search which i designed in my graduate-design time. The aim of design it is enough small, but it has also integrated search service functions. A search engine for any interested person may make use of its limited hardware resources (such as their desktop) structures, and achieve small search services, such as campus search.

KeyWords:Network spiders;the Chinese participle;the degree of importance of the website;dynamic link libraries

包括:毕业论文 任务书 没有源代码

标签:CPM 搜索引擎