基于分类技术的Blog用户兴趣挖掘
摘 要:文章通过分析Blog用户兴趣挖掘的重要性,提出了一种基于文本分类技术的自动挖掘Blog用户兴趣的方法,帮助用户自动推荐相似兴趣的博客以及为用户提供个性化的搜索与浏览博客内容的服务。
关键词:Blog;内容挖掘;Blog搜索;中心向量法;kNN算法
1 Blog技术介绍
Blog是Web Log的简称,称为“网络日志”,在大陆音译为“博客”。它让任何人都可以像免费电子邮件的注册、写作和发送一样,完成个人网页的创建、发布和更新,被认为是继E-mail、BBS、ICQ之后出现的第四种网络交流方式[1]。
中国互联网络信息中心(CNNIC)于2009年1月发布的《中国互联网络发展状况统计报告》中指出:2008年博客用户规模持续快速发展,截至2008年12月底,在中国2.98亿网民中,拥有博客的网民比例达到54.3%,用户规模为1.62亿人。在用户规模增长的同时,中国博客的活跃度有所提高,半年内更新过博客的比重较2007年底提高了11.7%。博客数量的增长带来了用户聚集的规模效应。博客频道在各类型网站中成为标准配置,其中SNS元素的加入对博客用户的增长起到了推动作用。博客的影响力进一步加强[2]。
由此可见,Blog作为Web2.0的重要应用,以其个性化的信息发布平台、多元化的内容载体等特点吸引着越来越多的网络用户,撰写和浏览Blog已经成为网络文化的流行热点,推动了Blog搜索服务的发展。
2 Blog用户兴趣挖掘的研究意义
Blog相关研究可划分为Blog定义与识别、内容挖掘、社区发现、重要性分析、Blog搜索和作弊Blog识别这6个主要方面[3],而Blog搜索是当前Blog研究的热点之一。但是,目前的Blog搜索服务大都是基于对用户输入关键词的匹配。这种搜索方式仅仅是传统Web搜索的延伸,搜索范围也受到用户所指定的关键词的限制,并没有突出Blog搜索的特殊性,也没有有效地利用博客内容的个性化、多元化等特征。
而事实上,博客中个性化的内容为我们提供了丰富的有价值的可以用来挖掘用户个性化特征的数据,不仅可以帮助我们理解博客用户的兴趣、意图,对其进行个性化的服务,还可以为具有不同信息需求的用户提供个性化的搜索与浏览博客空间中的内容的服务。因此,研究Blog用户的兴趣挖掘技术对于Blog搜索服务的发展是十分重要的。
3 构建Blog用户兴趣挖掘方法
该方法将兴趣挖掘的问题转化为对博客文章的文本分类问题,即利用文本分类技术来实现对主题信息的抽取,将一个博客内的`文章分到事先定义好的兴趣类别中,如“体育健身”、“音乐”或“影视”等,然后综合所有文章的分类结果确定该博客作者的兴趣集合。
3.1 定义兴趣类别
由于没有统一的兴趣分类方式,所以可通过自定义兴趣类别来构建兴趣类别体系,但要求体系中尽可能包含生活的各种兴趣,且要具有层次化的结构,见图1描述了层次结构中一个第一层的类别节点和其子类别的形式:
3.2 分类博客文章
-
探讨计划免疫工作中如何更好地履行宣教与查对制度
【关键词】计划免疫宣教讲座查对制度计划免疫工作是是根据疫情监测和人群免疫状况分析,按照规定的免疫程序,有计划地利用疫苗进行免疫接种,以提高人群免疫力,达到控制乃至最终消除一些相应传染病的根本措施。随着国家扩大免疫规划的实施,扩大免疫规划取得了很大的成...
-
数字电视发射机技术原理与发展趋势
随着社会的快速发展,各项技术也在迅猛发展。以下是小编为大家推荐的相关论文范文,希望能帮到大家,更多精彩内容可浏览()。摘要:随着社会的快速发展,数字技术也在不断发展,人们的生活品质也在不断提高,更好的满足了人们的精神需求。当然,数字电视发射机技术的应用在给广...
-
房地产项目经济敏感性分析方法
在经济数学中弹性分析有着很重要的经济学意义,能够直接延伸到房地产项目经济评价敏感性分析的领域中,那么,房地产项目经济敏感性如何分析呢?1敏感分析方法1.1敏感性分析的定义敏感性分析就是相关人员在很多不确定性因素中,找到严重影响到相关项目经济利益的敏感性因...
-
关于财务会计毕业论文范文
当前,中国财务会计概念框架的制定是必要的和紧迫的,中国财务会计概念框架研究为财政部制定概念框架提供依据。下面是小编为大家整理的关于财务会计毕业论文,供大家参考。财务会计毕业论文范文1.财务会计与管理会计的内在关系财务会计和管理会计虽然都是以企业会...