基于Web信息采集技术研究
来源:才华咖 本文已影响1.18W人
来源:才华咖 本文已影响1.18W人
随着Web上信息的迅速扩展,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个Web的信息采集也越来越力不从心,它无法及时地采集到足够的Web信息,也不能满足人们日益增长的个性化需求。为此,本文展开了对Web上局部范围内信息的有效采集研究,也就是基于主题的Web信息采集研究。
根据我们在信息采集领域的长期积累以及国内外在基于主题的信息采集领域的发展,本文在综述了基本情况后提出了一个基于主题的Web信息采集结构模型,这包括主题与起始URL选择、Spider采集、页面分析、URL与主题的相关性判定、以及页面与主题的相关性判定等一系列步骤。我们分别给出了相关的处理算法和流程以及相应的数据结构,并针对研究过程中遇到的问题,提出了多个新的算法、判定规则和规律:
在Hub特性、Linkage/Sibling Locality特性、站点主题特性、Tunnel特性的基础上,总结出了主题页面在Web上的分布规律。
在定义主题和提出分类主题的基础上,给出了主题选择的方法。
采用Client/Server结构的`Spider系统,允许多机同时采集,实现了全面、高效并且灵活的信息搜集。
在分析了HTML语法的基础上,给出了对html页面的主题、链接、标题的提取算法。
在URL与主题的相关性判定中,在扩展元数据方法RW、RWB和链接分析方法PageRank的基础上提出了IPageRank算法。
在页面与主题的相关性判定中,应用在自然语言处理中比较成熟的基于关键词的向量空间模型计算页面与主题的相似度。
试验结果显示,我们的工作是有效的,我们的系统有很强的实用价值,特别是URL与主题的相关性判定中的IPageRank算法,有较大的突破。
2016年上海航天技术研究院考研调剂信息
海南大学信息科学技术学院2017年研究生复试工作基本安排
电子商务师考试内容:Web技术几个基本概念
javaweb之web入门基础知识
2017年华北计算技术研究所调剂信息
学习j2eeweb技术的方法
关于Web日志的研究分析
2017年USNews美国大学研究生专业排名信息咨询
Web信息集成系统网络架构
2016年电信科学技术研究院考研调剂信息
苏州科技大学关于2017年研究生图像信息采集工作的通知
2018年最新US News 美国大学研究生专业排名图书馆及信息研究学院
江苏大学关于做好2018届毕业研究生图像信息采集工作的通知
关于Web服务实现技术
南通大学关于做好2016级研究生图像信息采集工作的通知
信息技术教学研究论文
Web 2.0技术的内容
关于国培信息技术的研修计划
信息技术EXCEL教案设计
电子科大资源与环境学院2018届毕业研究生图像信息采集通知
Web Workers加速移动Web应用
分享2015USNews美国大学研究生听力学专业排名信息咨询
Web数据挖掘技术探析
基于飞机标准件装配设计技术的研究
关于德国柏林bbw应用技术大学简介
企业信息如何发,b2b商贸平台信息发布基本知识!
ActiveX技术控件在WEB页上的应用
关于信息技术教研组的工作总结
关于信息技术教研组工作总结
计算机web技术介绍
第二学期中小学信息技术教学研究计划范文
基于Web的MES系统安全架构设计及分析
基于信息技术的研究性学习
东北师范大学研究生补充采集学历证书电子图像信息的通知
南京信息工程大学申报2017研究生国际学术交流基金项目通知
关于信息技术个人研修计划
基于核心素养的信息技术教学设计研究与应用
基于信息技术的小学音乐教学探究
关于中学信息技术研修的计划
福建农林大学开展2017上半年研究生学位信息采集工作通知