网络爬虫

减小字体 增大字体 作者:杨松梅  来源:www.zhonghualunwen.com  发布时间:2009-09-13 02:02:33

  互联网搜索引擎通常由5个主要环节构成。系统主要模块包括网页信息抓取、网页内容分析、网页索引建立、网页结果排序、网页搜索工具与接口。主要功能模块结合其他中文信息处理和信息检索技术,完成整个网页搜索引擎。其中网络信息抓取需要网络爬虫来完成,网络爬虫在搜索引擎中起着至关重要的作用,它是搜索引擎信息来源的核心。
  网络爬虫功能需求主要是完成信息抓取,其他功能设计都围绕信息抓取这个核心功能进行。网络爬虫的设计开发总体上包括5方面任务要求。具体的内容描述如下:
  1.网络爬虫具有可配置性。它需要动态配置信息,设定待抓取URL地址列表、抓取深度和层次范围。网络爬虫需要行为控制信息,包括抓取使用的线程或进程情况、时间间隔和更新周期。
  2.新网站和新链接的发现能力。网络爬虫需要简单分析下载的页面,提取包含的新URL。新增加的URL增加到等待下载队列,保证网络爬虫的自我资源发现能力。
  3.下载页面的存储和管理。网络爬虫存储下载的网页内容,为网页分析和索引提供数据。海量搜索引擎下载的文档数量惊人,需要合理的管理策略。存储的高效和可靠性至关重要,需要考虑分布式存储策略。
  4.高效的网页更新、死锁判别方法。网络爬虫对历史下载的网页需要定期检查,判断页面内容是否更换,确定网页源是否已经被删除。这部分功能需要网络爬虫通过多线程并发控制,控制对同一站点的访问并发数量和检查周期。
  5.域名解析缓存机制和已下载内容的本地代理缓存。网络爬虫需要经常访问同一个域名下的网页内容。域名解析内容缓存能存储域名与IP地址的复杂对应关系,减少域名查询次数,大大提高网络利用率。本地下载代理内容可以避免重复下载减少一定时期内对目标站点的多次下载。
  从结构上来看,互联网其实就是一张大型的网络图。搜索引擎中可以把每一个网页作为一个节点,把网页内的超链接当作连接网页的弧。搜索引擎在进行信息抓取时,可以按照图论的相关算法进行处理。网络爬虫从某个网站的首页进入,按照图论的相关遍历算法就可以访问这个网站的所有信息。
  为了实现网络爬虫,需要对HTTP协议有所了解。HTTP协议是用于从互联网WWW服务器传送超文本到本地浏览器的传送协议。协议的目标是使浏览器更加高效,提高网络传输效率。HTTP协议不仅可以正确、快速的传输超文本文档,还可以确定传输文档中的哪一部分首先显示。
  为了更快的实现抓取,可以采用封装的HTTP协议API,也可以采用最基本的Socket通信编程模式。Socket就是所谓的网络套接字。
  互联网上分布着大量网页,不同网页的访问速度差别比较大。网页下载过程中的网络延迟成为整个系统性能的瓶颈。为了提高效率,网络爬虫被设计成队列缓冲、多线程并行结构。网络爬虫具有3大模块:HTTP下载模块、链接分析模块、和下载控制模块。3大模块有机的组成一个高效的功能体系。各模块的作用如下:

[1] [2]  下一页

Tags:

作者:杨松梅
  • 好的评价 如果您觉得此文章好,就请您
      0%(0)
  • 差的评价 如果您觉得此文章差,就请您
      0%(0)

文章评论评论内容只代表网友观点,与本站立场无关!

   评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论