WebSpider蓝蜘蛛互联网定向采集系统
一、WebSpider蓝蜘蛛定向采集系统简介
WebSpider蓝蜘蛛互联网定向采集系统可以采集指定网站上指定范围内的页面数据,然后通过正则表达式解析出页面上的任意数据项。定向采集的采集目标可以是各种类型的网站,比如新闻网站、博客网站、论坛网站等,比如行业网站、服务型网站、内网等。系统可以根据您的需求精确地解析出网页上的各个数据项,比如标题、作者、来源、时间、正文、电话、产品、价格、评论、公司名、联系人等等,前提是您需要配置将要采集网站的入口URL以及解析模版。该系统的特点是精准。二、WebSpider蓝蜘蛛定向采集系统的主要版本 WebSpider蓝蜘蛛互联网定向采集系统分为标准版和高级版,其功能及特点概要描述如下:
1、标准版主要功能特点:
1、新闻、博客、论坛网站的采集
2、行业网站、服务型网站、内网的采集
3、支持网站登录
4、Ajax网站采集
5、隐藏参数的网站采集
6、跨平台、跨数据库
7、高并发大数据量的服务器端采集
8、不仅仅是以html置标作为数据项的头尾标志,而是以任意有特征的字符作为数据项的头尾标志
9、精确制导的采集模版设置
10、断点续采
11、对内容恒定页、内容变化页采取不同的采集策略
12、支持各种页面编码
13、支持用户自定义表的字段映射及数据入库
14、支持第三方发布接口
15、可以与WebNews互联网舆情监控系统、WebCIS企业竞争情报分析预警系统等其他系统无缝集成
2、高级版功能特点:
1、根据验证码特征进行个性化识别支持(一般涉及个性化开发)
2、内容关键词、特证词提取
3、内容摘要自动形成
4、基于严格特征指纹、宽松特征指纹、语义特征指纹实现不同精度的内容去重