当前位置:在线查询网 > 在线百科全书查询 > 火车头采集器

火车头采集器_在线百科全书查询


请输入要查询的词条内容:

火车头采集器


火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载,图片批量水印,Flash下载,下载文件地址探测,自制作发表的cms模块参数,自定义发表的内容等。



功能应用


火车采集器(LocoySpider)是一款功能强大且易于上手的专业采集软件,强大的内容采集和数据导入功能能将您采集的任何网页数据发布到远程服务器,自定义用户cms系统模块,不管你的网站是什么系统,都有可能使用上火车采集器,系统自带的模块文件支持:风讯文章,动易文章,动网论坛,PHPWIND论坛,Discuz论坛,phpcms文章,phparticle文章,LeadBBS论坛,魔力论坛,Dedecms文章,Xydw文章,惊云文章等的模块文件。更多cms模块请自己参照制作修改,也可到官方网站与大家交流制作。 同时您也可以使用系统的数据导出功能,利用系统内置标签,将采集到的数据对应表的字段导出到本地任何一款Access,MySql,MS SqlServer内。

LocoySpider采用Visual C#编写,可独立在Windows2008下运行(windows2003 自带.net1.1框架。最新版的火车采集器是2008版,需要升级到.net2.0框架才能使用),如您在Windows2000、Xp等环境下使用,请先到微软官方下载一个.net framework2.0或更高环境组件。火车采集器V2009 SP2 04月29日

V2009SP2版更新列表


改进了PHP接口的功能,php接口接收和返回整个标签内容数组集合,支持各个标签间相互调用及处理 标签内增加不得重复的设置,可以对过滤掉重复的标签内容了!(不只是简单的网址重复过滤) 对采集过程中出现错误的记录有错误处理机制了。以前网络出现错误时一样会标记为采集成功。 去掉了免费版内2%的随机广告. 添加了标签结果不符合要求的处理方法,全局设置内增加可选是否删除或标记为已采的选项 修复了附件下载时中文乱码及多次跳转无法得到正确文件名的bug ubb发表添加了表格支持 web发布时自动加载需要的标签 修改了智能提取标签时提取了缩略图的bug 模块编辑器支持update语句. 优化了中文分词模块

优化了ftp上传模块,将不再出现文件已经实际下载却提示未找到任务可以上传文件的情况 修正了入库配置里端口的设置显示问题. 解决了因sql语句大小写问题导致入库不成功的bug. 修正了explorer意外结束后程序托盘图标无法显示的问题. 循环采集时内容合并的间隔符号,不能是半角空格的bug 修复了部分版本中任务列表框在三个步骤全不选后任务自动消失的bug. 修复了自动运行中部分情况下不能自动停止及采完网址不继续采内容的bug. 修复了导入带有从文件导入网址的任务规则时文本文件没有同步导出的bug. 修复了web上传文件时[本地文件循环:标签]中标签的设置不起作用及所有的类型均是text/plain的bug.

火车采集器2010SP1版更新修复的bug


1.修复了采集内容或网址时出错导致程序退出的问题.

2.下载文件并下载时文件地址错误导致程序退出的问题.

3.使用插件时测试发布使用的数据不是插件处理后的数据的bug.

4.修正了一个智能提取时SY标签提取错误的问题.

5.列表页标签部分情况下提示重复的bug.

6.在分词或摘要时不存在某个标签时可能出错的bug.

7.在采集时提供了更多的细节显示.更方便用户查看进度.

8.探测文件并下载给加了不区分大小写功能.

9.修复倒序发布时部分次序不对的问题.

10.MSsql会出现 所唯一索引之类的问题.

11.内置浏览器访问某些网站出错的问题.

12.网址库过大时提示内存不足的问题.

13.全局设置[换行]不起作用的问题.

14.添加全局替换后部分情况下替换不起作用的问题.

15.使用自动更新时,如果设置错误的时间导致程序无法运行的问题.

16.以SqlServer做数据库时网址重复检测失败的bug.

17.导入导出时增加了文件夹的设置.

18.更新了加密程序,支持更高版本.net.

19.修复了以MySql做数据库时数据库错误会导致程序退出的bug.

20.修复了入数据库时,大小写错误引起入库失败的bug.

21.mysql中同时添加多个字段提示错误的bug.

22.修改了一个使用自定义网址过滤时不得包含不起作用的bug.

23.增强了检测文件并下载的功能.

24.自定义中时间网址生成的一个bug.

25.更新Sqlite驱动到最新版.

26.编辑任务修改和最后采集时间没有显示的bug.

27.修复了删除有索引的标签时错误的bug.

28.修复了测试采网址时显示的一个错误.

29.修复了当网址链接使用basehref时如果basehref不是根目录网址获取错误的bug.

30.增加了备份用户配置文件功能.

31.修复了删除有索引的标签时错误的bug.

32.修复了测试采网址时显示的一个错误.

33.修复了当网址链接使用basehref时如果basehref不是根目录网址获取错误的bug.

34.增加了备份用户配置文件功能.

35.修复了mysql中同时添加多个字段提示错误的bug.

36.修改了一个使用自定义网址过滤时不得包含不起作用的bug.

37.增强了检测文件并下载的功能.

38.自定义中时间网址生成的一个bug.

39.更新Sqlite驱动到最新版.

40.编辑任务修改和最后采集时间没有显示的bug.

41.Sqlite数据库压缩失效的bug.

42.http请求工具User-agent菜单第一项设置为本机User-Agent.

43.修复了企业版在使用直接入库时不下载图片的bug.

44.修复了当使用php插件时给标签赋值为null导致采集器退出的bug.

45.在处理不符合记录时,如删除记录,也会删除该记录所下载的文件.

46.增加了随机代理功能.该功能在旗舰版及更高版本中可用.

47.增加了任务完成后数据自检功能.

48.修复了标签替换时,如果出错,将弹出很多出错误框的提示的问题.

49.新增加一选项,当使用多个发布配置时,如果没有全部发布成功,可以设置为已发或未发.

50.增加代码调试,当Web发布失败时,将返回所有的采集器提交的数据及返回的数据.

51.处理了部分FTP上传时提示 在其上下文中,该请求的地址无效 的问题.

52.修复提取内容图片为缩略图时不下载时不保存图片地址的bug.

53.FTP上传文件时没显示进度条的小bug.

54.增加任务运行时禁止修改任务名,防止修改任务名后出现采集错误.

55.将网址采集重复的累计计算方法改成原来的正确的连续重复计算方法.

56.优化采集过程,减少系统资源使用.

57.将同时运行任务数限制取消.

58.更新本地数据导出CSV工具到2010版.

59.修复批量工具中整个站点删除不起作用的bug.

60.关键词替换支持读取utf-8格式文件.

61.解决"请检查是否数据库呈打开锁定状态"的bug.

62.解决了部分情况下出现 "Attempted to read or write protected memory" 的bug.

63.解决系统设置里里分隔符会无效的问题.

64.添加了标签间调用功能.

65.文件保存地址支持标签调用.

66.解决在用户自定义系统时间后,任务无法保存的bug.

火车采集器V7.0新增功能项


无限级多页采集

任务队列运行管理功能

无限级分组任务管理,任务回收站功能

RSS地址采集功能

列表页分页采集获取功能

列表页附加参数获取功能

列表页及标签XPath可视化提取功能

标签纯正则替换功能

Http接口查看运行情况

导出记录为单个或多个Txt、html 文件

标签间自由组合功能

针对标签内容继续发送Http请求功能

无限级列表网址采集

从Http头信息中获取数据

标题内容正文提取功能

Aspx列表分页自识别

多网站站群式web发布

导出记录为Word格式

导出所有记录为Excel格式

使用随机二级代理服务器(支持Socket代理)

多扩展间数据交换功能

下载的图片自动加增强型水印功能

Ocr识别(图片转化为文字)

Http接口管理采集器运行

Mongodb数据库保存数据

主从服务器分布式采集