火车采集器V7正式版新版本对程序进行了完全的重构,是一个全新的采集平台。火车头采集器v7.6企业版包含了数据采集最常用的计划任务,数据发布,正文识别、OCR图形图像识别,采集入库等模块,可以支持其它采集软件快速稳定在平台上使用。
软件特性
1、无限级多页采集,可以实现无限深度的采集
2、任务队列运行管理,支持Cron表达式
3、无限级分组任务管理,任务回收站功能
4、RSS地址采集功能
5、列表页分页采集获取功能
6、列表页附加参数获取功能
7、列表页及标签XPath可视化提取功能
8、标签纯正则替换功能
9、Http接口查看运行情况
10、导出记录为单个或多个Txt、html 文件
11、标签间自由组合功能
12、针对标签内容继续发送Http请求功能
13、无限级列表网址采集
14、从Http头信息中获取数据
15、标题内容正文提取功能
16、Aspx列表分页自识别
17、多网站站群式web发布
18、导出记录为Word格式
19、导出所有记录为Excel格式
20、使用随机二级代理服务器(支持Socket代理)
21、多扩展间数据交换功能
22、下载的图片自动加增强型水印功能
23、Ocr识别(图片转化为文字)
24、Http接口管理采集器运行
25、Mongodb数据库保存数据
26、主从服务器分布式采集
火车采集器v7.6绿色正式版更新列表:
1、gif的图片不再加水印,修复加水印文字时没有判断加水印条件的问题;
2、增加了迅雷快传,YunFile,千脑,金山网盘文件上传功能;
3、增加了用户可以选择删除记录时是否删除下载文件的选项;
4、增加了日志记录,通过上传文件功能;
5、增加了批量导入数据导入网址功能;
6、添加了发布时使用代理功能;
7、修复当使用一般采一边发方式时保存为本地excel不起作用的bug;
8、文件保存格式中支持[标签:ID],可以将记录的id做为目录的一部分了;
9、处理了一个将$编码错误的问题;
10、增加若干个错误检查,防止采集器退出;
11、更换汉字转拼音词库,汉字增加到1万8;
12、更新自动补全链接中迅雷地址补全不对的问题。
火车头采集平台定义了统一的接口规范并提供了大量的api,用户可以很方便的开发自己的应用并在该平台上运行,可以减少开发上时间和成本。目前平台上有官方自带火车采集器。
此软件版本为火车采集器v7.7绿色正式版,软件下载后直接解压即可。注意:软件运行时,要有.net2.0框架,vista及win7系统用户可能会提示请求管理员权限,请放行。如果没有请下载!
安装说明★★
火车头数据采集平台要求:您的电脑必须安装.net framework2.0或2.0以上框架.如果您的采集器打不开,请下载并安装该框架
32位下载地址:http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe
64位下载地址:http://download.microsoft.com/download/a/3/f/a3f1bf98-18f3-4036-9b68-8e6de530ce0a/NetFx64.exe
若要从3.2sp5,2008,2009或2010版直接升级到火车头数据采集平台最新版,请运行程序目录下的 UpdateToV7.exe,按提示进行升级。升级程序不会对原来的数据进行任何的修改,但为了防止用户误操作,请在升级前备份旧版本数据和配置。备份方法是将原采集器完整复制一份。
1.采集规则
简称规则,V7以前版本采集规则分为站点规则和任务规则,通常是指任务规则。V7版及以后采用无限级分组管理任务规则,所以不再有站点规则的概念。所谓采集规则就是要采集一个网站或某一网站栏目网页需要在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。V7版的任务规则文件后缀名为.ljobx,以前的站点规则文件的后缀名为:.lsite;任务规则文件的后缀名为:.ljob。
2.采集任务
采集任务又简称为任务。它是采集规则和发布规则的总和。也是采集规则和发布规则的载体。采集规则和发布规则的设置通过在任务编辑框里进行设置。从采集器里导出的采集规则文件(.ljobx后缀的)也可称为任务规则。导入导出任务规则就是指导入导出.ljobx文件。
3.发布模块
发布模块又称模块、发布规则,分为WEB发布模块和数据库发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:网站/后台中或指定数据库中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集器里使用。数据库发布模块文件的后缀名为:.dpm;WEB在线发布模块文件的后缀名为:.wpm。(采集规则和发布模块都可以从采集器里导出,也都可以导入到采集器中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。)
厂商名称:合肥乐维信息技术有限公司
开发者其他应用合肥乐维信息技术有限公司
简单搜索43.8M30201人在玩简单搜索是一款手机上的搜索引擎,在简单搜索中给用户可以智能高效的搜到自己想搜的内容哦,其中简单搜索在功能体验上还是很不错的,有需要上网的用户快来西西简单搜索专区下载
下载腾讯体育app最新版224.1M42099人在玩腾讯体育app最新版是腾讯体育平台推出的一款便捷的手机体育直播app。通过这款腾讯体育app,你可以观看赛事直播,也能第一时间了解最新体育新闻动态。
下载看点快报app40.3M1048人在玩天天快报app是一款生活娱乐应用,天天快报app每日为用户推送有趣的娱乐搞笑段子,同时你可以对文章及图片进行评论,有不少内涵的神吐糟回复,还能在在图片中加入贴图与文字
下载猎豹浏览器手机版23.0M26398人在玩猎豹浏览器手机版以极速和炫酷为主要特色,重点突出手机观看视频功能,首次在手机浏览器上实现支持快播与百度影音。猎豹浏览器手机版更省流量、更安全、更智能
下载百度安卓版133.7M11270人在玩手机百度是一款有6亿用户在使用的手机搜索客户端,依托百度网页、百度图片、百度新闻、百度知道、百度百科、百度地图、百度音乐、百度视频等专业垂直搜索频道,方便用户随时随地使用百度搜索服务。
下载2345浏览器手机版54.6M582人在玩2345浏览器具有智能广告拦截、网页多标签浏览、超级拖拽、鼠标手势、上网痕迹清除、老板键等多项网页浏览实用功能。功能特性收藏夹随身携带网站网址随身携带不丢失,注册登录2345帐号。
下载凤凰新闻80.3M8934人在玩凤凰新闻客户端是一款优秀的新闻阅读客户端,第一时间奉献最新最有价值的新闻!依托凤凰卫视、凤凰网独家新闻资讯优势,每天24小时精心呈现全方位新闻讯息。
下载腾讯微云42.3M561人在玩腾讯微云下载,微云可以让PC和手机文件可进行无线传输并实现同步,让手机中的照片自动传送到PC,并可向朋友们共享,功能和苹果的iCloud较为类似。
下载chrome谷歌浏览器手机版222.5M38380人在玩谷歌浏览器手机版下载安装到手机桌面是通用于android4.0以上平板电脑和手机设备上的chrome浏览器,GoogleChrome浏览器不仅在桌面设备上表现卓越,在Android手机和平板电脑上也可让您
下载百度贴吧安卓版2022最新版58.1M7231人在玩西西最喜欢用百度贴吧安卓版下载安装最新版看小说,热门小说更新及时,而且是文字版,有手机看更方便,可以随时看。百度贴吧客户端抢楼更快捷,随心所欲发图片,还有更多贴吧豆奖励哦!更快升级速度!
下载