快速的采集一些网页上面的信息,你总是需要各种各样的软件的,本站现在就可以免费的为你带来下面的这款最新的内容采集与信息发布的数据处理软件--杰灵网页采集器!
杰灵网页采集器特点
1:支持手动单页模式,指定URL采集内容,采集内容可在编辑器里排版修改。
2:支持从列表页提取网址后再采集,可提取列表页相关内容。
3:支持从内容页衍生的(无限)多级页面抓取(多级页支持分页)
4:支持多任务多线程同时采集不同目标网页信息
5:支持自定义COOKIE、UserAgent等Header头信息。
6:采集每个字段内容,可关联组合字段内容,可选择多种字符串后处理方式
7:支持图片本地化,添加LOGO水印,支持图片本地化命名格式
8:自带数据库简易查看数据功能
9:关键词自动分词
10:同义词替换,可自定义同义词词库
11:关键词内链功能,可自定义关键词词库
杰灵网页采集器常见问题
网页乱码怎么办?
在设置里选择相应的网页编码。
如何添加任务?
点击任务栏,右键选择菜单。
如何发布到dedecms?
将软件内的发布接口下的dedecms接口放到网站子目dede下即可
杰灵网页采集器更新日志
1、内容提取支持最多10级【参数】循环提取,适合(论坛问答回复采集头像,用户名,发布时间,及内容)
2、增加关键词自动分词
3、增加同义词替换,可自定义同义词词库
4、增加关键词内链功能,可自定义关键词词库,可限定替换频率。 (并可解决帝国IMG,A元素嵌套替换的BUG)
5、增加计划任务功能
6、下载附件支持带COOKIE登陆下载
7、发布规则 支持使用 全局标签函数 如帝国目录newspath 可使用{dd:日期yyyymmdd}
8、增强规则导入导出功能。
9、增加PHP脚本扩展(测试中)
10、可指定单次采集内容网址最大数
- PC官方版
- 安卓官方手机版
- IOS官方手机版