本程序要求的安装平台:
[1]PHP 大于4.x.x 版本(要求包含GD库,最好是GD2),Apache或IIS的各种模式均可安装
[2]后台管理必须使用 IE 5.5 以上版本的浏览器
[3]程序需要php支持register_globals = On,否则安装的时候会无法安装。
本采集系统描述(简单功能介绍,以后做详细介绍):
1.可以采集深达4级的网页数据
2.采用非正则表达式方式,只要回查看网页源代码就可以定义简单的采集规则
3.直接数据库操作,采集前需要对你要输入数据的系统的数据库结构有了解
4.可是适用几乎所有的网站采集数据入库
5.可以自定义简单的过滤函数对采集数据进行过滤
6.可以采集任何类型的数据到本地
7.文章数据中的图片可以选择自动本地化
.......
还有其它的功能等有时间再写出来!
安装步骤:
1.首先本采集程序需要安装在你的网站系统同一个数据库内,这样采集的数据才能直接入库
2.目录cache,userfun权限需要0777,win系统不需要设置
3.执行install/index.php进行安装,如果安装中没有问题会一步到位
通过目前的功能已经能够采集几乎所有的音乐,电影站的数据到http://www.6dv.net,所以对于一般的文章数据采集易如反掌。
目前的缺点:
由于本程序是本人自己使用,所以有些地方过于个性化,例如自定义过滤函数,一般的非php程序员很难使用,不过这个不影响本程序一般站长的使用。
由于本人时间仓促,没能够写出详细的说明文档,使用者请按照网页上的提示自己理解操作。
使用例程:
采集新浪网的网络游戏视频网址,设置截图如下:
1.第一步还要说吗?这里的page变化参数与其他的不同,增加了字符变化,还增加正向反向数据采集,只要开始页码与终止页码大小不同就可以控制采集顺序。

2.嵌套式采集特别适用论坛采集,注意:最后一级采集参数可以使用“==========”进行分割,来进行平行数据获取。

3.第二级采集设置同上。

4.第三级采集设置同上。

5.数据采集到本地设置。采集文件类型如:zip|ara|mp3,这样只下载这3个类型的文件,如果设置*则下载所有类型文件并自动判断文件类型;文件存放目录:相对根目录的文件夹,如:../img/12,输出网址可以在过滤其中设置../|http://下载目录网址替换成为绝对网络地址。留空则放弃所有下载!这个目录如果无法自动创建,请手动创建,设定权限0777
过滤器设置:目的是为了去掉一些不需要的采集结果
最终结果过滤器:过滤最后结果

6.设置输入数据库的设定。
第一步采集到的数据中要进行第二步采集,想对目录不用管,系统会自动绝对化

7.选择一个网址,选择过滤函数,选择输入的数据库表。用户自定义函数存储在userfun目录内,可以参考现在的函数写自己的函数。

8.选择过滤函数,将采集到的结果存入相应的数据库。

9.可以对一些静态字段设定静态值

声明:本程序版权归askie所有,所有使用者不得将该程序修改后进行商业化操作。
本程序技术支持:http://www.pkphp.com
