火车头多页面采集

技术交流16年前 (2008)发布
118 0

 

进行多页面采集,就是采集网页A的文章a的时候,网页A还有链接连向网页B,还要采集网页B上的文章b。

首先在“采集内容规则”设置采集网页A的规则,设置完成后,再设置多页面采集。

设置多页面采集的过程:
先在“采集内容规则”项,点击打开“同时采集多页面?”(这是设置网页B的网址的):
1. 在“页面名称”栏给需要采集的新网页起一个名字,例如填写“网页B”(这个网页名在后面是需要使用到的,会显示在内容标签的“所属页面”项);
2.“页面地址”项,点选“在默认页源代码内采集得到地址”;
3.填写“开始字符串”和“结束字符串”,这是在网页A上采集网页B的网址的。
可以测试一下,点击“测试得到多页地址”,填写网页A的网址,点击“测试”,就可以在“测试结果”中看到网页B的网址了,绝对或相对网址都是可以的。点击“保存”就可以了。

然后需要添加新标签,用来采集新的网页,例如添加“内容2”标签,然后:
1.点击打开“内容2”标签;
2.在“所属页面”项点选“网页B”(这个网页名是在前面填写设置的),即是说现在“内容2”标签是用来采集“网页B”的;
3.设置“内容2”标签的采集规则,是依据“网页B”的源代码进行设置的;
设置完成后,点击“确定”。
最后填写网页A的网址,点击“测试”,就可以看到“内容”标签采到了网页A的文章a,“内容2”标签采到了网页B的文章b。完成后,点击“更新”即可。

当然还要设置内容发布模块,进行标签合并,用[标签:内容][标签:内容2]替换原来的[标签:内容]就可以了。

© 版权声明

相关文章

暂无评论

暂无评论...