八爪鱼如何将正文分行抓取

发布网友 发布时间:2022-04-19 15:25

我来回答

1个回答

热心网友 时间:2022-06-04 02:40

展开3全部

八爪鱼是可以进行分段提取的,有两种情况,具体设置步骤如下:

一、第一种情况:页面中的文章内容是有格式的,字段是在不同的标签里的(如下图);

即采集的时候鼠标移动到页面的内容上时,是可以进行单独的抓取,类似这种的我们就可以按照需求,进行文章内容的抓取了;

二、第二种情况是文章的内容是包含在一个标签里面的(如下图):

遇到这类型的网页内容采集,我们可以先把整个文章的HTML抓取下来;

再使用提取数据步骤里的格式化数据里面的正则工具将你要的文章内容提取出来。

1.第一步将整个文章的HTML抓取下来;


2.点击红色方框的按钮,进入数据格式化处理的页面;


3.选择格式化数据;


4.点击添加步骤,再选择“正则表达式匹配”进行数据的格式化处理


5.点击红色方框,使用八爪鱼自带的正则工具


6.这里我将文章的标题从HTML提取出来

(1)将html中标题内容前后的标签,分别复制到右边的开始和结束中;

(2)勾选开始和结束;

(3)点击生成,工具会生成一个正则表达式;

(4)点击匹配,在左边的匹配结果,就会显示出现文章的标题了;

(5)点击应用

7.点击确认




8.再次点击确定

9.标题通过正则工具给从HTML中分离出来了。


相同的方法,我们就重复上面的操作就可以将文章中需要的内容给分段提取出来。

一般网页都是第一种情况居多,都是有分段的,字段都可以进行单独的提取。

希望可以帮到你,有什么不明白的可以继续提问。

声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
E-MAIL:11247931@qq.com