火车头采集器教程(火车头采集怎么设置采集网址规则啊)

2023-10-15 05:40:05 28

火车头采集器教程(火车头采集怎么设置采集网址规则啊)

本文目录

火车头采集怎么设置采集网址规则啊

“我采集一个网页的地址,起始找的是一个层,终止也找了一个层 这样不行啊...如果没有数字的网址怎么采集呢!如某个网址是list_50.html ...上图 才... ”
----------------------------

有些网站的列表页翻页参数中,第一个参数是无效的,利用数值变化就无法访问列表页的第一页。

我不知道在火车头里面怎样解决这个问题的。在熊猫采集里面是可以忽略这个问题的,只需要鼠标选择列表页中指向下一页的链接,就能翻页访问。因为熊猫使用的是机器训练的采集设置方式。不需要用户手工设置这些。

少数没有下一页的列表页中,遇到这种情况,可以使用参数列表方式解决。你可以在火车采集器里面找找是否有“参数列表”的翻页方式。

有些采集软件中,可以直接同时输入多个列表页地址。这样也就不必去设置翻页参数,也很简单。熊猫中不支持这种方式,不知道火车采集器是否支持。如果支持,你可以直接输入多个列表页地址,换行区分即可。

火车头采集器怎么用

作为同时使用八爪鱼采集器和写爬虫的非技术的莫名其妙喜欢自己琢磨技术的互联网运营喵。。。我来谈谈心得感想。
八爪鱼有一些优势,比如学习成本低,可视化流程,快速搭建采集系统。能直接导出excel文件和导出到数据库中。降低采集成本,云采集提供10个节点,也能省事不少。
不好的地方就是,即使看似很简单了,而且还有更傻瓜化的smart模式,但是里面的坑只有用的多的人才清楚。关于这个我在我的博客里简单写了写,不过说实话心得太多,还没仔细整理。
首先里面的循环都是xpath元素定位,如果用单纯的傻瓜化点击定位的话,很死板,大批量采集页面的时候很容易出错。另外用这个工具的,因为方便,小白太多,成天有人问普通问题,他们都不会看页面结构,也不懂xpath,很容易出现采集不全,无限翻页等问题。
但是八爪鱼采集器的ajax加载,模拟手机页面,过滤广告,滚动至页面底端等功能堪称神器,一个勾选就能搞定。写代码很麻烦的,实现这些功能费劲。
八爪鱼毕竟只是工具,自由度肯定完败编程。胜在方便,快速,低成本。
八爪鱼判断语录较弱,无法进行复杂判断,也无法执行复杂逻辑。还有就是八爪鱼只有企业版才能解决验证码问题,一般版本无法接入打码平台。
还有一点就是没有ocr功能,58同城和赶集网采集的电话号码都是图片格式,python可以用开源图像识别库解决,对接进去识别便可。
除非对技术有很高要求,否则我觉得八爪鱼采集器很好用,比火车采集器好用,虽然效率没那么高,但是比起费劲学习和研究数据包,还是用这个省事。我没事也会在八爪鱼群里解答一些规则编制的问题。
作者:极客兔子
来源:知乎

Phpcms设置火车头采集器发布模块时的全局变量设置怎么填

Phpcms设置火车头采集器发布模块时的全局变量设置怎么填?在火车头向phpcms系统中发布已经采集的数据是配置里需要设定全局变量,所谓的全集变量其实就是连接地址中的pc_hash参数值。在火车头中“使用内置浏览器登录后台”后,进入后台后你会发现在网页地址中有这个参数,把他的值复制填入即可。
在iphpcms里有使用火车头向phpcms里采集内容的专题课程可供学习参考。
0 1
MFLOVEYAN
2020-11-18 超过60用户采纳过TA的回答
关注
本人钻在火车头web发布配置一整天终于琢磨出怎么用了。看了点教程,没有说道点子上。其中遇到的问题现在记得很清楚相信正在钻研的朋友也是一样。趁热跟大家分享一下。
火车头采集第一、二步不会的自己去找教程,网上多的是。 直接进入 web的发布的配置(bdyxel原创)

进去之后先选择你要发布的web网站类型,我这里以phpcmsV9为例,内容不用了,都是好的,这点真是比以前方便不少

第三步先配置网站,我用的是(在内置浏览器登录)输入登录的网址,和其他浏览器一样。之后点微型浏览器里的确定即可。
注意地址栏里的红色标识。就这个地方让我绕了大半天(bdyxel原创)


我们看到我这里 pc_hash=4PwPGS
每次登录pc_hash这个全局变量值都会改变所以登录操作只能用“使用内置浏览器登录”并获得pc_hash这个变量的值手动填写到“全局变量设置”里。
然后将值 填在第二步 (bdyxel原创)

然后 编码设置
网站根目录一定要填,不知道根目录是什么的自己去百度
获取列表 选择要发布的列表
(bdyxel原创)

测试配置
注意:标题和内容需要自己手写。 直接点修改就OK了。
然后直接点修改,值里面不是空的就点发表文章测试。测试完,在内置浏览器中浏览。可以看到了
在火车头向phpcms系统中发布已经采集的数据是配置里需要设定全局变量,所谓的全集变量其实就是连接地址中的pc_hash参数值。在火车头中“使用内置浏览器登录后台”后,进入后台后你会发现在网页地址中有这个参数,把他的值复制填入即可。
在iphpcms里有使用火车头向phpcms里采集内容的专题课程可供学习参考。

飞飞火车头采集器怎么写发布规则

1
首先讲一讲网站结构,通常网站结构为树形结构,一个网站主要包以下几种页面:首页、栏目页、文章页,其结构如下图。
其次讲一讲火车头采集原理,火车头的运行需要一套规则来指定该如何采集所需数据,即需要编写火车头采集规则,编写采集规则也是新手最头痛的问题。
火车头采集器通常通过网址抓取网站返回的源代码,然后在源代码中提取需要的信息。因此,采集数据需要先采集网址,然后再采集数据。
2
下面开始编写采集规则:
运行LocoyPlatform.exe
3
在左侧“任务列表树”选择一个分组点击右键,选择“新建任务”弹出新建任务对话框。填写任务名,网站编码一般选择自动即可。
添加起始网址
填写“第一步:采集网址规则”这里需要按照网站的树形结构逐级获取下一级结构的网址,直至获取到内容页的网址。先填写起始网址,通常为目标站首页地址。点击“添加”,在单条网址处填上火车头博客的首页地址,然后依次点击“添加” -》“完成”。
编写“多级网址获取”规则
这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域,先查看起始页地址的源码,找到如图所示代码区域:
点击右侧“添加”按钮打开“添加多级网址采集规则”,选择“从页面自动分析得到地址链接”单选按钮,在下面“从该选定区域中提取网址”,“从”(左侧)文本框填上栏目地址代码区域开始之前的标志性代码(要保证其在该页的唯一性),“到”右侧文本框填上栏目地址代码区域结束之后的标志性代码,在“结果网址过滤”的“必须包含”和“不得包含”文本框填上相应代码,如果该区域没有多余的链接不需要过滤,可以不填,这里的栏目页网址必须包含“category-”。然后点击“保存”返回。
现在需要获取内容页的地址。先打开栏目页查看源码,查找内容页地址存在的区域及地址规律。按照上一步的方法先填写内容页所在区域的起始和结束标志性代码,然后分析这个区域中包含的链接与我们说需要的内容页地址链接规律,添加过滤代码。这里起始代码为“《!--显示--》”,结束代码为“《div class=“page“ style=“float:right“》”过滤代码为必须包含“read-”不得包含“#”。如图:
需要注意的是这里文章比较多会有很多分页,所以需要填写“列表分页获取”规则。通常只需要指定分页代码的区域,如有必要可以填写“组合生成列表页分页”规则。这里的列表分页规则其实代码为“《li class=“pageNumber“》”,结束代码为“title=“下一页“》”。如果勾选“自动识别分页”的话,会自动提取a标签的href属性,如果不勾选自动识别的话,需要填写组合生成列表页分页”规则。
然后保存返回,可以通过“测试网址采集”来测试规则是否正确,不正确可以返回修改规则,正确的话可以开始编写“第二步采集内容规则”。
编写“第二步采集内容规则”
先打开内容页以及内容页的源码,找到需要提取的信息的前后代码特征。以提取标题和内容为例。首先复制文章标题,然后在源码中查看该标题出现的几处地方,找一处前后代码在每一篇文章都一样的地方,该例共出现了3处,第二处的代码没有其他干扰代码。点击“添加”,标签名填“标题”,提取数据方式选择前后截取,前后代码分别为“《h1 class=“ContentTitle“》《strong》”和“《/strong》《/h1》”。如果采集的内容需要作进一步处理(如替换删除编码转换过滤html等),在下方“数据处理”点击添加填写相应规则。
再添加一个标签,标签名为“内容”,按照上述方法填写内容的前后代码片段,需要注意的是,前后代码片段最好不要出现不完整的标签(如:“《div class=“Content-body“” 应该写作“《div class=“Content-body“》”,一个完整的标签应该是以“《”开始,以“》”结束,如果《》之间的内容在各个内容页有一部分不一样,将不一样的部分用(*)代替即可),否则提取的内容会包含部分不完整的标签。通常正文包含的HTML会比较多,可以添加HTML过滤功能,建议仅保留段落(p)、图片(img)、换行(br)等标签。
测试内容采集规则
保存规则后返回采集内容规则页面,在右侧“规则测试”的典型页面文本框填上一个内容页的地址,然后点击测试,如果下面显示到的内容符合预期说明可以了,如果未获取到内容或者获取到内容不正确,返回检查并修改规则。
开始采集
选择要采集的任务规则,勾选“采网址”和“采内容”复选框,点击工具栏“开始”按钮。
后续工作
采集到的数据保存在数据库,可以通过在任务名上点右键,选择“打开DATA下任务文件夹”打开数据库所在位置,该数据库可以通过ACCESS打开和。如果想要重新采集,需要通过右键选择“清空该任务网址库”和“清空任务所有采集数据”。

火车头如何采集还有缩略图的文章呢

1、首先在采集列表页的源码中将带有缩略图的那部分源码复制下来,如图:

2、查看网站的源码,找到这行代码,如图:

3、打开火车头,进入采集网址规则—添加多级网址采集规则,选中手动填写链接地址规则,并将第二步骤中选中的代码粘贴进去,如图:

4、将代码进行如下修改:

5、改好后保存并进行采集测试,如图所示

6、然后再在采集内容规则里进行修改,选中“缩略图”标签,打开,进行内容替换,如图:

7、然后点击文件下载,选中下载图片,并填好缩略图保存路径及命名方式,如图:

8、在“文件保存及部分高级设置”里设定缩略图的保存盘符及其前缀,我设定为桌面,前缀为“./”,如图:

9、我们保存后测试一下,一起顺利,缩略图顺利采集下来了

火车头采集器教程(火车头采集怎么设置采集网址规则啊)

本文编辑:admin

更多文章:


手机腾讯网怎么卸载?要怎么登入手机腾讯网啊

手机腾讯网怎么卸载?要怎么登入手机腾讯网啊

大家好,腾讯手机网相信很多的网友都不是很明白,包括手机腾讯网怎么卸载也是一样,不过没有关系,接下来就来为大家分享关于腾讯手机网和手机腾讯网怎么卸载的一些知识点,大家可以关注收藏,免得下次来找不到哦,下面我们开始吧!本文目录手机腾讯网怎么卸载

2024年3月9日 17:20

幻想神域太刀源神(幻想神域角色推荐,包括主副职业搭配)

幻想神域太刀源神(幻想神域角色推荐,包括主副职业搭配)

本文目录幻想神域角色推荐,包括主副职业搭配幻想神域太刀源神选哪个好 太刀源神选择攻略幻想神域角色推荐,包括主副职业搭配土豪的话就不用说了,什么职业都妥妥的,推荐太刀。平民的话斧子,剑盾,奶妈,弓组队都还受欢迎,一般组队像太刀,双刀,拳刃之类

2024年6月12日 05:14

友情链接检测(为什么我添加了友情链接检测不到)

友情链接检测(为什么我添加了友情链接检测不到)

本文目录为什么我添加了友情链接检测不到友情链接检测无反链有外链是什么意思我的友情链接检测为什么检测不到别人的网站网站友链正常,软件检测为0,为啥啊死链接和友情链接怎么查询为什么我添加了友情链接检测不到你不妨通过工具来检测哦。常用的友情链接检

2023年3月23日 06:00

武媚娘女皇装嘴巴两点什么意思?武媚娘妆额头的花怎么化

武媚娘女皇装嘴巴两点什么意思?武媚娘妆额头的花怎么化

本文目录武媚娘女皇装嘴巴两点什么意思武媚娘妆额头的花怎么化武则天秘史中武媚娘脸上画的什么花有个什么软件可以模仿武媚娘范冰冰主演的武媚娘传奇妆容嘴边的两点是干什么用的武媚娘嘴角的两个点是什么妆!有什么意义!武媚娘女皇装嘴巴两点什么意思武媚娘传

2023年10月11日 17:00

三星i9300手机(三星i9300手机的参数配置介绍)

三星i9300手机(三星i9300手机的参数配置介绍)

大家好,如果您还对三星i9300手机不太了解,没有关系,今天就由本站为大家分享三星i9300手机的知识,包括三星i9300手机的参数配置介绍的问题都会给大家分析到,还望可以解决大家的问题,下面我们就开始吧!本文目录三星i9300手机的参数配

2024年6月24日 03:31

享道出行特惠是什么平台?享道租车怎么样,它可以给企业带来哪些好处

享道出行特惠是什么平台?享道租车怎么样,它可以给企业带来哪些好处

本文目录享道出行特惠是什么平台享道租车怎么样,它可以给企业带来哪些好处想在EVCARD租车,但朋友车冬天不能开电动车,真的吗享道出行特惠是什么平台享道出行特惠司机是一款专为特惠司机提供服务的平台软件,在享道出行特惠司机app里有着更加丰富的

2023年7月3日 11:20

盐亭在线的网上黄页?四川盐亭在线

盐亭在线的网上黄页?四川盐亭在线

本文目录盐亭在线的网上黄页四川盐亭在线盐亭在线的特点盐亭在线的网上黄页普通黄页标准版黄页,拥有以下功能:1.加入免费电话簿,方便网友、客户快速找到您的电话;2.可发布企业、商家、单位图文介绍信息;3.黄页信息相关页面优先展示权限;4.信息无

2023年11月25日 15:20

卡巴斯基破解版(卡巴斯基破解版能不能用很久,还用激活吗,怎样激活)

卡巴斯基破解版(卡巴斯基破解版能不能用很久,还用激活吗,怎样激活)

本文目录卡巴斯基破解版能不能用很久,还用激活吗,怎样激活卡巴斯基有没有破解版卡巴斯基免费软件哪里可以下载并且使用谁能给个卡巴斯基杀毒下载地址卡巴斯基8.0破解版在哪下载卡巴斯基破解版能不能用很久,还用激活吗,怎样激活去gougou网在下一个

2024年7月13日 04:07

狂野飙车7和狂野飙车8哪个画面比较真实好玩?狂野飙车怎么可以联网和别人玩

狂野飙车7和狂野飙车8哪个画面比较真实好玩?狂野飙车怎么可以联网和别人玩

本篇文章给大家谈谈狂野飙车7,以及狂野飙车7和狂野飙车8哪个画面比较真实好玩对应的知识点,文章可能有点长,但是希望大家可以阅读完,增长自己的知识,最重要的是希望对各位有所帮助,可以解决了您的问题,不要忘了收藏本站喔。本文目录狂野飙车7和狂野

2024年3月5日 05:50

怎么自己设计图片啊!?wps怎么弄图片

怎么自己设计图片啊!?wps怎么弄图片

大家好,图片设计相信很多的网友都不是很明白,包括怎么自己设计图片啊!也是一样,不过没有关系,接下来就来为大家分享关于图片设计和怎么自己设计图片啊!的一些知识点,大家可以关注收藏,免得下次来找不到哦,下面我们开始吧!本文目录怎么自己设计图片啊

2024年7月3日 17:34

磁力吧ciliba(地球的磁场是磁力吧,也就是地球相当于一块磁铁,那为什么地球能够吸引金属以外的物质)

磁力吧ciliba(地球的磁场是磁力吧,也就是地球相当于一块磁铁,那为什么地球能够吸引金属以外的物质)

大家好,如果您还对磁力吧ciliba不太了解,没有关系,今天就由本站为大家分享磁力吧ciliba的知识,包括地球的磁场是磁力吧,也就是地球相当于一块磁铁,那为什么地球能够吸引金属以外的物质的问题都会给大家分析到,还望可以解决大家的问题,下面

2024年2月26日 06:20

勇者无惧,霸者无双,智者无虑,仁者无敌!是什么意思?智者无虑,勇者无惧出自何处

勇者无惧,霸者无双,智者无虑,仁者无敌!是什么意思?智者无虑,勇者无惧出自何处

各位老铁们,大家好,今天由我来为大家分享霸者无双,以及勇者无惧,霸者无双,智者无虑,仁者无敌!是什么意思的相关问题知识,希望对大家有所帮助。如果可以帮助到大家,还望关注收藏下本站,您的支持是我们最大的动力,谢谢大家了哈,下面我们开始吧!本文

2024年9月15日 17:10

九阴真经刺探(九阴真经君子堂刺探内应在哪)

九阴真经刺探(九阴真经君子堂刺探内应在哪)

本文目录九阴真经君子堂刺探内应在哪九阴真经刺探收集完10份情报后怎么交任务,按回程后它提示任务失败,求高手指导该如何九阴真经手游门派刺探任务怎么做九阴真经 刺探掌门令怎么获得九阴真经没有修为了,但是我不会做刺探任务,求教九阴真经怎样刺探 九

2024年6月6日 10:49

植物大战僵尸 年度版(植物大战僵尸年度版和无尽版有什么区别啊,哪个比较好)

植物大战僵尸 年度版(植物大战僵尸年度版和无尽版有什么区别啊,哪个比较好)

各位老铁们好,相信很多人对植物大战僵尸 年度版都不是特别的了解,因此呢,今天就来为大家分享下关于植物大战僵尸 年度版以及植物大战僵尸年度版和无尽版有什么区别啊,哪个比较好的问题知识,还望可以帮助大家,解决大家的一些困惑,下面一起来看看吧!本

2024年6月23日 09:22

从哪里下载简历模板?求电子版空白简历表!下载直接就能填字的!

从哪里下载简历模板?求电子版空白简历表!下载直接就能填字的!

本文目录从哪里下载简历模板求电子版空白简历表!下载直接就能填字的!从哪里下载简历模板可以在浏览器、wps处下载简历模板1、最重要的一步的当然是在浏览器中搜索了,可以随便搜索2、在你点击进去之后,可以看到它的首页是这样的3、这时你会看到首页导

2024年7月17日 02:37

外国没有回合制手游?回合制手游推荐是什么

外国没有回合制手游?回合制手游推荐是什么

本文目录外国没有回合制手游回合制手游推荐是什么沈青彦百里南赫是什么小说《无尽大冒险》究竟是一款什么样的游戏,为何海报满满的土味风格外国没有回合制手游外国是有回合制的比如:卡里尼亚传说。这款游戏玩过的玩家介绍说,是由来自各个国家的玩家一起玩,

2024年7月17日 16:06

傲盾软件防火墙(为什么傲盾网游加速器打开后老说请查看防火墙和本地连接错误啊)

傲盾软件防火墙(为什么傲盾网游加速器打开后老说请查看防火墙和本地连接错误啊)

本文目录为什么傲盾网游加速器打开后老说请查看防火墙和本地连接错误啊谁知道怎么用傲盾防火墙制作硬件防火墙如何使用傲盾防火墙傲盾防火墙和风云防火墙哪个好用与小红伞搭配哪个更合适Web防火墙和Waf防火墙有什么区别吗为什么傲盾网游加速器打开后老说

2023年4月23日 19:20

浴火银河2修改器(浴火银河2修改攻略 快速获取无限金币 详解怎么玩)

浴火银河2修改器(浴火银河2修改攻略 快速获取无限金币 详解怎么玩)

本文目录浴火银河2修改攻略 快速获取无限金币 详解怎么玩浴火银河2pc版怎么修改HP,货舱等数据浴火银河2安卓 修改如何用烧饼游戏修改器修改浴火银河浴火银河2修改攻略 快速获取无限金币 详解怎么玩1、首先我们进入游戏,玩一会获取一定的金币数

2024年6月20日 21:59

问道手游69什么意思?游戏《逆水寒》很多人说69级装备不能提升70级是好事,认为会刺激70级装备涨价,你怎么认为

问道手游69什么意思?游戏《逆水寒》很多人说69级装备不能提升70级是好事,认为会刺激70级装备涨价,你怎么认为

本文目录问道手游69什么意思游戏《逆水寒》很多人说69级装备不能提升70级是好事,认为会刺激70级装备涨价,你怎么认为游戏《逆水寒》中69装备有望升级吗游戏《逆水寒》限制69级玩家藏宝阁买铜,鼓励玩家卖元宝,其中的原因你懂吗盛大剑侠世界怎么

2024年7月14日 13:11

mx4发布会(魅族mx4电池多大)

mx4发布会(魅族mx4电池多大)

其实mx4发布会的问题并不复杂,但是又很多的朋友都不太了解魅族mx4电池多大,因此呢,今天小编就来为大家分享mx4发布会的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!本文目录魅族mx4电池多大魅族mx4的实际运行内存大

2024年6月5日 21:25

近期文章

本站热文

4008827777转人工客服(4008827777饿了么怎么转人工电话)
2024-07-23 14:41:37 浏览:504
标签列表

热门搜索