近期推出,敬请期待
火车头采集器培训视频教程能学到哪些呢?
1.火车头采集器培训分为基础班,中级班,高级班
学习采集器时,如有以下相关知识,将会对程序的使用起到促进作用
1、html基础 了解网页的基本知识,帮助分析网页结构
2、正则表达式的使用
3、Http协议的相关知识 Http请求抓包的方法
4、Acc...
阅读全文
火车头采集器 v7版本 较之前的 2010版本的火车头采集器相比 增加了一个无比强大的ocr图片识别功能,只需要经过简单的ocr配置即可识别比较整齐的类似手机号码,验证码等图片数字,具体火车头采集器v7中ocr识别的配置可以参考下面这边文章
1. 火车头采集器 v7版本中 ocr图像,图片识别配置管理工具
ocr识别原理请...
阅读全文
申明下,只有收费版采集器才支持dll插件的使用,火车头采集器收费版价格一览表
该采集规则规则演示了58验证码识别插件如何识别并将识别结果保存在标签中
具体使用方法如下:
1.请关闭采集器,删除火车头采集器目录下 Plugins\LocoySpider\58验证码.dll 文件。
2.导入该附件中的采集规则
附件
58识别插...
阅读全文
目前最快捷的学习火车头采集器使用的途径有两个
第一个 购买火车头采集器培训教程
第二个 自学火车头采集器使用 慢慢研究了
现在采集器市面上一般分三种,cms内置式,网络语言编写的,还有一种是基于.net框架开发的,而在功能跟性能上的比较上,.net开发的是强的,也是灵活性最高的
第一 .cms内置式的,有代表...
阅读全文
最近有客户想采集去哪儿网站的机票价格,研究了几天终于给出了具体的解决方案了
使用的采集器还是用的火车头采集器v7版本
去哪儿网的代理网站有自己独立的机票搜索接口,例如http://xyx.trade.qunar.com/site/
搜索结果使用Ajax动态加载,服务端返回的数据是JSON格式的。
难点在于返回的价格数据是加密的,返...
阅读全文
火车头采集器v7版本身自带的ocr识别功能可以识别大部分常规的字母和数字。但在遇到特殊的字体时可能会出现部分识别错误。为此,我们将火车头采集器2010版本带的按特征码识别的 程序重新进行了修改,使其可以很方便的生成我们的c#插件。该程序可以单独运行。大家可以先打开自带的两个项目进行测试学习。以前也...
阅读全文
火车头采集器 v7版本 默认带了有道翻译插件并提供了源代码,但是基本是大部分不会编译,所以我们按谷歌翻译插件的使用重新改写了一下插件,请需要的朋友按http://www.locoyer.com/archives/1406 的进行操作。需要注意的一点是,翻译方向 里的内容是不一样的。翻译方向标签没有的话是从中文翻译成英文。其它的...
阅读全文
ocr图像识别配置管理工具是在火车头采集器v7版本中新增的一个图片识别功能
OCR识别程序是一个通用的图片文字识别程序,可以对一些简单的字母或是数字的图片进行识别
预处理:
通过预处理可以去除一些干扰,来提高识别率。
1, 亮度/对比度
用以调节图像的亮度和颜色的对比度
1, 灰度
效果图:
相当于彩...
阅读全文
火车头采集器 v7 多级网址采集(LocoySpider/NewJob/StepAddress.htm)
从起始网址生成的地址,经过多次的多级网址采集处理,生成更多的内容页地址。
网址获取方式包括“从页面自动分析得到的地址链接”,“手动填写链接地址规则”,“使用Xpath方式获取地址”。
Ⅰ.网址获取选项(LocoySpider/NewJob/GetAdderssType.ht...
阅读全文
火车头采集器 v7版本中特色服务器远程管理
服务器远程功能允许通过http协议对服务器的运行状态进行查看,对任务规则进行修改。对任务进行启动和停止等操作。目前该http服务器的功能有
1.操作任务:查看所有任务,启动任务,暂停任务,停止任务,下载任务,更新任务,删除任务,创建任务
2.计划任务:查看所有计划任...
阅读全文