九哥博客 blog.9sir.com

九哥博客

站名: 九哥博客

网址: http://blog.9sir.com

目录: 电脑网络 > 网址黄页

PR:

Alexa: 0

备案号: 蜀ICP备13007657号

服务器IP: 202.108.5.133   北京市 北京新浪互联信息服务有限公司联通节点

描述: 九哥博客

查询: [ 网站综合查询 | PR查询 | Alexa排名 | 同IP网站 ]

详细介绍

九哥博客承接数据采集、网站制作、软件定制等业务。首页示例页面火车头采集阿里妈妈淘宝客推广链接2015年2月21日phickers没有评论分类: 火车头采集器标签:火车头采集器如何导入导出采集规则2014年3月19日phickers没有评论如果已经存在分组可跳过此步骤。依次点击菜单栏“分组”->“新建分组”,在弹出对话框中所属分组选择“根节点[id=0]”(也可选择其他分组),填上“分组名称”,“分组备注”可以不用填。右键点击刚才新建的分组,选择“导入任务至该分组”(记住:不是“导入分组规则”),在弹出的对话框中选择已经采集规则文件(后缀为.ljobx)。也可以选择刚才新建的分组,然后依次点击菜单“分组”->“导入任务至该分组” 在弹出的对话框中选择已经采集规则文件(后缀为.ljobx)。如果你手上的规则文件后缀名为“.lgrp”,那么你需要通过菜单或右键快捷菜单选择“导入分组规则”,而不是“导入任务至该分组”。勾选“采网址”、“采内容”和“发布”复选框,点击开始即可开始采集数据,待数据采集完成后会自动发布(需要事先写好发布规则)。初次采集建议分步进行。先采网址,之后再采内容,最后再发布。如需重新采集,需要先清空网址库和所有采集数据。如在数据采集、发布模块、插件开发等方面有需求,价格公道,服务包你满意。欢迎与我联系QQ8-5-3-8-6-4-4-3。分类: 火车头采集器标签:火车头新手教程:怎样写火车头采集规则2014年3月19日phickers没有评论首先讲一讲网站结构,通常网站结构为树形结构,一个网站主要包以下几种页面:首页、栏目页、文章页。其结构如下图:火车头采集器通常通过网址抓取网站返回的源代码,然后在源代码中提取需要的信息。因此,采集数据需要先采集网址,然后再采集数据。1.运行LocoyPlatform.exe3.添加起始网址填写“第一步:采集网址规则”这里需要按照网站的树形结构逐级获取下一级结构的网址,直至获取到内容页的网址。先填写起始网址,通常为目标站首页地址。点击“添加”,在单条网址处填上火车头博客的首页地址,然后依次点击“添加” ->“完成”。这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域,先查看起始页地址的源码,找到如图所示代码区域:然后保存返回,可以通过“测试网址采集”来测试规则是否正确,不正确可以返回修改规则,正确的话可以开始编写“第二步采集内容规则”。6.编写“第二步采集内容规则”先打开内容页以及内容页的源码,找到需要提取的信息的前后代码特征。以提取标题和内容为例。首先复制文章标题,然后在源码中查看该标题出现的几处地方,找一处前后代码在每一篇文章都一样的地方,该例共出现了3处,第二处的代码没有其他干扰代码。点击“添加”,标签名填“标题”,提取数据方式选择前后截取,前后代码分别为“<h1 class=”ContentTitle”><strong>”和“</strong></h1>”。如果采集的内容需要作进一步处理(如替换删除编码转换过滤html等),在下方“数据处理”点击添加填写相应规则。保存规则后返回采集内容规则页面,在右侧“规则测试”的典型页面文本框填上一个内容页的地址,然后点击测试,如果下面显示到的内容符合预期说明可以了,如果未获取到内容或者获取到内容不正确,返回检查并修改规则。选择要采集的任务规则,勾选“采网址”和“采内容”复选框,点击工具栏“开始”按钮。采集到的数据保存在数据库,可以通过在任务名上点右键,选择“打开DATA下任务文件夹”打开数据库所在位置,该数据库可以通过ACCESS打开和编辑。如果想要重新采集,需要通过右键选择“清空该任务网址库”和“清空任务所有采集数据”。如在数据采集、发布模块、插件开发等方面有需求,价格公道,服务包你满意。欢迎与我联系QQ8-5-3-8-6-4-4-3。分类: 火车头采集器标签:C#定制采集器可配合火车头发布模块使用(仅供交流参考)2014年2月27日phickers没有评论C#定制采集器可配合火车头发布模块使用C#破解防采集的网站数据说明:Q.该采集器针对火车头采不了的特定网站定制,如需采集其他网站,需修改源代码;Q.本人代写采集规则,发布模块,定制各种软件,擅长破解各种防采集;8.源码为VS2008编写,因本人能力限制,不排除程序存在BUG,源代码仅供参考;5.程序无须设置参数,点击“开始采集”即可,下面是本程序使用到的技术;3.使用 ThreadPool.QueueUserWorkItem()多线程;8.使用正则表达式匹配需采集的字符串;6.使用POST提交数据并获取返回源码;4.使用WebClient DownloadFile 下载远程图片到本地;4.使用access数据库类将采集数据保存到数据库;3.联系方式藏头,即每行行首。分类: 我开发的软件标签:Ajax&Js数据采集器 【官方下载】2014年2月7日phickers没有评论2、将采集的网址所在数据库复制到本工具同一文件夹;亦可自建数据库,但是文件名必须为“SpiderResult.mdb”,数据表名为“content”,至少包含“标题”“内容”“pageurl”等字段,且“pageurl”字段已经存有代采集网址3、打开工具,依次填写网页加载完成的标识代码片段和提取标题内容的首尾代码片段,然后点击开始。1、采集过程中自动中断,重启软件即可。2、采集中弹出错误提示,打开数据库,删除当前采集的网址记录或将其标题和内容字段置为“F”然后重启软件。3、其他,请联系开发者。分类: 我开发的软件标签: Ajax, Js, 数据, 火车头, 采集器下一页订阅随机文章火车头采集阿里妈妈淘宝客推广链接火车头采集器如何导入导出采集规则C#视频教程打包下载(陈广主讲)C#获取网页源代码并提取超链接淘宝排行榜工具正式开通微信公众号啦标签云.netAdSenseAPIbloggerC#C#范例开发大全C#视频教程cssDropDownListFacebookmaxcmsmicologSEOTwitterVIEWSTATEwin7XPYoutube二级域名免费资源关机延迟关键词单页面友情链接国产嫩模外链女模子域名子目录微博戴尔挣钱提取超链接收录数据库新鲜权重淘宝客
百度
直播
站长
自杀
苏巍
解决办法
马克斯
文章分类
分类目录应用软件
心情日记
我开发的软件
敏感话题
火车头采集器
破解软件
站长杂谈
编程学习
友情链接
九哥SEO实验博客
减肥日志
印度电影
淘宝伟哥
淘宝小助手
存档
2015 年二月
2014 年三月
2014 年二月
2014 年一月
2013 年十二月
2013 年六月
2013 年四月
2013 年三月
2013 年二月
2013 年一月
2012 年十二月
2012 年十一月
2012 年十月
2012 年九月
2012 年四月
2011 年十月
2011

猜你喜欢