您好,欢迎到来!网站网址收录,值得选择!
--企业目录:导航呀 » 资讯 » 资讯文章 » 站长新闻 » 文章详细

如何清空采集器里的数据以及查看数据,网址库的说明

来源:本站原创 浏览:734次 时间:2020-09-22

1楼清空数据 2楼查看数据,3楼网址库讲解   请你看完
1,清空网址和数据
如果你想把规则里的数据清空从新采集请按照下面的操作:
%9{L2F{C(M)4{SKL53U9R[6.jpg
右击采集规则====》清空任务所有采集数据,清空该任务网址库(备注:这个2个都要选择下)
这样就会把任务采集到数据和网址全部清空掉,再次运行任务就从新采集了
2,只清空数据
按照上面的操作,会把采集的地址也会清空掉,地址就要从新采集了
假如你只是想从新采集内容的话可以只要把这条采集信息勾选为未采集状态办法看下面
1,手动勾选
如果数据不多或者只是针对部分数据需要重新采集可以选择此方法
首先打开本地编辑任务采集数据如下图
S0F[UMV~I8P_QX5)UY}(Q10.jpg
然后采集器的右侧可以看到采集到的数据
把采集的状态设置为未采集如下图
Q]8MWUQ1T3(`6VIYZM()P6I.jpg
这样运行任务 不需要勾选采集网址 直接勾选采集内容就可以了 节省时间
2,sql语句
如果数据很多 ,我们就使用sql语句来批量修改采集的状态为“未采集”
说明下你选择保存的数据库是什么 这样对应的sql语句是有所不一样的
知道数据库的童鞋都知道每个数据库的Sql语句格式都是不一样的
我本地是使用sqlite数据库,做为演示
点击Sql按钮如下图:
JX6QAPQTVIZF471T(I5(NUC.jpg
写sql语句如下图,采集器把对应数据库的sql语句列出了,我们这里选择“更新”数据库
8TXCNVIKJ4Z({21I07I_`U6.jpg
sql语句这里就不说明了会的自然会,不会的在这里也说不明白 不明白的大家问度娘去。。
这里sql语句写成“UPDATE Content SET [已采]=1” 下面的执行就可以了
执行成功了,点击从新加载数据 就看到变化了 再次采集的时候会把之前采集的覆盖掉。
假如你本地保存数据库选择的是mysql
使用“更新”sql语句是:“UPDATE `Data_Content_任务ID` SET `已发`=1 WHERE `标题` is null”
这里说下这个任务id是什么
看下图
MOXOB%W1})$E~)VRN103DJW.jpg
把“任务ID” 对应修改成数字就好

大家疑惑会什么不同的数据库会这么大的区别,不需要去疑惑,本身不同的数据库就是不一样的

现在我们来说下如果查看采集到的数据
1,本地编辑采集任务数据
采集器有自带的编辑器,我们可以通过这个个编辑器查看数据
GE28J9[$UD[8VEW(~2GDPAA.jpg
按照上图,右侧就可以打开数据了
我们可以查看数据如果你是商业版用户也可以修改数据后保存
L27DUU84]OZF10{{_]HG@D2.jpg
如上图选择要修改的值 在下面编辑器那里修改 然后点击下面的保存按钮就可以了
2,从数据库查看数据
大家都知道采集器这个目录 \Data\LocoySpider 就是存放规则采集到的数据的地方,打开后看到的是
一个一个按照数字命名的文件夹 这个数字就是对应的任务id 数字 按照任务ID命名的文件下面的数据库文件就是存放的
对应规则的采集数据
这里如果知道规则的任务ID呢?看下图
G%%U`A]9XYUF0_}1U9F4POU.jpg
如上图所示有2种方式打开 对应的文件
1,规则右击==》打开DATA下任务文件夹  这样就可以直接打开对应的数据库文件夹
2,选中规则,有下角 会显示任务对应的ID 然后去DATA文件夹下找到对应的文件
数据库文件名是SpiderResult。如果后缀是db3说明你本地保存的数据库是sqlite 如果打开这个文件请百度下
如果后缀名是mdb 说明你本地保存的数据库是选择的access数据库 这个可以直接用excel 打开
如果你想用更专业的工具打开它 也请你百度下如果打开
如果你本地保存数据库选择的是mysql  sqlserver   mongodb  那么你一定不是菜鸟 对数据库有一定的了解
那么如果查看我就不要说了

网址库
大家知道规则的网址库是那个吗
就是\Data\LocoySpider\PageUrl 同样是根据任务ID命名的
采集器把任务采集到的地址都保存到这里面的文件下用来
检测网址重复呀 都是根据这里面的数据库文件
里面内容是加密的

推荐站点

  • 网站库网站库

    网站库是全人工编辑的开放式网站分类目录,收录国内外、各行业优秀网站,旨在为用户提供更全面的网站分类目录检索、优秀网站参考、网站推广服务、网站黄页、网上娱乐冲浪导航网站。

    www.wangzhanku.com
  • 导航啦分类目录导航啦分类目录

    导航啦分类目录-您网上冲浪导航专家!导航啦分类目录-专业提供为广大站长收录的开放式网站分类目录平台,收集国内外、各行业优秀正规网站,全人工编辑收录,为百度、谷歌、有道、搜狗、必应等搜索引擎提供索引参考, 同时也是站长推广网站值得信任选择的平台。

    www.daohangla.com
  • 网址库网址库

    网址库是免费的网站分类目录收录网站,致力于建立全面的网址库平台:免费收录网站、网址;收录国内外各行业优秀的网站网址,让你轻松畅游互联网,找到您想要的网站、信息资源;加入网址库让我们共同成长。网址库!网址酷!上网,您需要网址库! 网址大全,实用网址一网打尽!

    www.wangzhiku.cn
  • 网站库网站库

    网站库,免费网站收录,网站目录,分类目录,,免费收录国内外、各行业优秀网站。

    www.wangzhanku.cn
  • 中国知网中国知网

    中国知网知识发现网络平台—面向海内外读者提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书等各类资源统一检索、统一导航、在线阅读和下载服务。涵盖基础科学、文史哲、工程科技、社会科学、农业、经济与管理科学、医药卫生、信息科技等十大领域。 CNKI工程 CNKI介绍   国家知识基础设施(National Knowledge Infrastructure,NKI)的概念由世界银行《1998年度世界发展报告》提出。1999年3月,以全面打通知识生产、传播、扩散与利用各环节信息通道,打造支持全国各行业知识创新、学习和应用的交流合作平台为总目标,王明亮提出建设中国知识基础设施工程(China National Knowledge Infrastructure,CNKI),并被列为清华大学重点项目。 CNKI 1.0   CNKI 1.0是在建成《中国知识资源总库》基础工程后,从文献信息服务转向知识服务的一个重要转型。CNKI1.0目标是面向特定行业领域知识需求进行系统化和定制化知识组织,构建基于内容内在关联的 “知网节”、并进行基于知识发现的知识元及其关联关系挖掘,代表了中国知网服务知识创新与知识学习、支持科学决策的产业战略发展方向。 CNKI 2.0   在CNKI1.0基本建成以后,中国知网充分总结近五年行业知识服务的经验教训,以全面应用大数据与人工智能技术打造知识创新服务业为新起点,CNKI工程跨入了2.0时代。 CNKI 2.0目标是将CNKI 1.0基于公共知识整合提供的知识服务,深化到与各行业机构知识创新的过程与结果相结合,通过更为精准、系统、完备的显性管理,以及嵌入工作与学习具体过程的隐性知识管理, 提供面向问题的知识服务和激发群体智慧的协同研究平台。其重要标志是建成“世界知识大数据(WKBD)”、 建成各单位充分利用“世界知识大数据”进行内外脑协同创新、协同学习的知识基础设施(NKI)、 启动“百行知识创新服务工程”、全方位服务中国世界一流科技期刊建设及共建“双一流数字图书馆”。

    www.cnki.net
  • 中国互联网博物馆中国互联网博物馆

    中国互联网博物馆是以互联网为主题的官方博物馆。作为互联网发展历史的忠实记录者,互联网科学知识的汇集普及者,互联网文化精神的弘扬传播者,以及互联网技术创新的... 中国互联网博物馆由国家互联网信息办公室、工业和信息化部、中国科学院、中国科学院、中国科学技术协会等单位指导,中国互联网络信息中心(cnnic)、中国互联网协会主办、中国科学院计算机网络信息中心、中国科学技术馆共建,是中国首家以互联网为主题的官方博物馆,旨在展现我国互联网的蓬勃发展,展示世界互联网的发展进程。在2015年12月15日正式上线,办公地点在北京。

    www.internet.cn