如何查看日志中蜘蛛的访问行为 | 实用球_实用软件

如何查看日志中蜘蛛的访问行为

更改字号: 小号 | 中号 | 大号
  网站日志,是服务器端自动生成的一个文本记录,详细记载了网站的访问详情.首先利用FTP工具登录服务器端,一般在服务器根目录之下存在一个logs文件夹,...

 

网站日志,是服务器端自动生成的一个文本记录,详细记载了网站的访问详情.首先利用FTP工具登录服务器端,一般在服务器根目录之下存在一个logs文件夹,这里面装的就是网站日志,不同的服务器类型,日志文件的文件夹名不同。

搜索引擎优化

进入日志文件夹,你会发现,日志文件是按每一天的访问情况为一个文件保存的,这时我们下载所需要查看的wedlog,然后打开日志文件按CTRL+F搜索功能查找搜索引擎爬虫

搜索引擎优化

 

怎么解读这些信息呢?

2015-11-24 16:43:55 GET / - - 220.181.108.114 HTTP/1.1 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) - 200 15271 687

蜘蛛IP--【访问时间】“获取路径”HTTP反馈值200 反馈字节数15271 百度蜘蛛标记。

这里面获取路径与HTTP反馈值是非常重要的信息,200为正常读取,读取了15271个字节。

 

我们再分析一条记录(来自站长文章):

220.181.51.118 - - [07/Sep/2012:09:54:15 +0800] "GET /product/disp.php?id=93 HTTP/1.1" 301 249 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

认真看获取路径这一项,因为我的网站是老域名,原来的主人被收录的路径/product/disp.php?id=93,百度蜘蛛同样爬行,结果我的 新网站里肯定不会有这一条信息,由于HTTP反馈了301,而301代表已移动 — 请求的数据具有新的位置且更改是永久的。其实这对于我来说是一件好事,蜘蛛爬行不通,知道这条收录记录已经失效,慢慢就会从百度的收录数据库中删除。

接下来普及一下关于搜索引擎蜘蛛的小知识

主流搜索引擎爬虫名称

百度蜘蛛:baiduspider

360蜘蛛:360Spider

谷歌蜘蛛:Googlebot

微软必应蜘蛛:bingbot

搜狗爬虫:Sogou web spider

腾讯SOSO爬虫:Sosospider

雅虎的综合索引爬虫程序:Yahoo! Slurp

有道蜘蛛:YodaoBot

MSN爬虫:MSNBot

搜索爬虫抓取建议

1.根据上述蜘蛛中选择几个常用的允许抓取,其余的都可以通过robots屏蔽抓取。如果你暂时空间流量还足够使用,等流量紧张了就保留几个常用,屏蔽掉其它蜘蛛以节省流量。

2.并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能。因此,网站管理员需要验证每个机器人身份是否合法。

可建议通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。

如:crawl-66-249-66-1.googlebot.com为google爬虫的主机名称。

上一篇:笔记本升级CPU问题
下一篇:简约之美:如何实现简约设计-做产品经理,大谈商业
workpress博客的robots.txt怎么写

workpress博客的robots.txt怎么写

无效搜索结果页导致15年域名网站被K

无效搜索结果页导致15年域名网站被K

搜索引擎优化SEOのHTML代码优化

搜索引擎优化SEOのHTML代码优化

长尾关键词挖掘技巧有哪些?

长尾关键词挖掘技巧有哪些?

什么是内链?内链的重要性

什么是内链?内链的重要性

如何利用百度自身产品做高质量外链

如何利用百度自身产品做高质量外链

已有0条评论,期待您的留言!

昵称 *
邮箱 *
网址

沙发空闲中,快来抢!

×