找回密码
 立即注册

QQ登录

只需一步,快速开始

教程经验总索引TVMW5/小日本5 索引【视频转换】小日本4/TE4XP 索引【视频转换】TAW4 / TDA3 索引【DVD打包软件】
Nero 索引DVD-Lab 索引【DVD打包软件】编解码器 索引 【必读】固顶帖011号
查看: 4371|回复: 0

[教程] 如何知道网站是否被搜索引擎的蜘蛛爬过

[复制链接]

9328

威望

296

金钱

1万

贡献

管理员

自由的灵魂

积分
99871
主题
5265
回帖
26222
注册时间
2003-4-10
最后登录
2024-4-24
发表于 2009-5-2 01:47:42 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
1. 看网站日志
如果你使用的是虚拟主机的话,主机管理面板里面一般都有启用IIS 日志的选项,在里面打开IIS 日志。一般IIS 日志存放在你的ftp 账户的根目录下并且以 log×××   等字样命名的文件夹下面。IIS 日志为.log 尾缀的文本文件,下载下来,然后查找 带有 Baiduspider+ 字样的记录行,该行即为百度蜘蛛爬行的痕迹。另外还有 google的是 googlebot   等等,自己可以研究一下

如果是自己的独立服务器,打开IIS,在站点标签下面 有个 “启用日志记录” 选中,然后点属性 指定日志保存路径即可

2、ASP可以使用global.asa来纪录访问者的HTTP_USER_AGENT

3、PHP和asp都可以在具体页面中通过放置代码将HTTP_USER_AGENT保存起来的方法看蜘蛛扫描信息。

ASP示例代码:

以下是robots.asp代码:
  1. <%
  2. Sub robot()
  3.          Dim robots:robots="Baiduspider+@Baidu|Googlebot@Google|ia_archiver@Alexa|IAArchiver@Alexa|ASPSeek@ASPSeek|YahooSeeker@Yahoo|SogouBot@sogou|help.yahoo.com/help/us/ysearch/slurp@Yahoo|sohu-search@SOHU|MSNBOT@MSN"
  4.          dim I1,I2,l1,l2,l3,i,rs
  5.          l2=false
  6.          l1=request.servervariables("http_user_agent")
  7.          F1=request.ServerVariables("SCRIPT_NAME")
  8.          I1=split(robots,chr(124))
  9.          for i=0 to ubound(I1)
  10.                  I2=split(I1(i),"@")
  11.                  if instr(lcase(l1),lcase(I2(0)))>0 then
  12.                          l2=true:l3=I2(1):exit for
  13.                  end if
  14.          next
  15.          if l2 and len(l3)>0 then’如果是爬虫,就更新爬虫信息
  16.                  FilePath = Server.Mappath("robots/"&l3&"_robots.txt")
  17.                  ’记录蜘蛛爬行
  18.                  Set Fso = Server.CreateObject("Scripting.FileSystemObject")
  19.                  Set Fout = Fso.OpenTextFile(FilePath,8,True)
  20.                                  Fout.WriteLine "索引页面:"&F1
  21.                                  Fout.WriteLine "蜘蛛:"&l3&chr(32)&chr(32)&"更新时间:"&Now()
  22.                                  Fout.WriteLine "-----------------------------------------------"
  23.                                  Fout.Close
  24.                  Set Fout = Nothing
  25.                  Set Fso = Nothing
  26.          end if
  27. end Sub
  28. %>
复制代码


先在你的站里建立一个robots文件夹,把robots.asp放到robots文件夹下,再把调用函数放在公用的函数文件里面。因为一般网站都会用到数据库,所以只要Call robot()写进去就行了。
下面给一个参考,是我的小站的数据库文件:

  1. <!--#include file="robots/robots.asp"-->
  2. <%
  3. Set Conn=Server.CreateObject("ADODB.Connection")
  4. Connstr="DBQ="+server.mappath("data/gata.mdb")+";DefaultDir=;DRIVER={Microsoft Access Driver (*.mdb)}"
  5. Conn.Open connstr
  6. Call robot()
  7. %>
复制代码
在我新做的站点分析昨天百度搜索蜘蛛爬过的代码:
2008-04-13 02:07:13 W3SVC314147887 125.32.112.38 GET /index.html - 80 - 220.181.38.174 Baiduspider+(+http://www.baidu.com/search/spider.htm) 304 0 0
这句话的含义是:2008年4月13日,百度蜘蛛来访,页面未更改。
IsaacZ的发言中如果提到任何字母缩写或专有名词,在本论坛中一般都能搜索到。点此立即搜索点拨论坛。如有搜索不到的,请尝试搜索百度百科,或者跟帖提问。
发帖前请注意看置顶帖。如果你发现自己的问题没有得到回答,说明你的问题提错了地方或者提问前未先阅读本版规则固顶帖011号
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|点拨论坛

GMT+8, 2024-4-24 20:01 , Processed in 0.273353 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表