网站日志中访问来源的简单分析-尊龙凯时官方旗舰店
读取和分析网站日志是管理员及seo工作者的一个重要工作内容,今天花了点时间查看了一下网站日志,特别做一个笔记。
网站日志中访问来源分析其实也不是一件简单的事情,首先得要获取到适合的标准的网站日志。
比如说,如果网站开启了cdn,原始网站日志的访问ip可能是cdn节点的ip,不是访客的真实ip。所以,首先,我们获取好访客的真实ip。这一步本文就略了,以前的文章有写过点小笔记。
需要分离搜索引擎和其它访问来源的ip,如果是cdn的话,可以设置搜索引擎seo回源来完成这一动作。
接下来,就是一个实例了。
上图网站日志中我们可以观察到这三种典型的不同访问来源。
1、网站采集器
"120.227.146.29"-113.219.202.212 - - [19/may/2023:20:00:51 0800] "get / http/1.1" 200 45693 "-" "mozilla/4.0 (compatible; msie 7.0; windows nt)" "120.227.146.29"
这是伪装成ie浏览器的的采集爬虫访问,访问记录连接不是具体的url,自然是在抓取js、css、图片及网页内容了。
2、搜索引擎
"-"-66.249.70.166 - - [19/may/2023:20:01:07 0800] "get /2882048.html http/1.1" 200 8327 "-" "mozilla/5.0 (linux; android 6.0.1; nexus 5x build/mmb29p) applewebkit/537.36 (khtml, like gecko) chrome/113.0.5672.92 mobile safari/537.36 (compatible; googlebot/2.1; http://www.google.com/bot.html)" "-"
这是google搜索引擎的来访,ip为66.249.70.166,并且回源了,这是cdn的设置结果。
3、用户访问
"220.164.195.122"-113.219.202.162 - - [19/may/2023:20:02:32 0800] "get /1315071.html http/1.1" 200 8799 "-" "mozilla/5.0 (linux; android 6.0; nexus 5 build/mra58n) applewebkit/537.36 (khtml, like gecko) chrome/58.0.3995.1738 mobile safari/537.36" "220.164.195.122"
这是一个android手机的用户访问,真实ip为220.164.195.122,从113.219.202.162节点来访。
那么,有没可能是采集器的伪造ua呢?
有时当然也有可能,多观察几条记录的话,就排除这种可能了,理由跟第一条网站采集器的来访特点相关。
其它来源分析类似。
当然,这仅仅是网站日志中访问来源的简单分析,如果想区分cc攻击访问、国内外访问等更明细的访问分析结果,可能需要一些网站日志分析工具来辅助处理了,毕竟靠人力手工去分析大量的网站日志并形成报告,这很费力费时。
以上就是网站日志中访问来源简单分析的一次小笔记,希望对你有所帮助。
#笔记 #记录