商略网络,专注中小企业网站建设,为您的网站量身定制!
您当前的位置:首页 > 动态 > 建站知识

佛山网站建设服务:谷歌爬行分析案例

商略建站发表于 : 2019-07-13 15:09:14  来源:  分类:建站知识

  • 摘要:  google bot爬行日志文件分析案例   佛山网站建设服务效益分析   网站所有者真的不知道它是谁,或完整的故事,是爬行的网站,直到他们分析他们的服务器日志。专栏作

  google bot爬行日志文件分析案例
  
    佛山网站建设服务效益分析
  
    网站所有者真的不知道它是谁,或完整的故事,是爬行的网站,直到他们分析他们的服务器日志。专栏作家格伦加布分享作为一个例子,以说明一些见解,可以从服务器日志文件分析收集。
  
    我最近开始帮助一个网站,在5月17日的算法更新中受到了负面影响。这个网站长期处于互联网质量的灰色地带,有质量更新,有时会下降。所以我开始挖掘爬行分析和审计网站。
  
    当我开始分析这个网站时,我注意到有几个奇怪的峰值在谷歌搜索控制台中爬行,以获取统计报告(GSC)。例如,谷歌通常每天爬行大约3000页,但前两个峰值跳到近20000页。然后还有两个突破11000页。
  
    不用说,我正在发现为什么这些峰值很有趣。佛山网站建设服务SEO网站上有技术问题吗是否有导致恐慌的外部因素或者这是谷歌机器人的例外我很快伸出手来看看我的客户看到了什么。
  佛山网站建设服务


    尖峰爬行:有时是预期的,有时不是
  
    我问我的客户,如果他们实施了任何大规模的更改,我会建议爬行可能触发峰值。他们没有。记住,我刚开始帮助他们。
  
    此外,我刚刚完成了两个大型的爬行网站,没有看到任何可能导致谷歌机器人搜索引擎优化(Google Bot SEO)爬行许多额外的页面或资源的奇怪技术问题:编码失败可能导致谷歌爬行许多接近重复的页面、糟糕的分页、分面导航等。我在网站上没有发现任何这些问题(至少根据第一组爬行)。
  
    现在,值得注意的是,当谷歌看到一个网站发生大规模变化时,它可以增加爬行速度,例如,网站迁移、重新设计或改变网站上的许多网站。谷歌网站管理员趋势分析师约翰・穆勒(JohnMueller)解释道。
  
    下面的图片显示了可能的情况。这是来自一个网站,我正在帮助进行HTTPS迁移(而不是稍后我将介绍的网站)。请注意爬行后迁移的峰值。这是完全正常的:
  
    但在这种情况下,这是怎么回事现场没有大的变化,但在回顾的背景下,我的决定是明确的:
  
    释放日志文件!
  
    服务器电源日志
  
    日志文件包含网站活动的原始数据,包括来自用户和搜索引擎的访问。通过日志,您可以挖掘每个访问事件,以查看捕获的页面和资源、响应代码返回、引用、IP地址等。我想查看。我在尖刺中爬行。
  
    如果你从未处理过日志文件,你应该知道它们可以得到很多。例如,不常见的是看到大小为数百兆字节的日志文件(甚至比大容量网站还要大)。这是一个日志文件,这是我的工作。这是696兆。
  
    在分析日志文件的第一集中,仪表板上讲述了一个有趣的故事。响应代码显示404正在飙升,谷歌机器人遇到了它。这似乎有问题。
  
    我注意到,对于不熟悉的网站来说,看起来笨拙的页面包含了数千个视频事件,而我的客户的网站没有包含其中的一个。在这期间,404主要是由于不熟悉的网站。
  
    但这些谷歌机器人事件似乎并没有发生,更常见的是。
  
    复杂情节:欺骗
  
    我总是警告人们挖掘自己的日志文件。他们可能会看到一些令人不安的事情。记住日志包含了网站上的所有活动,包括所有机器人的活动。不幸的是,看到很多机器人爬行网站获得Intel…或更恶意的原因是很不寻常的。
  
    例如,你可能会看到爬虫试图了解更多关于你的网站(通常是从竞争对手那里)。你也可以看到黑客攻击。例如,用来自IP地址的随机事件锤击你的WordPress登录页面。
  
    所以,这是404S的尖峰把我从水里擦出来,从谷歌机器人。我很快注意到许多假的谷歌机器人事件(从几个不同的IP地址)。尖叫青蛙日志分析仪有一个漂亮的验证程序,我充分利用了这些功能。
  
    它知道真正的Google机器人在这个时期很有趣(通过GSC报告),在那个时期假冒的Google机器人登陆了网站。但是我在日志文件中找不到任何验证高峰。
  
    所以我们研究并收集了一些不好的演员IPS,看看他们是否来自谷歌。我的客户现在正在处理这些IPS。这是一个聪明的方法,尤其是当你看到来自欺骗Google机器人的特定IP地址的回访时。我们也经历了这个过程的第二个高峰。
  
    这是为了升级你的引擎盖和一些疯狂的问题,以找到一个好的例子(或燃料添加到你的发动机)。你可以接近休克和发誓看引擎盖永远,或者你可以解决这个问题很长一段时间。清洁地毯下的问题永远不会是真正的解决办法。
  
    真正的谷歌机器人能站起来吗
  
    在分析前两个峰值时,我没有看到任何验证谷歌机器人的问题。(我的意思是谷歌真正的爬行网站没有不同的爬行器欺骗谷歌机器人。)所以,在GSC中抓取统计数据并杀死秒,但服务器日志显示谷歌机器人是正确的活动。这是假冒谷歌机器人似乎造成的问题。
  
    检查和验证谷歌机器人活动和欺骗活动:
  
    将数据恢复正常,然后再次上升
  
    我们已经在GSC检查了爬行统计以便进行常规监控(对于房间的Google机器人)。爬行的数据恢复正常,但是又增加了第三和第四次(参见我在上面分享的第一个屏幕截图)。最新的爬行增加了11000多页。
  
    检查记录可以发现很多网站,而且在网站上不存在(视频网站之前不存在)。这是由Google Bot适当访问(验证)的。我很高兴看到我们终于发现了一些真正的Google Bot问题(不仅仅是欺骗Google Bot的问题)。
  
    这些URL看起来完全搞砸了,有时长达数百个字。这看起来像是一个编码错误,在每个URL连接中都添加了更多的人和目录。我向我的客户发送消息,这些客户将消息转发给他们的主要开发人员。他们起初不知道谷歌会找到这些网站。我会掩盖这一点。
  
    Google BOT和404s:SEO的微妙情况
  
    需要明确的是,404不是一个问题,如果页面应该是404的话。谷歌的约翰穆勒解释了很多次。404S是一个完全自然的互联网网站,不会影响其质量。
  
    Google还在404s网站管理员中心的博客上写了一篇文章,佛山网站建设服务如果它们会伤害你的网站。在Mueller的评论中,在支持DOC和博客之后,你可以放心,404s本身不会导致质量问题。但是确保邪恶很重要,而不是你的假Google机器人攻击服务器试图影响正常运行时间(以及SEO的长r联合国)
  
    我问我的客户基于这个站点是否有性能问题,我们看到了爬行的高峰,听说他们根本没有看到任何问题。
  
    谷歌是如何找到这些长网站的
  
    在爬过这些长URL之后,我可以看到破损的URL和一些JavaScript文件之间的连接。我相信Google正在寻找基于JavaScript代码的URL(或者形成URL)。
  
    你会在上面列出的支持文件中发现google提到的可能性。因此,如果你看到该URL被google抓取,并且目前在你的网站上不可用,google bot可以通过javascript或其他嵌入的内容找到这些URL。知道这一点也很重要。
  
    我们学到了什么
  
    正如我之前所说,挖掘服务器日志是有用的和令人不安的。另一方面,你可以发现问题,谷歌机器人发生了什么,然后解决它们。另一方面,你可以看到邪恶的东西,如黑客,假谷歌机器人,抢夺你的网站为英特尔,或其他企图锤击服务器。
  佛山网站建设服务


    下面是我们通过这个练习学到的一些东西:
  
    我们可以清楚地看到假冒的谷歌爬虫网站,很多人指责404。我的客户可以解决那些流氓IP,锤子服务器。
  
    我们看到一个真正的谷歌爬虫,看起来像一个笨拙的URL(基于通过javascript链接发现)。有了这些数据,我的客户可以挖掘技术问题,得到长的,笨拙的URL。
  
    我们发现google bot的所有峰值都不会显示在GSC中,这很奇怪。我不知道这是不是谷歌终端的报告问题,但我们也发现了一些谷歌机器人的真正高峰,并解决了它们。
  
    也许最重要的是,我的客户可以清楚地看到,例如,搜索引擎优化的弱点,为什么许多假谷歌爬虫网站得到英特尔,或更恶意的原因。但至少我的客户知道这是发生(通过数据)。现在他们有一个计划来处理流氓机器人。
  
    摘要:日志文件可以揭示看似危险的问题
  
    当你打破它,网站所有者真的不知道它是谁,或完整的故事,是爬行的网站,直到他们分析他们的服务器日志。谷歌分析将不会提供这些数据。你必须明白,你的日志表面机器人访问你的网站。
  
    所以,如果你能找到爬山峰,你在想什么,别忘了你的日志!它们可以是一个有价值的数据,可以帮助揭开SEO的奥秘(这可能是需要紧急解决的隐藏问题)。不要害怕去挖掘答案。记住,你可能需要做好准备。
  
  

本文由商略网络整理编辑:佛山网站建设服务:谷歌爬行分析案例
地址为:https://www.3lue.cn/news/jianzhanzhishi/4137.html