网站的收藏和流量是运营商最关心的两个问题。
然后,首先澄清一些基本点。无论是否包含网页,都有两个因素:
我以前提到过收款率指标。很多网站都懒得做这个索引,我只看一下网站的数据!。事实上,没有这个指数,就没有办法开始大量的工作。从数据中识别问题,使用数据指导解决方案,分析数据并验证工作结果。最近,我读了《简单术语中的数据分析》一书。我觉得很好。数据分析的方法非常生动。建议对数据分析感兴趣的学生可以购买这本书。任何数据分析都收录四个环节:目标分析评价决策。
目标:我们想看看网站是如何被收录在内的,是否还有机会改善SEO。
分析:该系列的优点和缺点是什么是否用一些指标来衡量网站的收藏是否过于笼统,是否应该细分为每个页面的收藏
评估:所以我们需要以下数据
SEO流量的比例可以从谷歌分析中过滤出来。
页面数量可以从数据库中获取,也可以通过机车或自制小脚本抓取和计数。
收录率可以通过工具搜索获得的页面,机车也可以。
级别1+2目录页面带来大量流量,并且收录率不是很高。优化流量收录的突破就在这里!
产品页面很多,收藏也不是很理想,但是流量有限。除了收录问题,还有页面内容的问题。在本文中,我们首先忽略它。
决定:我们的结论是立即采取行动优化目录页面的收录。
看这里,最初的目标似乎是:通过优化收录提高流量
它已经演变成一个新的目标:如何改进目录页的收录
我们可以通过数据分析再次进行SEO吗
让我们再次回顾一下目标分析评估决策的过程
目标:改进目录页的收录
分析:通过本文开头与收录相关的两个因素,我们需要检查网页是否已被爬虫爬网,网页质量是否已通过。
1.至于爬虫,我们需要分析日志来确定。因此,我们从日志中分割了一系列数据,以查看页面是否确实已被爬网。
2.由于页面质量似乎难以衡量,我们可以在同一模板下使用以下内容:
已爬网的页面数/已爬网并包含的页面数
评估模板页面质量对集合的影响。如果包含已爬网的页面,则至少表明该页面的内容已被搜索引擎识别。(实际情况比这复杂得多,收录后可能会因为质量问题被删除,但总比没有参考好,对吧!)
评估:(敏感信息替换为数字,均为真实数据)
让我们来看看爬虫日志。通过shell脚本,我们可以分析它。
通道a下几乎100%的目录已至少抓取一次,通道B下70%的目录已至少抓取一次。
其他渠道目录覆盖率低于30%
不要认为这个结果是神奇的。事实上,很多网站都会面临这样糟糕的问题。只要你不断细分,细分,再细分数据,你总会观察到一些线索。
关于日志分析,不要迷信任何日志分析软件。这都是为懒惰的人准备的。自制脚本+excel是王道。您可以分割并显示所需的任何数据。当然,你甚至可以不想要excel。
通道A和B非常令人放心,表明页面质量没有问题,但集合的其他部分令人担忧。
决策:通过以上数据评估,我们得出以下结论。