【Google Search Console】设定SEO robots.txt文件,告诉搜索引擎哪些网页不适合关键词搜寻




robots.txt是网站SEO重点文件,本文以赞赞小屋网站的Google Search Console涵盖范围报告为实际范例,介绍robots.txt文件的作用以及如何编写,可以提高网页收录和关键词搜寻的效率。

一、Google Search Console涵盖范围

登入Google Search Console之后,左边字段选择「涵盖范围」 ,这里共有四个类别,将光标移到每个类别右下角的问号会有相关说明,其中「有效」指的是Google已经建立索引的网页,意思是网站有948个网页文件被收录在Google图书馆,当有人搜寻和网页有关的关键词,Google会考虑呈现该网页,网站SEO便是致力于提高被Google选中的机率。

【Google Search Console】设定SEO robots.txt文件,告诉搜索引擎哪些网页不适合关键词搜寻 Google Search Console 第1張

二、详细资料

同一页面下方的详细数据中,有效状态的网页又分成两个类型:「已提交并建立索引」和「已建立索引,但未提交至Sitemap」。已提交Sitemap意思是自己有写好一份网页目录提交给Google参考。此时我的Wordpress总共有891篇文章,也提交了Sitemap,Google只收录869,没有照单全收这倒是可以理解,但是有79篇不在我目录里面,Google却帮我建立索引了,这比较奇怪,为了网站SEO有必要进一步了解,点击进入明细清单。

【Google Search Console】设定SEO robots.txt文件,告诉搜索引擎哪些网页不适合关键词搜寻 Google Search Console 第2張

三、已建立索引,但未提交至Sitemap

看了明细比较清楚。「https://www.b88104069.com/profile」是赞赞小屋网站的介绍页面,「https://www.b88104069.com/」是网站首面,因为我是利用PHP程序让Wordpress自动产生Sitemap,只会有文章页面,这两个页面确实会漏掉,Goggle帮忙收录最好。

其余网页以「https://www.b88104069.com/archives/date/2015/03/page/6」和「https://www.b88104069.com/archives/author/b88104069/page/60」为典型,从网址结构大略可知是依照日期和作者的分页目录,日期还有些久远,这应该我以前有设定过相关网站机制,现在已经不用了,没想到Google还留着。

【Google Search Console】设定SEO robots.txt文件,告诉搜索引擎哪些网页不适合关键词搜寻 Google Search Console 第3張

四、网站分页目录

实际浏览网页,果然和我猜想的一样,像这样的网页目录页面其实并没有全部文章内容,如果真的出现在搜索结果,读者点进来发现不如预期的话,马上离开,这个讯息会反馈到Google那里,Google因此会降低网站分数,对于SEO不是件好事。

【Google Search Console】设定SEO robots.txt文件,告诉搜索引擎哪些网页不适合关键词搜寻 Google Search Console 第4張

五、robots.txt文件

这种事读者不高兴、Google不想要、我当然也不喜欢。为了有效避免,SEO技术中有一种robots.txt文件,可以很清楚告诉各家搜索引擎,网站中有哪些网页并不是要给读者的,如此一来,提高了网络读者的用户体验,同时也增加搜索引擎收录效率。以Goggle为例,www全球信息网这么多网站网页,如果能预先知道哪些没有必要收到图书馆中,大大减轻馆员工作负担,利己利人。

robots.txt文件必须放在网站入口、亦即网站根目录,没有架过网站的读者,把网站想成计算机文件夹、网页是文件夹里的文件,应该会比较容易理解。截图是赞赞小屋网站范例,第一次看可能难以理解,同样以计算机文件,Windows里面有很多系统文件和用户操作无关,网站也是如此,可想见会有很多网站运作有关的程序文件,这里很多的「Disallow:」就是要避免这些技术被Google收录为www网页,类似于Windows系统隐藏文件的效果。

【Google Search Console】设定SEO robots.txt文件,告诉搜索引擎哪些网页不适合关键词搜寻 Google Search Console 第5張

六、Search Console说明

由于对双方有利,Google在Search Console说明中心提供很多robots.txt的说明文件,具体到完整语法和示例语句,有兴趣读者可以参考。

【Google Search Console】设定SEO robots.txt文件,告诉搜索引擎哪些网页不适合关键词搜寻 Google Search Console 第6張

七、遭到robots.txt封锁

到这里已经基本了解robots.txt文件,回到第一步骤涵盖范围中有个「排除」,有2976个之多,其中237个是被robots.txt文件挡掉的网站文件,可想见如果没有robots.txt的话会很麻烦。

以第一个被排除的网页为例:「https://www.b88104069.com/archives/category/journey」,这是分类页面的网页,参照第五步骤的「Disallow: /archives/category/」,robots.txt的实际作用和如何设定应该很清楚了。

【Google Search Console】设定SEO robots.txt文件,告诉搜索引擎哪些网页不适合关键词搜寻 Google Search Console 第7張

八、robots.txt的Disallow设定

终于到达本文最后步骤,依照Google Search Console的索引报告相对应修改robots.txt文件:「Disallow: /archives/date/」、「Disallow: /archives/author/」。

【Google Search Console】设定SEO robots.txt文件,告诉搜索引擎哪些网页不适合关键词搜寻 Google Search Console 第8張

这篇文章出现了几次Sitemap,从Google Search Console网站工具上便可知道SEO少不了Sitemap,以后在系列文章会再作介绍。另外在涵盖范围的报告中有很多类别,这篇文章是集中在robots.txt排除的部份,其他部份同样留后往后的系列文章。


有系統、全面性的學習Excel職場應用,:會計人的Excel小教室PressPlay頻道


當前文章分類:
Google Search Console