最近擔(dān)任一個(gè)大中型英文網(wǎng)站的第三方SEO顧問,因?yàn)槟承┰?,網(wǎng)站某部分的URL需要更改,出現(xiàn)幾十萬頁面級別的301和404。怎樣才能統(tǒng)計(jì)到新頁面被Google索引了沒?其實(shí)可以利用Google管理員工具,就可以統(tǒng)計(jì)到這些新頁面被Google索引了多少,并且還可以比較準(zhǔn)確地獲得網(wǎng)站整體在Google里的索引量。
以我的博客為例,直接site我的博客找到486條結(jié)果,而我的博客目前只有72篇文章,加上分類頁面也相差好幾百。原因是早段時(shí)間更換主機(jī),自己 大頭哈忘記上傳robots.txt,導(dǎo)致一些重復(fù)內(nèi)容頁面也收錄了,后來才上傳了robots.txt?,F(xiàn)在Google “site:yihuiblog.com”就會出現(xiàn)如下的收錄,只有網(wǎng)址沒有內(nèi)容(過一段時(shí)間才會刪除)。
網(wǎng)站會出現(xiàn)很多的問題,造成搜索引擎索引一些站長不想索引的頁面,包括常見的重復(fù)內(nèi)容頁面、無限循環(huán)頁面(平時(shí)我們還要盡量找出這些鏈接屏蔽掉和到Google管理員工具里刪除),大中型網(wǎng)站就更加普遍。但這些索引數(shù)據(jù)對SEO分析作用大么?不大,甚至等于0。
其實(shí)可以在Google管理員工具Sitemap模塊里得到“真實(shí)”的收錄數(shù)據(jù),這個(gè)“真實(shí)”取決于你想讓哪些頁面被Google索引。現(xiàn)在我想知 道我博客分別有多少文章和分類頁面被索引,首先我制作兩個(gè)網(wǎng)站地圖文件,一個(gè)包含所有文章地址(URL),一個(gè)包含所有分類地址,然后在管理員工具提交 sitemap地址。
Google管理員工具后臺直接提交比robots.txt寫入地圖地址要好,一方面更加靈活,一方面可以防止競爭對手獲取站點(diǎn)數(shù)據(jù)進(jìn)行研究。
因?yàn)檠菔?,追求簡單,這里我只制作了文本地圖文件,主流搜索引擎支持RSS、Atom、XML和文本等多種格式的地圖文件,Google支持一個(gè)站點(diǎn)地圖文件最多包含 5 萬個(gè)網(wǎng)址,壓縮前體積不得超過 50MB。
上圖顯示Google索引了一灰博客的72個(gè)文章頁面和22個(gè)分類頁面。按照需求拆分網(wǎng)站地圖文件,可以方便得到你想要的索引數(shù)據(jù),而且可以提交重疊的網(wǎng)址,例如同時(shí)提交網(wǎng)站最新更新產(chǎn)品的網(wǎng)頁地址和某分類下產(chǎn)品的網(wǎng)頁地址(存在重疊網(wǎng)址)。得到收錄數(shù)據(jù),就可以有針對性地進(jìn)行優(yōu)化。例如優(yōu)化長期不索引的頁面,等Google蜘蛛下次爬行后進(jìn)行索引,也可以與同期其他SEO數(shù)據(jù)進(jìn)行融合,得到更多對SEO有幫助的數(shù)據(jù)。其實(shí)Google在site的時(shí)候已經(jīng)明確Google管理員工具這一功能,只是很多人沒有進(jìn)一步利用。

利用好Google管理員工具,可以抽離出更多對SEO有用的數(shù)據(jù),以后再慢慢探討。Bing管理員工具也有很多實(shí)用的數(shù)據(jù),同樣不要錯(cuò)過哦。
原文地址:http://yihuiblog.com/a/299.html |