这是一个系列专题,我将对国内TOP互联网企业网站的seo实施情况停止分析和拆解,经过案例分析,让大师可以更轻易了解大厂SEO在产物设想的时辰,和普通站点的SEO的区分在那里。
明天挑选拆解方针是国内TOP1的在线音频分享平台喜马拉雅,分析的重点是解读喜马拉雅这类有亿级内容的站点,若何设想内容架构可以对搜索引擎和用户都具有高代价和友爱度。
在拆解之前,我们先来看看关于喜马拉雅的一些根基信息:
喜马拉雅
喜马拉雅是上海证大喜马拉雅收集科技有限公司于2013年3月上线的中国在线音频分享平台,采用UGC+PGC形式产出内容。平台供给了音频播放、下载、查找办事,也供给了用户本性化的小我保举办事。用户也可以申请成为主播上传音频文件。
由于采用UGC+PGC形式,喜马拉雅平台吸引了很多音频建造者,其中不乏着名的声优、配音师、着名主持人、原创音乐人和一些草根明星。
按照喜马拉雅官方数据,停止至2020年末,喜马拉雅音频总量已跨越2.8亿条。如此庞大的数据量,无疑是一个很是适于停止SEO优化的内容池。
明天我们就来对喜马拉雅的SEO停止一个具体的拆解和分析。
域名相关根基数据
主域名:http://ximalaya.com
域名建立时候:1999年01月31日
ALEXA天下排名:1,469
TOP全国排名:109
广播电视排名:1
喜马拉雅robots.txt文件剖析
`User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /so/`
经过度析喜马拉雅的robots.txt文件,可以发现:
喜马拉雅对一切搜索引擎都开放了抓取权限,没有制止特定爬虫。也就是说,他们以为网站内容是合适于提交给一切搜索引擎的,不管国内还是外洋的搜索引擎企业都可获得喜马拉雅的内容。
喜马拉雅在robots.txt文件中屏障了搜索引擎对JS和CSS抓取。
屏障JS和CSS,大如果十年前SEO的支流手法,阿谁时辰,不管是谷歌还是百度的爬虫,都没法对JS和CSS做出很好的剖析。是以屏障JS和CSS不单可以提升爬虫的抓取效力,同时还可以有用下降由于爬虫请求JS和CSS带来的额外办事器开销。
而在2020年的明天,各家蜘蛛对JS和CSS的了解有已经有了质的奔腾,出格是对于喜马拉雅这类大型内容站点来说,开放爬虫对JS和CSS的抓取,在现在的技术情况下,应是利大于弊。
我想大如果由于喜马拉雅已经很久没有人保护这个robots.txt文件了,所以才会一向在还robots.txt中屏障了蜘蛛对于JS和CSS的抓取。
假如想领会更多关于robots.txt中若何处置JS和CSS的最新概念,可以参考这个文章。
最初,在robots.txt文件中,喜马拉雅屏障了蜘蛛对/so/目录的拜候。
在分析的早期,我以为这个目录下,承载了由用户搜索行为自动天生的页面,而由于用户搜索行为不成控,所以未经内容考核的搜索成果页面虽然在SO这个目录下天生了,可是并不适于未经考核间接显现给搜索引擎,因此在robots.txt文件中,屏障了对/so/目录的拜候。
可是现实考试下来,不管在PC端还是M端,搜索成果天生的URL都是 http://ximalaya.com/search/[关键字] 这样的结构。是以喜马拉雅零丁屏障这个目录的真正目标,还有待厘清。
喜马拉雅的页面设想
喜马拉雅今朝还是相沿了较为传统的分站运营战略。为PC端和手机端,设想了分歧的前端展现款式,而没有采用自顺应的网站结构。这也是大量的从WEB1.0时代过来的互联网站点常用的方式。
用户用PC端拜候喜马拉雅首页,
域名是http://ximalaya.com
看到的页面是这样的:
而切换得手机端,域名会自动切换为http://m.ximalaya.com,而首页展现也酿成了下面这样:
而继续拜候喜马拉雅的分类详情页,专辑详情页,音频详情页,也城市发现,这些首要的页面,都逐一做了PC和移动两套页面,按照用户阅读器特征停止适配。
大师可以用PC端阅读器的隐身形式别离翻开下面的地址,观察同一个页面喜马拉雅在适配分歧终端时辰的设想差别:
喜马拉雅有声书分类详情页
PC地址:https://www.ximalaya.com/top/hotplay/youshengshu/
移动端地址:https://m.ximalaya.com/top/hotplay/youshengshu
喜马拉雅专辑详情页
PC地址:https://www.ximalaya.com/youshengshu/34013148/
移动端地址:https://m.ximalaya.com/youshengshu/34013148/
喜马拉雅音频详情页
PC地址:https://www.ximalaya.com/youshengshu/34013148/257754992
移动端地址:https://m.ximalaya.com/youshengshu/34013148/257754992
喜马拉雅这样设想页面的优点:
利于用户拜候,在PC端可以显现更丰富的内容,而在手机端整体交互体验更加符合操纵逻辑;
利于爬虫抓取内容,PC真个页面结构,在单一页面上,可以承载更多的链接和密度更大的信息,有益于爬虫的抓取;
利于排名,在PC端页面,可以摆设更多的关键词展现,以提升关键词的排名结果;
利于内链扶植,在PC真个页面,经过顶部导航、分类导航、面包屑层级、相关保举、页脚导航等多个模块,将站内的信息有机的连系和串接,打造了一个范围宏大,互联互通的内链机制,有用的传递了页面权重和流量。
可是这样的页面设想,也有其弱点,其中最大的弱点就是企业需要同时保护两套网站,任何的页面功用、内容的改版,都要做两次。无形中增加了企业的研发本钱。不外喜马拉雅作为一个从PC互联网时代起家的站点,最早就有PC真个页面,逐步又在PC真个根本上,进化出了iOS&安卓的App和M站。由于根柢在,所以用PC站和M站双系统同时保护,对于喜马拉雅这类企业来说,是公道也是可以负担的开销。
对于这类体量的企业来说,假如非需要,以及老板强力鞭策,是没有人有动力去做全站的自顺应适配的。这类工作做起交常常出力不奉迎,完全没有需要。
而假如你是一个已经在App上有了内容堆集,筹算搭建网站来获得SEO流量的企业,那末在利用经过经心设想的自顺应页面,来到达SEO友爱和用户友爱的平衡,同时也削减企业在WEB研发的上的开销是更加公道的计划。
而且在做自顺应页面设想的时辰,在UI上更多斟酌用户在移动真个阅读体验为首要优化偏向。
喜马拉雅的焦点内容构造逻辑
按照喜马拉雅官方信息,停止至2020年末,喜马拉雅音频总量已跨越2.8亿条。如此多的内容,假如仅仅是以sitemap大概索引列表的形式显现,让搜索引逐条抓取,抓取的效力和质量势必都不会好。
在面临海量内容的时辰,作为一个SEO从业者,我们可以从以下几个方面来思考:
若何保证内容的差别化
若何提升抓取效力
若何处理页面更新
若何自动、半自动的构造内容以发生更多页面
若何公道摆设内链,传递页面权重
若何设想拜候途径,给用户最优拜候体验
为了回答以上题目,在SEO中最常用的方式是经过公道的目录设备,将内容格式化为公道的网状结构,让爬虫可以经过网状结构的各个起点,尽能够多的拜候到更多的页面。
同时,公道的目录设备,不但可以处理抓取效力的题目,也可以经过不异内容的聚合和更新,让聚合页面在特定关键词上具有更好的权重,从而来带更好的搜索引擎排名和引流结果。
而且公道目录对内容停止构造,不止对SEO友爱,同时也对有益于用户拜候,可以明显提升用户在页面上的逗留时候。同时也有益于SEO提升内容收录速度,增加焦点关键词权重和排名。
基于以上缘由,我们可以发现喜马拉雅在PC站和M站,都采用了3+2(三套首要的分类目录+两套帮助分类目录)的形式,设想了五套分歧维度的内容分类目录结构来做SEO的信息整理。
喜马拉雅的三套首要分类目录是:
分类
分类是绝大大都内容站点SEO城市首先想到的目录逻辑。
在喜马拉雅,分类是他们构建、构造一切声音内容的底层目录结构,喜马拉雅的分类索引页面地址是https://www.ximalaya.com/category/
喜马拉雅的肆意一条声音,必定归属于某一个唯一分类。而归属的分类,就决议了声音内容在数据存储和URL上的目录层级法则。
在喜马拉雅,为了让每一条声音,都有自己归属的分类,所以他的分类是做的很细。
今朝喜马拉雅前台共有:
一级分类5个;
二级分类29个;
三级分类634个;
具体的分类细节,可以在经过下面这个PDF领会:
喜马拉雅前台分类List下载
在喜马拉雅的底层内容设想上,一条声音,只要有分类即可,至于说是几级分类并不强迫要求。这样设想分类法则的益处是大大下降了声音上传者大概运营职员挑选、编辑、治理内容和分类对应关系的难度。
在PC真个三级分类页,喜马拉雅又为用户供给了两套快速挑选器,来对分类下的内容,再做更细颗粒度的拆分。
示例页面:https://www.ximalaya.com/youshengshu/reci235/
其中一套挑选器是下图中红框部分,依照特定属性来停止拆分。
另一套挑选器是蓝色部分,是依照时候和热门维度来停止拆分。
用户每挑选一个挑选器,都天生了一个新的URL,这样就更有益于搜索引擎从时候、热门、属性等多种维度,收录该分类下的内容,并了解内容在站内的重要水平。
可是很是惋惜的是,在页面关键信息上,喜马拉雅并未对这些分歧的挑选器天生的页面,做本性化的页面Title和Description法则,致使这些聚合了大量高代价内容的页面,在搜索引擎上没法获得好的排名。
频道
频道在喜马拉雅的感化
分类,是一种数据结构,需要兼顾数据格式化整理和用户体验两个方面。而频道在喜马拉雅更加偏向办事于用户体验,帮助用户快速定位、挑选、框定某一范例内容的聚合方式。频道在喜马拉雅是以某一种主题(鬼故事、感情故事、侦察故事)大概某一种内容(小说、英语、历史)来对内容停止聚合的形式。同时,引入了频道属性,也对喜马拉雅的SEO有很是重要的感化。
喜马拉雅的频道,承载了音频类网站的==专辑+频道+TAG==的多重功用。
在内容结构设想上,频道和上面的分类有什么区分呢?
分类,是一种数据归类的法则,是一种数据库的概念,在喜马拉雅,每一条音频,都有且唯一一个分类。
而频道,是一种对音频重新组合的形式,一条音频,即可以不属于任何频道自力存在,也可以归属于多个频道。
比如《隋唐演义》,在喜马拉雅平分类归属于:
有声小说>有声书>历史
可是同时这套内容,用户经过下面这些频道都可以拜候到:
有声书频道
机谋频道
历史频道
小说频道
单人频道
两晋隋唐频道
男频小说频道
影视频道
这样分类+频道两重的内容构造方式,即保证了底层数据库的逻辑清楚,也能让用户在前台挑选内容有较好的体验。
喜马拉雅频道设想特点
首先,在喜马拉雅PC首页,可以看到一个频道汇总页的进口https://www.ximalaya.com/channel/7/
进入频道汇总页后,可以看到喜马拉雅在前台一共展现了26个一级频道和302个二级频道。
那末喜马拉雅能否是就只要这302个频道呢?稍微研讨一下我们就发现情况并不是这样的
频道的URL地址格式为:
https://www.ximalaya.com/channel/0-【数字】/
用SITE语句在谷歌查询,这个URL在谷歌的收录跨越11万条,也就意味着,喜马拉雅的有用频道数目跨越了11万条。
这么多频道,每一个频道,都是一个焦点关键词,经过这个关键词,将站内一切和该关键词内容有关的音频在页面上停止聚合并定期更新。这样的页面的在SEO上的权重和引流结果是很是出色的。
而且经过观察这些频道URL的搜索成果来看,对于热门频道的简介,有明显的野生保护痕迹。
野生保护主如果在关于频道的简介部分,野生保护频道简介,可以丰富频道内容,加入更多关键词曝光机遇,从而在搜索成果页和话题页,给用户更好的阅读体验,也有益于对应页面的排名提升。
不外从已有频道的保护成果来看,喜马拉雅的频道内容保护团队,在保护的频道信息的时辰,缺少SEO思绪,仅仅从用户体验层面动身,为用户供给频道简介相关内容。假如喜马拉雅可以在频道保护的SOP中,加入部分SEO的根本要求和培训,势必对喜马拉雅的频道页在搜索引擎上提升排名是很是有用,高投入产出比的一个优化战略。
喜马拉雅频道称号的来历:
如此数目庞大的频道数目,不太能够由运营职员逐一手工建立。那末这些频道称号是来自于那里呢?公道的猜测,频道称号数据应当是运修建立+用户考核建立的机制来获得。
运修建立频道:按照立即热门,建立话题并挑选内容显现。运修建立的话题,应当又可以细分为两种,一种是可以进入话题频道展现的的话题,一种是仅供聚合内容和搜索引擎展现的聚合话题。
用户建立频道:应当是来历于喜马拉雅的站内搜索器。当一个关键词在站内被用户屡次搜索,且这个关键词经运营考核以为不存在内容违规行为,便可以在背景将这个搜索关键词升格为频道。这样只要用户在站内有源源不竭的搜索行动,那末喜马拉雅就即是有了源源不竭的频道页面可供SEO利用。
同时,我们也可以公道猜测,对于由于用户搜索行为自动天生的频道,运营职员会按照频道被拜候的热度等属性挑选后定期保护,从当挑选高质量的频道,为其增加频道相关说明笔墨,大概将其加入到前台展现的频道列表中,来提升频道在搜索引擎上的权重以及用户的阅读体验。
排行榜
如上所述,喜马拉雅用分类处理了信息结构化的题目,用频道处理了信息构造和SEO关键词丰富度的题目。可是对于一个天天都有大量新增内容产出的TOP内容平台,若何进一步加速新内容的抓取和排名题目呢?
新内容的收录,很多人第一时候就会想到经过百度的快速收录工具API接口停止提交,可是这个权限并不是一切站点都可以申请获得的,同时该方式的时效性在现实操纵进程中,并不够理想。
是以处理新内容收录的时辰,采用自力的排行榜页面是一个不错的挑选。公道的构建排行榜逻辑,一方面可以加速新内容的收录速度,别的也能为站内偶然效性的顶流内容,搭建站内权重传递途径,提升内容排名结果。
喜马拉雅针对新品内容的排行榜地址以下:
https://www.ximalaya.com/top/new/
在这地址下,喜马拉雅又将新品内容进一步细分为有声书、相声评书、儿童、人文、历史、音乐、小我长大、外语、文娱、感情生活、贸易财经、头条、健康养生、广播剧、戏曲、科技、旅游、影视、时髦生活、汽车、二次元、少儿素养、教育培训、播客、职场等新品排行榜。每个排行榜展现新品最热的TOP100的内容。
新品榜单产物设想,告竣了以下结果:
为新品热门内容,丰富了蜘蛛进口,让搜索引擎收录更快;
同时也起到了内部权重传递的感化,让新上线的高品格内容,在搜索引擎端更短时候堆集更高权重;
新品榜单也可以指导用户更多的拜候新品内容页面,从而提升内容消耗时长;
可是在分析喜马拉雅的排行榜产物设想的时辰,也看到了该产物和上面提到的分类有类似的SEO缺点,喜马拉雅并未对分歧的排行榜页面供给怪异、有代价的Title和Description法则,很是惋惜。
从分类和排行榜页面的现状来看,喜马拉雅的SEO职员,应给没有介入到企业一切的WEB产物设想工作中去。致使有很多产物,在设想的时辰,产物司理只斟酌了对用户的体验托付,而没有斟酌对搜索引擎的体验交互,白白损失了大量的免费流量。
喜马拉雅的两套帮助内容构造逻辑
喜马拉雅除了利用以上三种内容构造逻辑外,还有两种帮助方式,用于构造内容和获得SEO流量。
将内容以用户聚合
在喜马拉雅,只如果注册用户,非论是公布内容的主播,还是消耗内容的用户,城市被喜马拉雅分派到一个带有主播拼音字母的URL,这里会聚集该用户在喜马拉雅平台简介、公布声音,以及建立专辑列表。
示例:https://m.ximalaya.com/zhubo/81878954/
这个产物设想,在SEO端,首要可以实现两方面的目标:
供给了又一种内容聚合的形式,经过用户小我Profile页,来为声音和专辑供给内链权重传递;
假如领会过早期的大家,微博,现在的领英、B站就会晓得,人名(网名)SEO一向以来,都是网站引流很是重要的一环。喜马拉雅坐拥这么多注册用户,以及这些用户和站内内容发生互动的数据,对获得更好的人名(网名)SEO具有自然的加分上风。
以用户搜索行为聚合
这里的搜索,是指用户在搜索框中,输入任何内容停止查询后,就会天生的一个URL,这个URL页面会展现包括用户输入关键词的专辑、声音、主播、广播的内容的聚合。
它的URL格式是:
https://www.ximalaya.com/search/[关键词]/
这个搜索成果,当页面堆集了一定的拜候热度后,就有能够被转化为上面提到的频道。
经过替换上面URL中的关键词部分,可以发现不管替换的关键词是什么,系统都可以几近实时的天生一个有关这个关键词内容的聚合页面。
可是这些页面一定不会在天生后,就提交给搜索引擎,我相信这里的用户搜索关键词,在喜马拉雅背景,一定要经过最少一次的考核机制,在确认搜索关键词不属于违禁词后,该搜索成果天生的页面,才会在网站前端出现,供搜索引擎抓取收录。
最初,我们可以来看一个例子,温习上面所提到的各类目录结构。我们以岳云鹏这个关键词来说,在喜马拉雅就有以下这几种典型的内容聚合索引页面。
将岳云鹏视作主播,则他在喜马拉雅的主播首页地址是:
https://www.ximalaya.com/zhubo/1412883/
将岳云鹏视作分类,地址为:
https://www.ximalaya.com/xiangsheng/reci1478/
将岳云鹏视作频道,地址为:
https://www.ximalaya.com/channel/9-1681/
将岳云鹏视作搜索关键词,地址为:
https://www.ximalaya.com/search/岳云鹏/
而这些页面,从各个维度上将岳云鹏相关的内容停止整合,索引,分类。从页面内容质量、内链权重、信息更新时效性等方面,都建立了一个丰富、立体的网状结构。这样的页面,相较于岳云鹏某一个专辑或一个相声节目标页面来说,在搜索引擎上,权重更高,排名更靠前,更轻易子啊用户搜索岳云鹏相关关键词的时辰,被优先展现出来。
以上,就是明天我对于喜马拉雅在内容构造上的SEO拆解的全数内容。经过明天的拆解,我们可以看到,大型网站在做SEO的时辰,不是说站点堆集了大量的内容,即可获得很好的流量。
对于大型站点的SEO,将根本的堆集流量标准化提交给搜索引擎停止收录,仅仅是SEO优化的第一步。
最初真正可以给站点来带更多流量的,是若何将根本声音内容公道的二次、三次甚至四次梳理并整合,汇总天生的页面带来的代价。
在这个进程中,除了需要知晓SEO的法则外,也要求SEO职员对全部网站产物、研发相关信息充足熟悉。在信息聚合的时辰,需要斟酌到页面关键词和页面内容的婚配,页面内容的时效性和信息平安,以及办事器的开销和响应效力的平衡等方面的,终极的SEO结果,会遭到上述一切的综合影响。
而且明天,我仅仅是从内容结构上停止了分析和梳理,这只是SEO中的一小部分,对于页面内容的天生、构造逻辑优化,URL和导航的设想,PC站和M站的针对性优化,HTML代码的重写,用户转化流程优化等课题,有机遇再找例子给大师做具体说明。
在此次拆解喜马拉雅SEO的进程中,也看到了一些喜马拉雅在SEO方面做的不够好,可以优化的内容,后续我将专门复兴一篇内容来分享。
感激阅读!
阅读全文
收起全文