Ian Wang
Index

← 文章 / Writing

· 18 min

当声音遇上互联网|Podcast播客发展的技术脉络

从"听觉掩蔽"到MP3,从RSS到算法推送,从亚当·库里的iPodder到Spotify的数亿美元军备竞赛——播客的诞生与演变,是一部技术、理想与商业力量交织的互联网传奇。

podcast · technology · mp3 · rss · history

这篇是 《科技慢半拍》EP107:当声音遇上互联网|Podcast播客发展的技术脉络 的文字稿整理版,将节目里的核心框架展开成完整的分析。

今天大家已经见见熟悉播客这种新兴的内容传播方式了,但是播客这种传播形式最早是怎么来的?它为什么会在互联网的早期就萌芽?又是靠哪些关键技术一步步演变成今天我们熟悉的模样?播客的历史不仅仅是一个媒介的故事,更是一段互联网自由精神与技术创新交织的历程。它让我们看到,信息传播从中心化到去中心化的过程,也折射出整个科技世界二十年来的变化。


播客的早期历史

故事的起点,其实比”播客”这个词本身要早得多。我们得把时间拨回到2000年,那时候,MP3播放器还是个新鲜玩意儿。有一家叫做i2Go的公司,就搞出了一个叫MyAudio2Go.com的服务。这个服务是干嘛的呢?它允许用户去下载新闻故事,然后放到自己的电脑或者MP3播放器里听。一个可以点播、可以随身携带的音频节目。可惜的是,这个想法有点太超前了,生不逢时。这个服务只撑了大概一年,随着i2Go公司在2001年倒闭,也就烟消云散了。

这个点播音频的火种,虽然暂时熄灭了,但需求其实一直都在。直到2004年2月,一位叫本·哈默斯利的英国记者,在给卫报写文章的时候,脑洞大开地把当时最火的数码产品”iPod”和传统的”broadcast”广播结合起来,创造了一个全新的词——“Podcasting”。这个词就像一道闪电,瞬间照亮了之前那个模糊不清的领域。它给了这种新兴的传播形式一个响亮、易于理解的身份标识。换句话说,MyAudio2Go证明了有人想”吃”这种东西,而哈默斯利则是给这道”菜”起了个好名字,让大家知道该怎么称呼它、讨论它。

有了名字,接下来就需要工具来将这个概念变为现实。就在”Podcasting”这个词刚刚诞生的时候,两位关键人物登场了。一位是前MTV的主持人亚当·库里(Adam Curry),另一位是软件开发者戴夫·温纳(Dave Winer)。戴夫·温纳在2000年左右,扩展了RSS的规范,也就是RSS 2.0。他增加了enclosure标签,使得RSS能包含音频或视频文件的链接。很快,亚当·库里看到了这项技术的潜力,并提出希望用它来自动分发广播节目。于是他与温纳在技术上进行了合作,搞出了一个叫”iPodder”的小程序。它能自动去网上把你订阅的音频节目下载下来,然后同步到你的iPod里。整个过程全自动,极大地简化了用户的操作。在这之前,你可能得手动下载、手动传输,非常麻烦。iPodder的出现,就好像给你配了个私人音频管家,把技术门槛一下子给拉低了,让普通人也能轻松玩转播客。

亚当·库里还是个天生的布道者。2004年8月,他推出了自己的播客节目,叫Daily Source Code(每日源码)。在这个节目里,他记录自己的生活,聊聊新闻,但更重要的是,他一直在积极地探讨和推广播客这个新事物。他用自己的行动,向世界展示了播客到底能做什么,所以亚当·库里也经常被人称做是播客教父(Podfather)。

没过多久,在同年的9月,一个叫丹尼·格雷瓜尔(Danny Gregoire)的人在一个开发者邮件组里,正式提议使用”Podcast”这个词,亚当·库里立刻就采纳了,并且在他的节目里大力推广。就这样,“Podcast”这个词在最早的音频博客圈子里迅速流行开来。

尽管这些先驱们用技术和热情点燃了第一把火,但火要烧成燎原之势,光靠小圈子的努力是不够的。真正让播客走向大众的,是一个巨头的入场。这个巨头就是苹果。2005年,是播客历史上决定性的一年。在这一年的6月,苹果公司发布了iTunes 4.9版本。这个版本里,藏着一个改变游戏规则的功能——原生支持播客。意味着从这一刻起,全球数以亿计的iTunes和iPod用户,不再需要去网上找那些有点复杂的第三方软件了。他们可以直接在iTunes商店里,像买音乐一样,搜索、订阅、下载和管理播客节目。

苹果的这个举动影响深远。它不仅仅是提供了一个分发渠道,更重要的是,它确立了一种”平台即入口”的模式。这种模式,后来深刻地影响了整个数字内容产业,无论是后来的App Store,还是今天的各种流媒体服务,我们都能看到它的影子。内容创作者获得了接触海量用户的机会,但与此同时,也开始变得依赖于平台的规则、算法和推荐机制。

随着大众市场的打开,播客的内容生态也开始蓬勃发展。它主要由三股力量构成:充满激情和创造力的独立创作者;像NPR、BBC这样的传统公共广播电台;以及最早的那批科技爱好者。这种由独立个人和公共机构共同构建的生态,奠定了播客早期那种”去中心化”、自由表达的基因。而就在同一年,2005年,美国新牛津词典把”Podcast”评选为当年的年度词汇,从文化层面上正式确认了播客的地位。


MP3是播客诞生的技术基础

Podcast 的形成避免不开三类技术的基础和积累:第一个是数字音频技术,例如 MP3;第二个是数字广播技术,特别是在前互联网时代;第三个就是互联网的订阅和传播技术,例如 RSS 的内容分发。我们先从MP3说起。

MP3故事的起点,其实和音乐无关,而是和我们耳朵的一个”缺陷”有关。这个缺陷,科学家称之为”听觉掩蔽”。简单来说,就是当一个强烈的声音出现时,我们的耳朵会自动忽略掉旁边那些微弱的声音。这个现象早在1894年就被美国物理学家阿尔弗雷德·梅耶发现了。你可以把它想象成这样一个场景:你站在路边,能清楚地听到鸟叫声,但突然一辆大卡车轰鸣而过,在那一瞬间,鸟叫声就好像消失了一样。其实鸟还在叫,只是你的大脑把注意力全部给了卡车的声音,自动”屏蔽”了那个更弱的信号。

这个发现,在长达半个多世纪里都只是一个有趣的科学现象。直到20世纪中后期,随着计算机技术的发展,一些工程师开始琢磨:既然人的耳朵会自动忽略掉一些声音,那我们能不能在录音的时候,就干脆把这些”反正也听不见”的声音信息给删掉呢?这样一来,音频文件的体积不就能大大减小了吗?这个想法,就是所谓的”感知编码”。

这个想法最早的应用领域,不是音乐,而是语音通话。在那个长途电话费还很贵的年代,能用更少的带宽传输清晰的语音,那可是个大生意。所以在1966年,日本的两位研究员,板仓文忠和斋藤修三,就提出了线性预测编码,也就是LPC。后来到了70年代末,大名鼎鼎的贝尔实验室,也基于这个思路,开发出了一套利用人耳掩蔽特性的心理声学编码算法。他们证明了,利用人类感知的局限去压缩数据,这条路是走得通的。

然而,仅仅理解了人类的听觉局限还不够,将这种理解转化为高效的数字压缩,还需要强大的数学工具。这就引出了一个叫做”离散余弦变换”,也就是DCT的东西。这个听起来很复杂的数学工具,是1972年由一位叫纳西尔·艾哈迈德(Nasir Ahmed)的科学家提出的。你可以把它想象成一个声音的”棱镜”。我们知道,一道白光通过棱镜,会被分解成红橙黄绿青蓝紫七种颜色的光。而DCT呢,就能把一段复杂的、混合在一起的音频信号,精准地分解成一个个不同频率的”音符”。

一旦声音被分解开,算法可以清晰地”看到”哪个频率的声音能量强,哪个频率的声音能量弱。再结合”听觉掩蔽”原理,那些被强大声音掩盖掉的微弱声音,就可以被识别出来并直接删除。后来在1987年,几位科学家又在DCT的基础上,搞出了一个更牛的升级版,叫做MDCT,改进型离散余弦变换。这个MDCT,就是后来MP3算法真正的核心。可以说,没有MDCT,就没有我们后来熟知的MP3。它的影响力也远远超出了MP3本身,后来几乎所有的主流音视频编码标准,比如AAC,背后都有MDCT的影子。

技术本身是冰冷的。真正让它活起来的,是人。这位关键人物,就是卡尔海因茨·布兰登堡(Karlheinz Brandenburg)。他后来被尊称为”MP3之父”。上世纪80年代,当布兰登堡还是德国一所大学的博士生时,他就迷上了数字音乐压缩。他的目标非常明确,就是要把一首歌的体积,压缩到原来的十二分之一,同时还要让它听起来和CD差不多。

这是一个在当时看来几乎不可能完成的任务。布兰登堡和他的团队,夜以继日地在实验室里调试算法。在这个过程中,有一首歌扮演了至关重要的角色,就是美国歌手苏珊·维加那首清唱的Tom’s Diner。为什么是这首歌?因为清唱的人声,没有任何乐器干扰,频谱又很宽,对压缩算法来说是个巨大的考验。任何一点微小的失真,都会在纯净的人声中暴露无遗。

布兰登堡把这首歌的CD翻来覆去地听了上千遍。每一次改进算法,他都会用这首歌来测试。在早期的版本里,维加的声音听起来非常奇怪,很不自然。布兰登堡就不断调整,直到压缩后的声音听起来足够真实、温暖。可以说,是这首歌,帮助他把冰冷的算法,调教得有了”人性”。因为这个贡献,布兰登堡后来开玩笑地称苏珊·维加为”MP3之母”。

布兰登堡所在的德国弗劳恩霍夫研究所,正式开发出了MPEG-1音频层III标准,也就是我们说的MP3。1994年,他们发布了第一个MP3编码软件。到了1995年,他们做了两件大事:正式把文件扩展名定为”.mp3”;发布了世界上第一个可以实时播放MP3的软件——WinPlay3。

但真正点燃这把火的,还有一个意想不到的角色——一个黑客。当时,一个代号叫SoloH的黑客,在网上找到了MP3官方参考实现的源代码。他觉得这东西用起来太复杂了,于是就自己动手,给它套上了一个图形界面,让普通用户只需要点几下鼠标,就能把CD里的歌,轻松转换成MP3文件。然后,他把这个软件传到了互联网上。这一下,潘多拉的魔盒就被打开了。原本复杂的技术,瞬间变得”傻瓜化”,MP3的普及之路,被大大加速了。

时间来到90年代末,1999年,一个叫Napster的软件横空出世,它让全世界的网民可以非常方便地互相分享自己电脑里的MP3文件。唱片公司认为这是赤裸裸的”盗版”,发动了猛烈的法律攻击,最终把Napster告到关门。但大门一旦打开,就再也关不上了。Napster虽然倒下了,但它逼迫着整个传统音乐行业,不得不去正视数字化这个不可逆转的趋势。正是这场大战,最终催生了后来像iTunes这样的合法数字音乐商店,以及Spotify这样的流媒体服务。MP3开启的,不仅仅是一个文件格式,而是一个全新的”数字媒体”时代。


前互联网时代的数字广播

到此我们已经拥有了 MP3 这个声音的数字载体。既然被叫做”播客”,那么它就需要被传播。这就离不开第二个基础技术——数字广播,特别是在那个互联网尚未普及的时代。

前互联网时代的数字广播,最核心的一点,是要把它和今天的互联网广播彻底分开。互联网广播是走互联网协议传输的,但数字广播的根基,依然是无线电波——和你家车里那个FM/AM收音机一样,通过无线电频谱来发送和接收信号。

数字广播的革命性,不在于换了一条全新的赛道,而是在原有的赛道上,换了一辆更快的车。它依然使用无线电波这个介质,继承了传统广播那种覆盖范围广、信号稳定的优点。但同时,它用数字信号取代了模拟信号,音质有了质的飞跃,还能附带一些文字信息。这种”在传统介质上实现数字升级”的思路,其实反映了那个时代工程师们的一种普遍智慧——在互联网还是个稀罕物的年代,最现实的办法不是推倒重来,而是在现有的成熟基础设施上做文章。

在众多数字广播标准里,为什么偏偏是欧洲的DAB(数字音频广播)成了全球最有影响力的那一个?

DAB的故事得追溯到上世纪八九十年代的欧洲,代号”尤里卡147”。最初是西德和法国的研究机构牵头,后来像英国的BBC这种广播巨头也纷纷加入。他们的目标清单写得非常清楚:接收性能要比FM好,音质要达到CD级别,频谱利用效率要高,发射功率要低,而且还得支持文字、交通信息甚至图像传输这些附加功能。

这其中,有两个技术选择特别关键,一个是MP2音频编码,另一个,就是一种叫做OFDM的调制技术。OFDM,也就是正交频分复用技术,这不仅仅是一个技术选择,更是一个极其有远见的决定。因为后来,OFDM成了我们今天几乎所有现代宽带数字通信系统的基石——你现在用的Wi-Fi,你的4G、5G手机信号,核心的传输方案都离不开它。

在欧洲,DAB+取得了巨大的成功。到2023年,光是在德国家庭和汽车里,DAB+收音机的数量就达到了2830万台,德国有些州已经开始计划彻底关停FM广播。瑞士计划在2026年底前跟FM说再见,DAB+的听众比例已经超过了40%。

然而,我们把视线转向中国,情况就完全不同了。中国也有自己的数字广播标准,叫CDR,2018年也拿到了国际电信联盟的认可。但实际的普及率几乎为零——接收率太低,支持的设备太少,建网络的成本又太高。更要命的是,很多车企觉得,与其费劲去支持一个没人用的CDR,还不如直接内置网络电台来得方便。


互联网时代的内容订阅

虽然中国的 CDR 没有发展起来,但是我们却完全赶上了互联网发展的大浪潮。互联网时代的内容传播有其自身的发展规律,这就是第三个基础技术——RSS 内容订阅。

故事的起点,我们通常会定位在 2000 年左右。当时,一位叫 Tristan Louis 的人提出了一个想法,怎么把声音和视频也塞进 RSS 订阅里。这个想法很快被 RSS 格式的开发者之一,戴夫·温纳给实现了。这也就是今天播客技术的雏形。但其实,RSS 的诞生比这还要早。大名鼎鼎的网景公司,就已经为他们的门户网站发布了第一个版本的 RSS。

而最关键的一点是,这个最早的 RSS,是叫”RDF Site Summary”,基于一个叫做 RDF 的东西——“资源描述框架”。在它眼里,每一条新闻,都不是一个简单的标题和链接,而是一个需要被详细描述的”资源”。这说明 RSS 最初的设想,根本不是为了”简单”,而是想用一种非常结构化的方式,来组织和分发网络上的信息。

RDF 是当时万维网联盟 W3C 搞出来的一个标准,目的是要建立一个”厂商中立、跟操作系统无关的元数据系统”。而这个想法,又源自于一个更早、更有争议的项目,叫做 PICS,全称是”互联网内容选择平台”。

你可以把 PICS 想象成食品包装上的营养成分表。在 90 年代,互联网内容开始爆炸,很多人特别是家长,开始担心孩子们会在网上看到各种暴力、色情这些不适宜的内容。PICS 就是为了解决这个问题而生的——给每个网页都打上一个标签,标明这个网页是否含有暴力、粗口、色情等等,让浏览器可以根据标签来决定要不要让用户访问。

听起来是不是很像我们今天的”青少年模式”?但这个美好的设想,很快就遇到了现实的骨感。首先,它是自愿的——哪个网站会主动给自己贴上”我这里有不良内容”的标签呢?其次,标准很难统一,不同国家、不同文化对于”不良内容”的定义天差地别。最后,还有人担心,这种机制可能会被滥用,成为一种大规模审查的工具。所以,PICS 很快就失败了,到了 2000 年后就基本被弃用了。

而RDF 的思想来源也不仅仅是 PICS 的失败。在它诞生之前,还有一个叫做 MCF(元内容框架)的先驱,最早由苹果公司在 1995 年提出,后来交给了网景去推广。MCF 不仅能记录一个网页是什么,更重要的是,它还能描述”信息和信息之间的关系”。早在那个时候,互联网的先驱们就已经意识到了:数据本身不重要,数据之间的”关系”和”结构”才重要。MCF 的这些思想,最终都被 W3C 吸收,成为了1999年正式推出的 RDF 框架的核心部分。

然而,RDF 太复杂了,太学术了,对于普通的网站开发者和用户来说,门槛太高。为了让”订阅”的理念能真正普及开来,戴夫·温纳推动的 RSS 2.0 版本做出了一个非常务实的选择:决定和复杂的 RDF 分道扬镳,采用更简单、更直接的 XML 格式。从此以后,RSS 和 RDF 就走向了两条完全不同的路。RDF 继续在语义网、知识图谱这些高精尖领域深耕,而 RSS 则彻底放下了身段,保留了最核心的订阅功能,它的名字也逐渐被大家理解为”Really Simple Syndication”,也就是”真的很简单的订阅”。

它的工作原理确实非常简单:一个网站提供一个特殊格式的 XML 文件,里面列着最新文章的标题、摘要、发布时间和链接。你只需要一个 RSS 阅读器,把这个网站的 RSS 地址添加进去,阅读器就会像你的邮箱一样,自动去检查更新,把所有你订阅的网站的新内容,全都抓取过来,集中在一个地方让你阅读。

这就像是为你自己定制的一份”合订本”。它的价值是显而易见的:高效,你不用再一个个网站去打开刷新;去中心化,你订阅谁,完全由你自己决定,没有任何平台可以控制你的信息流;最重要的是,它无比透明,没有算法推荐,没有信息茧房。RSS 并没有消亡,它只是退守到了一个更小众,但更忠实的圈子里。更重要的是,我们今天听的播客,这种越来越流行的音频内容,它的整个分发体系,至今仍然是建立在 RSS 技术之上的。


信息传播方式之争

我们是如何从主动”订阅”信息,一步步走到了今天被动”推送”的时代。这背后不只是技术的更迭,更是一场关于权力、商业和我们思维方式的无声革命。

“订阅模式”,英文叫Pull,就是”拉”的意思。你可以把它想象成你去报刊亭,主动挑选你想看的报纸和杂志。在互联网上,这就对应着我们早年用的RSS阅读器、邮件列表,或者干脆就是把喜欢的网站放进收藏夹。你看什么,什么时候看,完全由你自己决定,你对自己的信息流有绝对的控制权。

“推送模式”,英文叫Push,是”推”。这就好比你坐在家里,一个神秘的送报员根据他对你的了解,不断地把报纸从门缝里塞进来。你不用出门,但你看什么,就由他决定了。在今天的互联网上,这就是我们刷的短视频信息流、新闻App的”猜你喜欢”。我们成了被动的接收者,平台成了那个决定我们看什么的角色。

这种转变,表面上看好像只是更方便了,但它的核心,其实是一场信息权力的转移。过去,权力在我们用户自己手里,我们是主动的探索者。而现在,权力交到了平台手上,我们变成了被动的消费者。

这背后其实是一场技术与商业的”合谋”。在订阅模式下,你看完文章就走了,平台很难在你身上赚钱,广告投放效率非常低。但是在推送模式下,平台掌握了信息分发的大权。它能决定让你看什么,不看什么,就能在信息流里精准地插入广告,流量变现的能力被发挥到了极致。

技术的发展,恰好完美地迎合了平台的商业利益。平台很快就发现,通过算法不断优化推送内容,可以让用户在App里停留的时间越来越长。而用户停留的时间越长,平台能收集的数据就越多,能卖的广告也就越多。这形成了一个强大的正反馈循环:平台越懂你,你就越沉迷;你越沉迷,平台就越懂你。

推送模式的本质,是”争夺注意力”。平台的算法,它的首要目标是最大化你的停留时间,而不是提升信息的质量。所以,那些最能刺激情绪、最耸人听闻、最简单直白的内容,往往传播得最广。这直接导致了我们认知方式的变化。

如果说欧美的播客平台大多是订阅制的,那么中国国内的播客平台大多是订阅加推送的混合模式。国内的播客平台更像我们熟悉的那些短视频 App,已经不满足于只当一个”内容仓库”了,它想成为一个积极的”内容策展人”和”分发中心”。

因为国内的播客用户大多都是从短视频和音乐平台迁移过来的,这些用户对 RSS 那种需要自己动手、主动去搜索和订阅的模式,是比较陌生的。他们的使用习惯仍然是,一旦打开 App,平台就会源源不断地给我推荐可能喜欢的东西。这种混合模式,恰好揭示了一场持续的拉锯战:一边是用户想要夺回信息控制权的本能需求,另一边是平台对流量和注意力的无尽渴望。


播客行业的演进

从 2005 年到今天,整个播客行业到底是如何兴起的呢?

很多人可能觉得播客一直就在那儿,但其实,它真正从一个”小圈子玩具”变成一个能跟影视剧掰手腕的主流媒体,关键的转折点,就发生在2014年。那一年,一个节目的出现,彻底改变了游戏规则。

这个节目,就是美国公共广播电台NPR出品的真实犯罪调查类播客——Serial。2014年,Serial第一季横空出世,这绝对是播客历史上里程碑式的事件。它讲的是一个真实的悬案,但用的却是电影一般的叙事手法,一集一集地铺陈线索,制造悬念。结果就是,全世界数百万听众完全被迷住了,每周都焦急地等待更新。它也成了历史上最快达到500万下载量的播客。

Serial的成功,它的意义远不止是火了一个节目。它第一次真正证明了,播客这种形式可以超越那种轻松的聊天或者传统的广播,通过深度的叙事和高品质的制作,去吸引并留住海量的听众。它打破了播客只是”小众爱好”的刻板印象,为整个行业后来的商业化和主流化铺平了道路。

Serial引爆市场之后,播客行业就迅速从一个内容创作者的乐园,变成了资本的宠儿。风险投资开始大笔大笔地涌入播客制作公司和内容平台。也正是在这个时期,2014年,Spotify也悄悄地开始涉足播客领域,预示了流媒体巨头即将登场。

从2019年开始,播客行业就进入了一场真金白银的”军备竞赛”。而这场竞赛里,最激进、最凶猛的玩家,就是Spotify,斥资数亿美元,签下了像乔·罗根这样拥有巨大流量的独家播客。同时,它还疯狂收购,把Gimlet Media、Parcast这些顶级的播客制作公司,还有像Anchor这样能让普通人轻松制作播客的技术平台,全都收入囊中。当然,苹果作为播客最早的推广者,也不可能坐以待毙,再加上亚马逊、谷歌这些科技巨头也纷纷下场。

这场战争带来的一个直接后果,就是播客内容的制作标准被彻底改变了。过去那种”一个人一支麦克风”就能搞定一切的草根时代,正在迅速远去。大型媒体公司、影视工作室,甚至是明星和品牌,都带着专业的团队和高额的预算入场。播客也开始成为一个IP的衍生品,比如一部热门美剧播完,官方马上就推出一个配套的幕后播客。

这个发展路径,如果你熟悉互联网视频行业的话,会觉得惊人地相似。不管是Netflix还是YouTube,它们一开始都依赖用户生成内容(UGC),但随着竞争越来越激烈,最后都走向了烧钱做自制剧、买独家版权的道路(PGC)。播客行业,其实就是在重演这一幕。

不过,故事并不只有巨头之间的血战。就在这场军备竞赛打得火热的时候,播客这颗种子,也飘向了世界各地,并且在不同的土壤里,开出了完全不一样的花。尤其是在中国,我们看到了一个非常成熟和丰富的本土生态正在形成。像喜马拉雅、小宇宙这样的平台崛起,上面涌现出了大量覆盖文化、商业、科技、生活方式等各种垂直领域的中文播客。

播客的发展史,确实是一部从技术爱好者的小众玩物,到凭借内容魅力破圈,再到资本巨头驱动下的专业化与全球化演进史。它不仅仅是音频内容的载体,更是一个持续自我迭代、不断突破边界的数字媒体生态系统。在这个系统中,内容、技术、平台和听众之间形成了一个复杂的共生关系,共同塑造着这个声音世界的未来。

那么,下一个十年,当我们再次回望播客,它又将以何种姿态,继续讲述它自己的故事?