当声音遇上互联网｜Podcast播客发展的技术脉络

这篇是《科技慢半拍》EP107：当声音遇上互联网｜Podcast播客发展的技术脉络的文字稿整理版，将节目里的核心框架展开成完整的分析。

今天大家已经见见熟悉播客这种新兴的内容传播方式了，但是播客这种传播形式最早是怎么来的？它为什么会在互联网的早期就萌芽？又是靠哪些关键技术一步步演变成今天我们熟悉的模样？播客的历史不仅仅是一个媒介的故事，更是一段互联网自由精神与技术创新交织的历程。它让我们看到，信息传播从中心化到去中心化的过程，也折射出整个科技世界二十年来的变化。

播客的早期历史

故事的起点，其实比”播客”这个词本身要早得多。我们得把时间拨回到2000年，那时候，MP3播放器还是个新鲜玩意儿。有一家叫做i2Go的公司，就搞出了一个叫MyAudio2Go.com的服务。这个服务是干嘛的呢？它允许用户去下载新闻故事，然后放到自己的电脑或者MP3播放器里听。一个可以点播、可以随身携带的音频节目。可惜的是，这个想法有点太超前了，生不逢时。这个服务只撑了大概一年，随着i2Go公司在2001年倒闭，也就烟消云散了。

这个点播音频的火种，虽然暂时熄灭了，但需求其实一直都在。直到2004年2月，一位叫本·哈默斯利的英国记者，在给卫报写文章的时候，脑洞大开地把当时最火的数码产品”iPod”和传统的”broadcast”广播结合起来，创造了一个全新的词——“Podcasting”。这个词就像一道闪电，瞬间照亮了之前那个模糊不清的领域。它给了这种新兴的传播形式一个响亮、易于理解的身份标识。换句话说，MyAudio2Go证明了有人想”吃”这种东西，而哈默斯利则是给这道”菜”起了个好名字，让大家知道该怎么称呼它、讨论它。

有了名字，接下来就需要工具来将这个概念变为现实。就在”Podcasting”这个词刚刚诞生的时候，两位关键人物登场了。一位是前MTV的主持人亚当·库里（Adam Curry），另一位是软件开发者戴夫·温纳（Dave Winer）。戴夫·温纳在2000年左右，扩展了RSS的规范，也就是RSS 2.0。他增加了enclosure标签，使得RSS能包含音频或视频文件的链接。很快，亚当·库里看到了这项技术的潜力，并提出希望用它来自动分发广播节目。于是他与温纳在技术上进行了合作，搞出了一个叫”iPodder”的小程序。它能自动去网上把你订阅的音频节目下载下来，然后同步到你的iPod里。整个过程全自动，极大地简化了用户的操作。在这之前，你可能得手动下载、手动传输，非常麻烦。iPodder的出现，就好像给你配了个私人音频管家，把技术门槛一下子给拉低了，让普通人也能轻松玩转播客。

亚当·库里还是个天生的布道者。2004年8月，他推出了自己的播客节目，叫Daily Source Code（每日源码）。在这个节目里，他记录自己的生活，聊聊新闻，但更重要的是，他一直在积极地探讨和推广播客这个新事物。他用自己的行动，向世界展示了播客到底能做什么，所以亚当·库里也经常被人称做是播客教父（Podfather）。

没过多久，在同年的9月，一个叫丹尼·格雷瓜尔（Danny Gregoire）的人在一个开发者邮件组里，正式提议使用”Podcast”这个词，亚当·库里立刻就采纳了，并且在他的节目里大力推广。就这样，“Podcast”这个词在最早的音频博客圈子里迅速流行开来。

尽管这些先驱们用技术和热情点燃了第一把火，但火要烧成燎原之势，光靠小圈子的努力是不够的。真正让播客走向大众的，是一个巨头的入场。这个巨头就是苹果。2005年，是播客历史上决定性的一年。在这一年的6月，苹果公司发布了iTunes 4.9版本。这个版本里，藏着一个改变游戏规则的功能——原生支持播客。意味着从这一刻起，全球数以亿计的iTunes和iPod用户，不再需要去网上找那些有点复杂的第三方软件了。他们可以直接在iTunes商店里，像买音乐一样，搜索、订阅、下载和管理播客节目。

苹果的这个举动影响深远。它不仅仅是提供了一个分发渠道，更重要的是，它确立了一种”平台即入口”的模式。这种模式，后来深刻地影响了整个数字内容产业，无论是后来的App Store，还是今天的各种流媒体服务，我们都能看到它的影子。内容创作者获得了接触海量用户的机会，但与此同时，也开始变得依赖于平台的规则、算法和推荐机制。

随着大众市场的打开，播客的内容生态也开始蓬勃发展。它主要由三股力量构成：充满激情和创造力的独立创作者；像NPR、BBC这样的传统公共广播电台；以及最早的那批科技爱好者。这种由独立个人和公共机构共同构建的生态，奠定了播客早期那种”去中心化”、自由表达的基因。而就在同一年，2005年，美国新牛津词典把”Podcast”评选为当年的年度词汇，从文化层面上正式确认了播客的地位。

MP3是播客诞生的技术基础

Podcast 的形成避免不开三类技术的基础和积累：第一个是数字音频技术，例如 MP3；第二个是数字广播技术，特别是在前互联网时代；第三个就是互联网的订阅和传播技术，例如 RSS 的内容分发。我们先从MP3说起。

MP3故事的起点，其实和音乐无关，而是和我们耳朵的一个”缺陷”有关。这个缺陷，科学家称之为”听觉掩蔽”。简单来说，就是当一个强烈的声音出现时，我们的耳朵会自动忽略掉旁边那些微弱的声音。这个现象早在1894年就被美国物理学家阿尔弗雷德·梅耶发现了。你可以把它想象成这样一个场景：你站在路边，能清楚地听到鸟叫声，但突然一辆大卡车轰鸣而过，在那一瞬间，鸟叫声就好像消失了一样。其实鸟还在叫，只是你的大脑把注意力全部给了卡车的声音，自动”屏蔽”了那个更弱的信号。

这个发现，在长达半个多世纪里都只是一个有趣的科学现象。直到20世纪中后期，随着计算机技术的发展，一些工程师开始琢磨：既然人的耳朵会自动忽略掉一些声音，那我们能不能在录音的时候，就干脆把这些”反正也听不见”的声音信息给删掉呢？这样一来，音频文件的体积不就能大大减小了吗？这个想法，就是所谓的”感知编码”。

这个想法最早的应用领域，不是音乐，而是语音通话。在那个长途电话费还很贵的年代，能用更少的带宽传输清晰的语音，那可是个大生意。所以在1966年，日本的两位研究员，板仓文忠和斋藤修三，就提出了线性预测编码，也就是LPC。后来到了70年代末，大名鼎鼎的贝尔实验室，也基于这个思路，开发出了一套利用人耳掩蔽特性的心理声学编码算法。他们证明了，利用人类感知的局限去压缩数据，这条路是走得通的。

然而，仅仅理解了人类的听觉局限还不够，将这种理解转化为高效的数字压缩，还需要强大的数学工具。这就引出了一个叫做”离散余弦变换”，也就是DCT的东西。这个听起来很复杂的数学工具，是1972年由一位叫纳西尔·艾哈迈德（Nasir Ahmed）的科学家提出的。你可以把它想象成一个声音的”棱镜”。我们知道，一道白光通过棱镜，会被分解成红橙黄绿青蓝紫七种颜色的光。而DCT呢，就能把一段复杂的、混合在一起的音频信号，精准地分解成一个个不同频率的”音符”。

一旦声音被分解开，算法可以清晰地”看到”哪个频率的声音能量强，哪个频率的声音能量弱。再结合”听觉掩蔽”原理，那些被强大声音掩盖掉的微弱声音，就可以被识别出来并直接删除。后来在1987年，几位科学家又在DCT的基础上，搞出了一个更牛的升级版，叫做MDCT，改进型离散余弦变换。这个MDCT，就是后来MP3算法真正的核心。可以说，没有MDCT，就没有我们后来熟知的MP3。它的影响力也远远超出了MP3本身，后来几乎所有的主流音视频编码标准，比如AAC，背后都有MDCT的影子。

技术本身是冰冷的。真正让它活起来的，是人。这位关键人物，就是卡尔海因茨·布兰登堡（Karlheinz Brandenburg）。他后来被尊称为”MP3之父”。上世纪80年代，当布兰登堡还是德国一所大学的博士生时，他就迷上了数字音乐压缩。他的目标非常明确，就是要把一首歌的体积，压缩到原来的十二分之一，同时还要让它听起来和CD差不多。

这是一个在当时看来几乎不可能完成的任务。布兰登堡和他的团队，夜以继日地在实验室里调试算法。在这个过程中，有一首歌扮演了至关重要的角色，就是美国歌手苏珊·维加那首清唱的Tom’s Diner。为什么是这首歌？因为清唱的人声，没有任何乐器干扰，频谱又很宽，对压缩算法来说是个巨大的考验。任何一点微小的失真，都会在纯净的人声中暴露无遗。

布兰登堡把这首歌的CD翻来覆去地听了上千遍。每一次改进算法，他都会用这首歌来测试。在早期的版本里，维加的声音听起来非常奇怪，很不自然。布兰登堡就不断调整，直到压缩后的声音听起来足够真实、温暖。可以说，是这首歌，帮助他把冰冷的算法，调教得有了”人性”。因为这个贡献，布兰登堡后来开玩笑地称苏珊·维加为”MP3之母”。

布兰登堡所在的德国弗劳恩霍夫研究所，正式开发出了MPEG-1音频层III标准，也就是我们说的MP3。1994年，他们发布了第一个MP3编码软件。到了1995年，他们做了两件大事：正式把文件扩展名定为”.mp3”；发布了世界上第一个可以实时播放MP3的软件——WinPlay3。

但真正点燃这把火的，还有一个意想不到的角色——一个黑客。当时，一个代号叫SoloH的黑客，在网上找到了MP3官方参考实现的源代码。他觉得这东西用起来太复杂了，于是就自己动手，给它套上了一个图形界面，让普通用户只需要点几下鼠标，就能把CD里的歌，轻松转换成MP3文件。然后，他把这个软件传到了互联网上。这一下，潘多拉的魔盒就被打开了。原本复杂的技术，瞬间变得”傻瓜化”，MP3的普及之路，被大大加速了。

时间来到90年代末，1999年，一个叫Napster的软件横空出世，它让全世界的网民可以非常方便地互相分享自己电脑里的MP3文件。唱片公司认为这是赤裸裸的”盗版”，发动了猛烈的法律攻击，最终把Napster告到关门。但大门一旦打开，就再也关不上了。Napster虽然倒下了，但它逼迫着整个传统音乐行业，不得不去正视数字化这个不可逆转的趋势。正是这场大战，最终催生了后来像iTunes这样的合法数字音乐商店，以及Spotify这样的流媒体服务。MP3开启的，不仅仅是一个文件格式，而是一个全新的”数字媒体”时代。

前互联网时代的数字广播

到此我们已经拥有了 MP3 这个声音的数字载体。既然被叫做”播客”，那么它就需要被传播。这就离不开第二个基础技术——数字广播，特别是在那个互联网尚未普及的时代。

前互联网时代的数字广播，最核心的一点，是要把它和今天的互联网广播彻底分开。互联网广播是走互联网协议传输的，但数字广播的根基，依然是无线电波——和你家车里那个FM/AM收音机一样，通过无线电频谱来发送和接收信号。

数字广播的革命性，不在于换了一条全新的赛道，而是在原有的赛道上，换了一辆更快的车。它依然使用无线电波这个介质，继承了传统广播那种覆盖范围广、信号稳定的优点。但同时，它用数字信号取代了模拟信号，音质有了质的飞跃，还能附带一些文字信息。这种”在传统介质上实现数字升级”的思路，其实反映了那个时代工程师们的一种普遍智慧——在互联网还是个稀罕物的年代，最现实的办法不是推倒重来，而是在现有的成熟基础设施上做文章。

在众多数字广播标准里，为什么偏偏是欧洲的DAB（数字音频广播）成了全球最有影响力的那一个？

DAB的故事得追溯到上世纪八九十年代的欧洲，代号”尤里卡147”。最初是西德和法国的研究机构牵头，后来像英国的BBC这种广播巨头也纷纷加入。他们的目标清单写得非常清楚：接收性能要比FM好，音质要达到CD级别，频谱利用效率要高，发射功率要低，而且还得支持文字、交通信息甚至图像传输这些附加功能。

这其中，有两个技术选择特别关键，一个是MP2音频编码，另一个，就是一种叫做OFDM的调制技术。OFDM，也就是正交频分复用技术，这不仅仅是一个技术选择，更是一个极其有远见的决定。因为后来，OFDM成了我们今天几乎所有现代宽带数字通信系统的基石——你现在用的Wi-Fi，你的4G、5G手机信号，核心的传输方案都离不开它。

在欧洲，DAB+取得了巨大的成功。到2023年，光是在德国家庭和汽车里，DAB+收音机的数量就达到了2830万台，德国有些州已经开始计划彻底关停FM广播。瑞士计划在2026年底前跟FM说再见，DAB+的听众比例已经超过了40%。

然而，我们把视线转向中国，情况就完全不同了。中国也有自己的数字广播标准，叫CDR，2018年也拿到了国际电信联盟的认可。但实际的普及率几乎为零——接收率太低，支持的设备太少，建网络的成本又太高。更要命的是，很多车企觉得，与其费劲去支持一个没人用的CDR，还不如直接内置网络电台来得方便。

互联网时代的内容订阅

虽然中国的 CDR 没有发展起来，但是我们却完全赶上了互联网发展的大浪潮。互联网时代的内容传播有其自身的发展规律，这就是第三个基础技术——RSS 内容订阅。

故事的起点，我们通常会定位在 2000 年左右。当时，一位叫 Tristan Louis 的人提出了一个想法，怎么把声音和视频也塞进 RSS 订阅里。这个想法很快被 RSS 格式的开发者之一，戴夫·温纳给实现了。这也就是今天播客技术的雏形。但其实，RSS 的诞生比这还要早。大名鼎鼎的网景公司，就已经为他们的门户网站发布了第一个版本的 RSS。

而最关键的一点是，这个最早的 RSS，是叫”RDF Site Summary”，基于一个叫做 RDF 的东西——“资源描述框架”。在它眼里，每一条新闻，都不是一个简单的标题和链接，而是一个需要被详细描述的”资源”。这说明 RSS 最初的设想，根本不是为了”简单”，而是想用一种非常结构化的方式，来组织和分发网络上的信息。

RDF 是当时万维网联盟 W3C 搞出来的一个标准，目的是要建立一个”厂商中立、跟操作系统无关的元数据系统”。而这个想法，又源自于一个更早、更有争议的项目，叫做 PICS，全称是”互联网内容选择平台”。

你可以把 PICS 想象成食品包装上的营养成分表。在 90 年代，互联网内容开始爆炸，很多人特别是家长，开始担心孩子们会在网上看到各种暴力、色情这些不适宜的内容。PICS 就是为了解决这个问题而生的——给每个网页都打上一个标签，标明这个网页是否含有暴力、粗口、色情等等，让浏览器可以根据标签来决定要不要让用户访问。

听起来是不是很像我们今天的”青少年模式”？但这个美好的设想，很快就遇到了现实的骨感。首先，它是自愿的——哪个网站会主动给自己贴上”我这里有不良内容”的标签呢？其次，标准很难统一，不同国家、不同文化对于”不良内容”的定义天差地别。最后，还有人担心，这种机制可能会被滥用，成为一种大规模审查的工具。所以，PICS 很快就失败了，到了 2000 年后就基本被弃用了。

而RDF 的思想来源也不仅仅是 PICS 的失败。在它诞生之前，还有一个叫做 MCF（元内容框架）的先驱，最早由苹果公司在 1995 年提出，后来交给了网景去推广。MCF 不仅能记录一个网页是什么，更重要的是，它还能描述”信息和信息之间的关系”。早在那个时候，互联网的先驱们就已经意识到了：数据本身不重要，数据之间的”关系”和”结构”才重要。MCF 的这些思想，最终都被 W3C 吸收，成为了1999年正式推出的 RDF 框架的核心部分。

然而，RDF 太复杂了，太学术了，对于普通的网站开发者和用户来说，门槛太高。为了让”订阅”的理念能真正普及开来，戴夫·温纳推动的 RSS 2.0 版本做出了一个非常务实的选择：决定和复杂的 RDF 分道扬镳，采用更简单、更直接的 XML 格式。从此以后，RSS 和 RDF 就走向了两条完全不同的路。RDF 继续在语义网、知识图谱这些高精尖领域深耕，而 RSS 则彻底放下了身段，保留了最核心的订阅功能，它的名字也逐渐被大家理解为”Really Simple Syndication”，也就是”真的很简单的订阅”。

它的工作原理确实非常简单：一个网站提供一个特殊格式的 XML 文件，里面列着最新文章的标题、摘要、发布时间和链接。你只需要一个 RSS 阅读器，把这个网站的 RSS 地址添加进去，阅读器就会像你的邮箱一样，自动去检查更新，把所有你订阅的网站的新内容，全都抓取过来，集中在一个地方让你阅读。

这就像是为你自己定制的一份”合订本”。它的价值是显而易见的：高效，你不用再一个个网站去打开刷新；去中心化，你订阅谁，完全由你自己决定，没有任何平台可以控制你的信息流；最重要的是，它无比透明，没有算法推荐，没有信息茧房。RSS 并没有消亡，它只是退守到了一个更小众，但更忠实的圈子里。更重要的是，我们今天听的播客，这种越来越流行的音频内容，它的整个分发体系，至今仍然是建立在 RSS 技术之上的。

信息传播方式之争

我们是如何从主动”订阅”信息，一步步走到了今天被动”推送”的时代。这背后不只是技术的更迭，更是一场关于权力、商业和我们思维方式的无声革命。

“订阅模式”，英文叫Pull，就是”拉”的意思。你可以把它想象成你去报刊亭，主动挑选你想看的报纸和杂志。在互联网上，这就对应着我们早年用的RSS阅读器、邮件列表，或者干脆就是把喜欢的网站放进收藏夹。你看什么，什么时候看，完全由你自己决定，你对自己的信息流有绝对的控制权。

“推送模式”，英文叫Push，是”推”。这就好比你坐在家里，一个神秘的送报员根据他对你的了解，不断地把报纸从门缝里塞进来。你不用出门，但你看什么，就由他决定了。在今天的互联网上，这就是我们刷的短视频信息流、新闻App的”猜你喜欢”。我们成了被动的接收者，平台成了那个决定我们看什么的角色。

这种转变，表面上看好像只是更方便了，但它的核心，其实是一场信息权力的转移。过去，权力在我们用户自己手里，我们是主动的探索者。而现在，权力交到了平台手上，我们变成了被动的消费者。

这背后其实是一场技术与商业的”合谋”。在订阅模式下，你看完文章就走了，平台很难在你身上赚钱，广告投放效率非常低。但是在推送模式下，平台掌握了信息分发的大权。它能决定让你看什么，不看什么，就能在信息流里精准地插入广告，流量变现的能力被发挥到了极致。

技术的发展，恰好完美地迎合了平台的商业利益。平台很快就发现，通过算法不断优化推送内容，可以让用户在App里停留的时间越来越长。而用户停留的时间越长，平台能收集的数据就越多，能卖的广告也就越多。这形成了一个强大的正反馈循环：平台越懂你，你就越沉迷；你越沉迷，平台就越懂你。

推送模式的本质，是”争夺注意力”。平台的算法，它的首要目标是最大化你的停留时间，而不是提升信息的质量。所以，那些最能刺激情绪、最耸人听闻、最简单直白的内容，往往传播得最广。这直接导致了我们认知方式的变化。

如果说欧美的播客平台大多是订阅制的，那么中国国内的播客平台大多是订阅加推送的混合模式。国内的播客平台更像我们熟悉的那些短视频 App，已经不满足于只当一个”内容仓库”了，它想成为一个积极的”内容策展人”和”分发中心”。

因为国内的播客用户大多都是从短视频和音乐平台迁移过来的，这些用户对 RSS 那种需要自己动手、主动去搜索和订阅的模式，是比较陌生的。他们的使用习惯仍然是，一旦打开 App，平台就会源源不断地给我推荐可能喜欢的东西。这种混合模式，恰好揭示了一场持续的拉锯战：一边是用户想要夺回信息控制权的本能需求，另一边是平台对流量和注意力的无尽渴望。

播客行业的演进

从 2005 年到今天，整个播客行业到底是如何兴起的呢？

很多人可能觉得播客一直就在那儿，但其实，它真正从一个”小圈子玩具”变成一个能跟影视剧掰手腕的主流媒体，关键的转折点，就发生在2014年。那一年，一个节目的出现，彻底改变了游戏规则。

这个节目，就是美国公共广播电台NPR出品的真实犯罪调查类播客——Serial。2014年，Serial第一季横空出世，这绝对是播客历史上里程碑式的事件。它讲的是一个真实的悬案，但用的却是电影一般的叙事手法，一集一集地铺陈线索，制造悬念。结果就是，全世界数百万听众完全被迷住了，每周都焦急地等待更新。它也成了历史上最快达到500万下载量的播客。

Serial的成功，它的意义远不止是火了一个节目。它第一次真正证明了，播客这种形式可以超越那种轻松的聊天或者传统的广播，通过深度的叙事和高品质的制作，去吸引并留住海量的听众。它打破了播客只是”小众爱好”的刻板印象，为整个行业后来的商业化和主流化铺平了道路。

Serial引爆市场之后，播客行业就迅速从一个内容创作者的乐园，变成了资本的宠儿。风险投资开始大笔大笔地涌入播客制作公司和内容平台。也正是在这个时期，2014年，Spotify也悄悄地开始涉足播客领域，预示了流媒体巨头即将登场。

从2019年开始，播客行业就进入了一场真金白银的”军备竞赛”。而这场竞赛里，最激进、最凶猛的玩家，就是Spotify，斥资数亿美元，签下了像乔·罗根这样拥有巨大流量的独家播客。同时，它还疯狂收购，把Gimlet Media、Parcast这些顶级的播客制作公司，还有像Anchor这样能让普通人轻松制作播客的技术平台，全都收入囊中。当然，苹果作为播客最早的推广者，也不可能坐以待毙，再加上亚马逊、谷歌这些科技巨头也纷纷下场。

这场战争带来的一个直接后果，就是播客内容的制作标准被彻底改变了。过去那种”一个人一支麦克风”就能搞定一切的草根时代，正在迅速远去。大型媒体公司、影视工作室，甚至是明星和品牌，都带着专业的团队和高额的预算入场。播客也开始成为一个IP的衍生品，比如一部热门美剧播完，官方马上就推出一个配套的幕后播客。

这个发展路径，如果你熟悉互联网视频行业的话，会觉得惊人地相似。不管是Netflix还是YouTube，它们一开始都依赖用户生成内容（UGC），但随着竞争越来越激烈，最后都走向了烧钱做自制剧、买独家版权的道路（PGC）。播客行业，其实就是在重演这一幕。

不过，故事并不只有巨头之间的血战。就在这场军备竞赛打得火热的时候，播客这颗种子，也飘向了世界各地，并且在不同的土壤里，开出了完全不一样的花。尤其是在中国，我们看到了一个非常成熟和丰富的本土生态正在形成。像喜马拉雅、小宇宙这样的平台崛起，上面涌现出了大量覆盖文化、商业、科技、生活方式等各种垂直领域的中文播客。

播客的发展史，确实是一部从技术爱好者的小众玩物，到凭借内容魅力破圈，再到资本巨头驱动下的专业化与全球化演进史。它不仅仅是音频内容的载体，更是一个持续自我迭代、不断突破边界的数字媒体生态系统。在这个系统中，内容、技术、平台和听众之间形成了一个复杂的共生关系，共同塑造着这个声音世界的未来。

那么，下一个十年，当我们再次回望播客，它又将以何种姿态，继续讲述它自己的故事？