《1 万维网难以摆脱带宽瓶颈》

1 万维网难以摆脱带宽瓶颈

基于互联原理的万维网 (WWW) , 支持信息的按需取用, 拥有全球丰富的内容资源, 是共享信息的当代工具, 是人类在20世纪末的一项伟大发明。创始人T. B. Lee的意图:Web或WWW是“信息进出自如、体现人类知识的网络天地”[1] 。这种仅仅依托互联网单一网络的共享结构, 当网民、网页急剧增长时, 出现了进出经常拥挤堵塞 (带宽瓶颈) 、展现庞杂无序 (信息垃圾) 的局面。

带宽瓶颈 把带宽分配给用户是万维网实现按需取用的基础, 网民增长到某一程度, 带宽不够分配, 发生相互妨碍的共享冲突, 要么大家交换信息的速度都变慢, 要么有人上不了网, 这就是带宽瓶颈。万维网是一种潜在共享冲突、不支持用户数目自由增长的网络结构。

信息垃圾 网页增长到天文数字, 无用网页远多于有用网页, 仅依靠网民找网页的被动待取机制, 很难在浩如烟海中很快找来确实有用的内容。

寻求一种非Internet的、无共享冲突的、网页也能主动找网民的第二类共享网络 (secondary web) [2] , 来解决全民低成本共享知识与文化的问题。

《2 信息共享本该无冲突》

2 信息共享本该无冲突

从基础研究的角度看, 信息共享同物质共享存在本质差异。物质共享的本质是母体的分配或瓜分, 信息共享的本质则是母体的复制或再生, 即重新产生许多一模一样的信息。由于复制的份数没有上限, 享用的人数也应当无上限, 共享信息本当无冲突。然而, 当前在信息界中占主导地位的是信息公路的思维, 这是一种物流的思维, 它把信息共享同带宽分配等同起来, 认为车多路堵、人多网堵是天经地义的。实际上, 带宽是一种物质资源, 不管怎样分配, 顾此失彼的冲突是难免的。互联网中把带宽分配给用户, 实现了按需取用, 但用户数目受到限制;广播网把带宽分配给内容, 用户数目可以自由增长, 但内容品种受到限制, 无法实现按需服务。可见, 只有摆脱物流的思维, 接受信息共享本当无冲突的理念, 才能找到一种用户数目和内容品种都各尽人意的、全新的信息共享结构。

现代科学技术已经提供了两种复制比特的途径:利用点对面的电磁辐射, 在空域上复制比特;另一种是利用非易失的记忆存储, 在时域上复制比特。这两种途径复制1个比特 (1 b) 所需的理论能量极限Ebmin都是0.693 kT, 其中k为波兹曼常数, T为温度。在常温下, 复制1 b只需能量 < 10-20 J, 若给十几亿中国人每人复制100 MB的信息, 加起来也只需能量< 1 J。创造无冲突的信息共享系统, 在技术上的可行性也正日益显现。

微波低噪声接收技术正在向理论极限逼近, 在11~14 GHz波段上, 采用DVB-S数字广播技术, 用1个百瓦级的卫星转发器, 就可以完成对960×104 km2的中国大地每天撒播100 GB以上的文化信息。光、磁、电非易失性存储密度距离理论极限虽远, 但年年都有成倍增长, 一个能存储几万份报刊、书籍的40 GB硬盘售价仅700元人民币, 在家庭营造海量文化仓储的年代已经来到。

人们早就单独使用信息的空域复制或时域间复制, 只不过尚未把两者整合, 用于解决带宽分配顾此失彼的两难问题。我们的解决方案:

1) 用广播办法把带宽分给内容, 营造无冲突共享的“信息阳光”[3] , 回避用户数目受限问题;

2) 借助家庭数据仓储, 无中断地从数量上积累不同时刻播出的内容, 既解决广播方式内容受限问题, 又解决双向互动缺少中间介质的问题;

3) 把家庭仓储当成许多网站的代理服务器, 它的出口带宽只供1个用户使用, 带宽瓶颈问题也就自然消失了。

这就是两种复制并举、通过家庭仓储实现信息无冲突共享的理论设想。

《3 存网站于家庭日趋现实》

3 存网站于家庭日趋现实

上述理论设想能否发展成一种商业运行的应用方案, 主要取决于家庭仓储能否通过空域和时域的复制, 积累出数量足够丰富的文化内容, 以满足用户个性化的自由选择。为做出判断, 有必要对国家的数据广播能力和家庭的数据存储能力做出评估。

新华网、新浪网之类的大型新闻网站, 每天都要增加几千个新鲜网页, 但加起来的日产字节量很难超出十几兆字节。杂志、期刊网站的平均日产量更低一些。全国拥有最多读者的1000个网站加起来, 当天日产量不会超出10 GB。无论是DVB-S或DVB-C的一个频道, 比特率都超过32 Mb/s, 即每天推送的字节量超过300 GB。10 GB只是区区小数, 一天之内可以重复广播几十遍。我国已经利用DVB-S技术实现贫困山区的村村通, 并拥有全球最大的CATV资源, 但是当前只用来传播电视与音频节目, 应该通过技术创新, 把这些宝贵的国家资源发展成为存知识于民间的强大工具。

每个家庭在1000个网站中选择二三十个网站作为镜像下载的对象, 把这些网站播出的内容不加选择地收存在硬盘中, 日积月累形成规模宏大、内容丰富的家庭文化仓储。30个网站相当是30种报刊, 足以满足一般家庭文化需求, 而日存量最多不超过300 MB, 累积100天也不会超过PC机主流硬盘的容量。即使超过了, 还可以吐故纳新。

整合广播与存储, 不难形成一个内容十分齐全、网页自动推陈出新的家庭文化仓储。

《4 并行播存的改造与升级》

4 并行播存的改造与升级

中国有条件率先实现家庭文化仓储的理想。 国家广电总局DVB-S村村通平台、国家教育部IP-DVB平台和国家数据广播中心DVB-C平台已为营造第二类共享网络提供了主要的物质基础, 只要进行大规模并行广播和家庭镜像收存 (简称并行播存) 的改造, 就可实现从传统广播到新型共享网络的升级, 参见图1所示的实例。

《图1》

图1 包括1024网站的文化平台示意图
Fig.1 A cultural platform containing 
1024 Web sites

图1 包括1024网站的文化平台示意图 Fig.1 A cultural platform containing 1024 Web sites  

首先在带宽分配上创新。不同于万维网中把带宽灵活分配给用户, 也不同于广播网把带宽灵活分给内容, 改造后的新网络把带宽永久固定地分配给各个网站 (ICP) , 用这种办法把上千种报纸、刊物、课程、新闻网站整合起来, 形成有相当规模的文化群体, 实现大规模并行广播。把32 Mb/s的带宽均匀分配给网站, 每个网站将独立拥有32 kb/s数据传播能力, 即每天可推出超300 MB的内容, 直接到户、永不中断。带宽永久地分配给网站, 广播电台失去了干预节目的能力, 无形中取消了节目时间表, 捆绑电台与读者的时间绳索也顿然消失。掌握各子信道带宽的ICP, 根据推陈出新的原则, 以一定的周期地重复轮播一批又一批新鲜网页, 每个网页尽管没有明确播出时间, 但都有多次重复播出的机会。终端接收装置24小时永远在线, 若一次播出没有被正确收存, 可在下一次重播时补上, 在用户端做到:凡曾广播, 我都拥有。

独立并行的运作将把ICP培育成独立的经济实体, 它不仅拥有自己的子信道地址 (PID) 、独立确定播出内容和轮播顺序, 而且拥有独立定价和获取正比于用户数目的经济回报渠道, 营造一个公平价值竞争的社会主义文化市场。

DVB-S卫星广播和DVB-C有线转播作为国家信息基础设施, 它的任务是用最低的成本把知识和文化撒播到城乡的每一个家庭, 用最快的速度把最新鲜的信息存入家庭仓储。

边远山区用11~12 GHz波段的村村通接收机通过DVB-S数据接入卡在家庭范围复现文化群体, 城市则采用DVB-C或DVB-T接入卡接入。

家庭镜像收存也是一种创新。其用意是让家庭收存的内容同网站拥有的内容保持动态一致, 就像平面镜前后的实物与虚像, 始终是一模一样的。它不是逐个网站、逐个网页串列下载, 而是同时监视多个子信道, 不管那一个子信道出现尚未存入的新网页, 都会自动存入。接收设备不漏掉指定网站的任一网页, 完成存网站于家庭的使命。

从我国的村村通工程的经验和中央教育电视台IP/DVB实验的结果推测, 用大规模并行广播和家庭镜像收存的思想改造现有广播设施, 营造若干个普照全国的国家文化平台, 把几千种报纸、杂志、网站、课程和音频节目直接送达千家万户, 只需要十几亿人民币。然而这种存知识于民间的战略效果是难以用金钱估量的。

《5 按内容的语义提取网页》

5 按内容的语义提取网页

家庭仓储把网页事先收集于用户身边, 给人网界面的变革提供了契机。人们希望能按内容的语义 (涵义) 表达需求, 一次拿到成批有兴趣的网页。万维网做不到这一点, 需要靠搜索引擎先找来一批网页的URL, 然后到远处一个个取来读物。为了实现按内容的语义直接拿到读物, 需要在广播网页上附加一个代表网页涵义的统一内容定位标引 (UCL) , 说明该网页讨论的话题, 属于类别, 栏目、标题、关键词是什么[4] 。UCL作为编者与读者之间的一种语义学的约定, 让供求双方在家庭仓储中双向选择, 判断是否符合有用网页的标准。读者只要按UCL格式事先在PC机中设定自己的意图, 软件将对源源流入的网页一一做出甄别, 是否应该主动提交主人阅读。这样, 既可把信息垃圾拒之门外, 又解决出现了用户有兴趣的网页苦于没有主动通知的渠道问题, 做到网页也能主动找网民。

UCL的格式至少包括6个字段, 前2个属于外延 , 表达网页的出处与投入时间;后4个属于内涵 , 分别表达大类、栏目、标题和关键词。出处与入网时间是客观数据, 用简单的程序便可自动形成;栏目、标题和关键词则采自原万维网站的主页和页面属性, 通过专用的映射程序自动转换形成。需要各网站统一的只是大类的语义规范 (像政治、经济、科技、体育、文艺等类的划分) , 需要得到国家标准机构的推荐。

UCL的格式是一种相对稳定的俗成约定, 大类维持长年不变。栏目的设置和候选关键词由ICP自行定义和修改维护, 保证跟进客观形势和用户热点的变化。用户只需在ICP提供的选项上做出设定, PC机将自动编辑出纯属个人爱好的电子读物。文化程度较低的用户可以请他人代为设定, 一次设定长期有效。

《6 信息共享结构的二元化趋势》

6 信息共享结构的二元化趋势

今后的信息共享系统, 除了基于互联原理的原创网络外, 还将增添一种基于并行播存原理的第二类网络, 形成二元化的结构, 见图2。

《图2》

图2 二元化的信息共享结构
Fig.2 A dual-way structure for 
information-sharing

图2 二元化的信息共享结构 Fig.2 A dual-way structure for information-sharing  

笫二类网络用于全民低成本共享文化知识, 是新诞生的第五传媒。它继承纸张传媒存信息于家庭的优点, 广播传媒、电视传媒支持网民自由增长和互联传媒按需取用的优点。第二类网络还通过以下两种方式, 同互联网实现互助互补:

1) 分流网页

网民对热门网站的访问, 占互联网流量相当的比重, 如果这部分流量能被广播方式有效分流, 互联网的带宽负担将减轻许多。 在热门网站周边的地段和网民集中访问的时段, 拥塞问题可望明显改善。

2) 推送标引

没有加入广播的网站, 可以利用广播来发布UCL标引。UCL是有关内容的内容, 比内容本身短小得多, 很容易通过广播存入家庭, 让万维网中语义相似的网页也加入被主人遴选的行列, 用户可以得到一份更完整的网页清单。内容已被家庭仓储收存的可直接提取;没有被收存的则从互联网索取。两网以最节省资源的方式自动互助互补, 用户无需过问某网页是通过何种渠道取来的, 网络的业主也不必为瓜分市场而大伤脑筋。

21世纪的网络不可能被互联网一种网络所垄断。在信息共享领域, 今后10 年的趋势是互联网和广播网在新的创意下整合。整合的呼声已经很高, 但创意太少。笔者提出无冲突、低成本共享知识的第二类网络, 试图在创意上抛砖引玉。