《1“信息阳光”理想的由来》

1“信息阳光”理想的由来

基于Internet的万维网 (www) , 是20世纪90年代一项伟大的科技成果, 它开创了人类按需共享信息的时代。借助于URL (统一资源定位) 代码, 万维网把遍布全球的近千万台服务器组成一个无缝的大网, 通过计算机之间独立的双向互联, 满足用户的个性化需求。任何资源都有向全球任何用户提供服务的机会, 所有用户又都有不受内容、地域、时间限制享用资源的权利, 看起来似乎是完美无缺。

近几年随着Internet用户数急剧增长, 这种共享结构的潜在弱点——共享冲突才逐渐表面化。虽说万维网拥有几百万台资源服务器, 但它们的共享热度 (一天内被访问平均的次数) 差异极大。本来, 一个信息资源有机会被更多用户访问 (热度高) 是效益高的体现, 然而, 麻烦往往出现在高热资源附近。由于用户的每一个访问, 都要独占一部份带宽和服务器资源, 排斥他人在同一瞬间占用。访问同一资源的人多了, 很容易出现“你用”排斥“我用”的麻烦, 这就是互联结构固有的共享冲突。冲突频繁出现, 将导致网络的拥挤与堵塞。上述问题的存在催使我们去寻找一种既能实现个性化服务, 原理上又避免冲突的共享机制。

起初我们只注意到万维网数据流量的非对称性:从客户机到服务器的上行通道主要用来表达需求, 只需传输很少字节量;而下行通道用来下载信息资源, 流量要大得多。后来发现, 这种非对称性极端发展, 可能出现某种由量变到质变的飞跃, 即把复杂的双向互联系统演化成简单的单向广播系统。具体说, 有意让下行速率超过某一临界值, 使它有能力在短时间内把囊括热门资源的上千种报纸、期刊、网站、课程内容从头到尾重复传输一遍, 各色各样的内容迟早都有机会来到家中, 用户只需在家“守株待兔”, 下载自己感兴趣的内容, 没有必要再依靠上行通信向远方的服务器表达需求。取消了上行通道, 就大大简化了全系统运作, 大大降低了运行成本。而且, 由于用户对信息资源的交互选择是在传输后进行, 因此, 不管有多少用户访问同一资源也不会引发带宽冲突, 也无需因增加用户而相应增加对基础设施的投资。这一优点对于人多的中国特别宝贵。

我们把这种基于广播和预存的新机制称为“广存机制”, 俗称“信息阳光”。它的基本理念是营造一种普照全国的低成本信息流环境 (就像阳光、空气和水那样平民百姓可以在家各取所需而不是通过“信息公路”到远处取回什么。

《2 营造高速数据流环境》

2 营造高速数据流环境

临界数据速率Vc的定义是, 在周期为T的时间内, 有能力将字节量为S的高热信息资源推送一遍的比特速率 (bps) , Vc=8S/T。其中, “高热资源”指拥有众多读者的报纸、期刊、万维网站和多媒体课程。一个汉字对应两个字节, 一幅彩照或一分钟话音经压缩后约50~400 kB, 一学时多媒体课程约10~50 MB。一份报刊或网上媒体, 每天自主制作的新鲜内容大约为1~5 MB。如此估算, 全国500种高热资源每天新鲜的内容加起来约占空间4 GB。

假设重复广播一遍的周期定为15~20 min, 则很容易算知高速数据流的临界速率Vc约30~40Mbps。

依靠DVB-S和DVB-C技术, 营造如此高速的数据流环境已经相当现实。1999年, 中国在把最先进的数字转播技术用在最贫困地区的“村村通”工程中, 取得令人骄傲的成就。该工程利用同步通信卫星Ku波段的一个百瓦级转发器, 获得了履盖全中国的41.53 Mbps的数据流环境。一万个全国最贫困的乡村, 尽管远离网络, 照样可以用国家赠送的小直径天线和先进的接收、解码、解压设备 (据说成本总共少于3000元) , 看到8套MPEG-2标准清晰度 (相当于DVD品质) 的数字电视节目, 听到8套高品位音频广播。如果白天转播电视与音频广播, 深夜之后改播多媒体节目流, 中国将拥有一个现成的“信息阳光”试验平台。

依靠遍布全国的广播电视主干网和DVB-C的CATV网, 城镇家庭可以用更低的成本获取远大于40 Mbps的数据流环境。

《3 以人为本的UCL代码》

3 以人为本的UCL代码

下面讨论如何在海量高速数据流中, 截取有限的个人需求。遵照“信息系统, 以人为本”的原则, 为了让人们更容易表达需求和尽可能节省精力, 采取如下做法。

1) 按内容定位资源人们习惯于通过内容的类别来表达对信息的需求。万维网很难直接做到这一点, 因为它的资源分散于全球各地, 只有先找到存有该类内容的服务器地址 (URL) , 才能找到内容本身阳光网不同被选择的流动资源已集中到用户家中, 可以省去空间定位手续, 直接按UCL (统一内容定位) 代码来表达需求和截取资源。

2) 早下载和多下载用户开机前, 就把订阅的内容拦截进入硬盘, 做到“开机即得, 无需等待”。下载用户指定文件时, 把该文件内容密切关联的文件一并入盘。充分利用下载量不增加网络成本的优势, 进行有备无患的“延拓下载”, 把等待时间和次数减至最少。

3) 实现主动服务设立专门子信道, 及时向用户提供最新UCL清单。开发某种智能软件, 在统计个人日常兴趣分布的基础上, 结合UCL清单自动编辑个性化的“我的信息”、“我的报纸”, 甚至还可有“繁本”、“普本”、“简本”之分。

初步设想, 满足上述要求的UCL代码有α, β, γ三个层次:

α (类别定位) ——如新闻类内有国际新闻、国内新闻、经济新闻、体育新闻之分, 体育新闻又分篮球、足球、乒乓球等, 还有地区冲突、重大赛事、灾情等临时热点;

β (文件定位) ——含内容标引β1 (题目、摘要) , 来源标引β2 (出版物、作者) , 时间标引β3 (指明何时在何子信道下载) 和价位标引β4 (指明阅读本文件的资费) ;

γ (延拓定位) ——列出与本文件内容密切关联的其他文件的β值。

高速信息流的“拦截下载”与“取出阅读”是相对分开的。表达下载意向时, 只需选择感兴趣的类别α, 计算机每天会把该类别的全部文件自动下载。当然也可以进一步指明β2, 则只在特定媒体中下载该类文件。

开机阅读时, 读者先得到一份已下载文件的UCL清单, 并从该清单β1、β4所提供的题目、摘要和价位, 判断是否阅读该文件。延拓关联下载机制 (γ) 保证读者在读完一份文件之后立即找到同一话题的其他文件。

UCL是沟通编者与读者的统一语言。编者用它来标引资源, 读者用它来表达需求。

《4 促进中国电视数字化》

4 促进中国电视数字化

前面讨论了如何利用DVB和UCL技术来传播多媒体大众文化。下面讨论阳光网的另一种应用:实现数字电视的按需服务。

电视为什么要数字化一般的回答是可以提供更清晰的画面和传递更多的节目。但对于已经拥有几十套稳定图像的模拟电视用户来说, 单凭这两点好处恐怕不足以促进他掏钱买机顶盒收看标准清晰度的数字电视。只有创新一种全新的“按需服务”功能, 实现耳目一新的服务升级才有可能打开局面, 加速中国电视数字化的进程。

所谓“按需电视” (TV on demand) 就是使每一个人都有可能跨越空间与时间的限制, 自由支配全国庞大的电视节目资源, 任意取用自己有兴趣的节目。

从1999年开始, 中国的任一CATV中心已有可能收集到近40种卫星转播的DVB-S/MPEG-2电视节目流, 并把它们汇集成若干DVB-C数据流送至家庭。这些流动资源包含着极其丰富的视频内容。单说电视剧和电影每天超过120集;新闻类有早间、午间、晚间、联播、对外、地方等不下50种;还有像《焦点访谈》、《实话实说》等近百种专栏, 可以说应有尽有。设计电视专用的UCL软件平台, CATV中心用它来标引节目, 用户用它来表达需求, 感兴趣的节目将预先截取进入大容量硬盘待用户随时享用。由于电视节目的内容分类与标引比报纸期刊简单, 实现个性化的按需服务应该会更容易。

大容量硬盘价格持续下跌为电视按需服务走入家庭铺垫了基础。一个13 GB的硬盘除了容纳十几份报刊几个月的全部内容外, 还可以记录240min标准清晰度的视频节目。这种硬盘1999年冬北京零售价为1200元, 再过几年同样价格将可以买到更大容量的硬盘。

传播多媒体文化和按需电视是阳光网的两种基本应用, 两者都靠DVB来营造高速数据流环境, 靠硬盘存储信息, 靠UCL实现个性化按需服务。两种应用只需国家建设一种基础设施, 就可能造就几亿个用户的市场, 何乐而不为之。

《5 结束语》

5 结束语

表1给出了信息公路和信息阳光两种共享结构的对比, 前者是潜在冲突的, 后者原理上是无冲突的。

《表1 》

表1 两种信息共享结构对比

Table 1 Comparing between the two information sharing architectures

表1 两种信息共享结构对比Table 1 Comparing between the two information sharing architectures

  

 

信息的共享和物质能量的共享很不相同。物质和能量服从总量守恒定律, “给了您我就少了”。所谓共享实质上是分享 (share) , 是母体的部分转移或瓜分, 很像公路上货物的运输或派发。信息不然, 共享的实质是母体的复制 (copy) 或再生 (regeneration) , 即重新产生若干一模一样的, “给了您, 我并未失去”。信息永远不会因享用的人多了而减少或消失。无冲突共享信息本属浅显的道理, 只因长期以来, 一个比特的运作对应较多的物质与能量, 容易只看到处于外表的物质与能量, 忽略了处于内核的信息人们还习惯于像摆弄货物那样去摆弄信息, 忽视可供无冲突共享的本质。今天不同了, 直播卫星、光纤、CMOS组件把每个比特对应的原子数和焦耳数减少了几个数量级。即便如此, 离开常温下复制1比特信息所需能量的理论极限值 (8.2×10-21J/b) 仍相差甚远。人类即将进入更科学、更便宜共享信息的新世纪。

本文把热度 (日访问次数) 看成是信息资源的一种测度。信息的热度有点像热力学中的温度。温差小时热运动的主要形式是对流和传导, 高温时主要形式是辐射。相似地, 低热信息资源主要靠点对点的结构来交流而高热资源主要靠点对面非IP的阳光结构来共享。两种结构互补共荣、各得其所也许是一种合理的结局