多媒体技术基础(第4版)（清华大学计算机系列教材） pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

林福宗著

图书标签:

多媒体技术
多媒体基础
计算机教材
清华大学
第4版
数字媒体
图像处理
音频处理
视频处理
计算机科学

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

windowsfront.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：清华大学出版社

ISBN：9787302454717

版次：4

商品编码：12102015

包装：平装

开本：16开

出版时间：2017-06-01

用纸：胶版纸

页数：741

字数：1209000

正文语种：中文

具体描述

编辑推荐

　　本版教材系统介绍了多媒体系统的核心技术，在内容上力求选用相对成熟和实用的新技术，在技术原理阐述和解释上力求清楚准确。为保持多媒体技术基础教材内容的系统性和完整性，本教材不免与其他学科教材有交集。此外，教材中包含许多技术背景和技术细节，目的是为更好地理解技术原理，细节也反映理解的深浅。在上述思想指导下，使本教材的篇幅比较大，但还是比国外同类教材的篇幅小很多。

　　每章均附有练习和思考题，用于辅助读者掌握本章的要点；每章内容的来源都列出了参考文献和站点，读者可用于加深对教材内容的理解和扩大知识面。

内容简介

《多媒体技术基础》第4版教材在第3版的基础上，对教材内容做了较大幅度的增减。从多媒体系统角度出发，本版教材分成三个部分: (1)多媒体压缩和编码(第2～14章)，介绍文字、声音、图像和数字电视媒体的基本知识、压缩和编码方法； (2)多媒体光盘存储技术(第15～17章)，介绍CD、DVD、HD�睤VD和蓝光盘的存储原理和存储格式； (3)多媒体网络(第18～32章)，以多媒体网络应用和服务质量(QoS)为中心，介绍计算机网络的互联、宽带(有线、无线和移动)接入因特网的基础知识。每章均附有练习和思考题，用于辅助读者掌握本章的要点；每章内容的来源都列出了参考文献和站点，读者可用于加深对教材内容的理解和扩大知识面。

作者简介

林福宗清华大学计算机科学与技术系退休教授，1970年毕业于清华大学自动控制系，留校工作直至退休。从1989年开始对多媒体产生兴趣，其后一直从事多媒体技术基础的教学和应用研究，曾编写并在清华大学出版社出版《英汉多媒体技术辞典》、《多媒体技术基础》教材等图书。

第1章多媒体技术概要

第一部分多媒体压缩和编码
第2章字符编码与字体
第3章数据无损压缩
第4章数字语音编码
第5章彩色数字图像基础
第6章小波与小波变换
第7章小波图像编码
第8章颜色度量体系
第9章颜色空间转换
第10章数字电视基础
第11章 MPEG介绍
第12章 MPEG视像
第13章 H.264/AVC与H.265/HEVC
第14章 MPEG声音

第二部分多媒体光盘存储技术
第15章光盘存储技术
第16章光盘存储格式
第17章错误检测和纠正

第三部分多媒体网络
第18章多媒体网络介绍
第19章计算机网络的概念与模型
第20章互联网上的地址
第21章应用层技术
第22章传输层技术
第23章网络层技术
第24章链路层技术
第25章物理层技术
第26章扩谱技术
第27章多路复用与多址接入
第28章有线宽带接入
第29章无线宽带接入
第30章移动宽带接入
……

精彩书摘

　　第5章彩色数字图像基础

　　图像是多媒体中携带信息的极其重要的媒体，有人发表过统计资料，认为人们获取的信息的70％来自视觉系统。由于图像数字化之后的数据量非常大，在因特网上传输时很费时间，在盘上存储时很占“地盘”，因此就必须要对图像数据进行压缩。压缩的目的就是要满足存储容量和传输带宽的要求，而付出的代价则是大量的计算。几十年来，许多科技工作者一直在孜孜不倦地寻找更有效的方法，用比较少的数据量表达原始的图像。

　　图像数据压缩主要是根据下面两个基本事实来实现的。一个事实是图像数据中有许多重复的数据，使用数学方法来表示这些重复数据可减少数据量；另一个事实是人的眼睛对图像细节和颜色的辨认有一个极限，把超过极限的部分去掉，也就达到压缩数据的目的。利用前一个事实的压缩技术是无损数据压缩技术，利用后一个事实的压缩技术是有损数据压缩技术。实际的图像压缩是综合使用各种有损和无损数据压缩技术来实现的。

　　本章将介绍表示数字彩色图像所需要的基本知识、使用得相当广泛的JPEG压缩标准和图像文件的存储格式。在介绍过程中，要涉及有关颜色的度量和颜色空间的转换问题，这些比较深入的问题将在第8章“颜色度量体系”和第9章“颜色空间转换”中介绍。

　　5.1视觉系统对颜色的感知

　　颜色是视觉系统对可见光的感知结果。可见光是波长在380～780nm之间的电磁波，我们看到的大多数光不是一种波长的光，而是由许多不同波长的光组合成的。人们在研究眼睛对颜色的感知过程中普遍认为，人的视网膜有对红、绿、蓝颜色敏感程度不同的三种锥体细胞，另外还有一种在光功率极端低的条件下才起作用的杆状体细胞，因此颜色只存在于眼睛和大脑。在计算机图像处理中，杆状细胞还没有扮演什么角色。

　　人的视觉系统对颜色的感知可归纳出如下几个特性:

　　(1)眼睛本质上是一个照相机。视网膜(humanretina)通过神经元来感知外部世界的颜色，每个神经元是一个对颜色敏感的锥体(cone)或是一个对颜色不敏感的杆状体(rod)。

　　(2)红、绿和蓝三种锥体细胞对不同频率的光的感知程度不同，对不同亮度的感知程度也不同。这就意味着，人们可以使用数字图像处理技术来降低表示图像的数据量，而不使人感到图像质量有明显下降。

　　(3)自然界中的任何一种颜色都可以由R、G、B这三种颜色值之和来确定，它们构成一个三维的RGB矢量空间。这就是说，R、G、B的数值不同，混合得到的颜色就不同，也就是光波的波长不同。

　　5.2图像的颜色模型

　　在文献和教材中，用于描述颜色的常用词有两个:颜色模型和颜色空间。颜色模型(colormodel)是用数值指定颜色的方法，颜色空间(colorspace)是用空间中点的集合描述颜色的方法，它们互为同义词。RGB和CMYK是计算机系统使用最广泛的两个颜色模型。

　　5.2.1显示彩色图像用RGB相加混色模型

　　一个能发出光波的物体称为有源物体，它的颜色由该物体发出的光波决定，并且使用RGB相加混色模型。电视机和计算机显示器使用的阴极射线管(CathodeRayTube，CRT)就是一个有源物体。CRT使用3个电子枪分别产生红(red)、绿(green)和蓝(blue)三种波长的光，并以各种不同的相对强度综合起来产生颜色，如图5��1(a)所示。虽然当今的电视机和计算机显示器几乎都使用彩色LED显示器，但生成颜色的原理与阴极射线管(CRT)类似。

　　组合这三种光波来产生特定颜色的方法叫作相加混色法(additivecolormixture)，因为这种相加混色是利用R、G和B颜色分量产生颜色，故称为RGB相加混色模型。相加混色是计算机应用中定义颜色的基本方法。

　　从理论上讲，任何一种颜色都可用三种基本颜色按不同的比例混合得到。三种颜色的光强越强，到达我们眼睛的光就越多，它们的比例不同，我们看到的颜色也就不同。没有光到达眼睛，就是一片漆黑。当三基色按不同强度相加时，总的光强增强，并可得到任何一种颜色。某一种颜色和这三种颜色之间的关系可用下面的式子来描述:

　　颜色＝R(红色的百分比)＋G(绿色的百分比)＋B(蓝色的百分比)

　　当三基色等量相加时，得到白色；等量的红绿相加而蓝为0时得到黄色；等量的红蓝相加而绿为0时得到品红色；等量的绿蓝相加而红为0时得到青色。这些三基色相加的结果如图5��1(b)所示。

　　图5��1颜色生成原理

　　一幅彩色图像可以看成是由许多的点组成的，如图5��2所示。图像中的单个点称为像素(pixel)，每个像素都有一个值，称为像素值，它表示特定颜色的强度。图5��2一幅图像由许多像素组成

　　一个像素值往往用R、G、B三个分量表示。如果每个像素的三个颜色分量都用二进制的1位来表示，那么每个颜色的分量只有“1”和“0”这两个值，这也就是说，每个颜色分量的强度是100%或者是0%。在这种情况下，每个像素所显示的颜色是8种可能的颜色之一，见表5��1。

　　对于标准的电视图形阵列(VideoGraphicsArray，VGA)适配卡的16种标准颜色，其对应的R、G、B值见表5��2。在Microsoft公司的Windows操作系统中，用代码0～15表示。表中的代码1～6表示的颜色比较暗，它们是用最大光强值的一半产生的颜色；9～15是用最大光强值产生的。表5��1相加色RGB颜色RGB颜色000黑100红001蓝101品红010绿110黄011青111白在表5��2中，每种基色的强度是用8位表示的，因此可产生224=16777216种颜色。但实际上要用1600多万种颜色的场合是很少的。在多媒体计算机中，除用RGB来表示颜色外，还用色调�脖ズ投泉擦炼�(Hue�睸aturation�睱ightness，HSL)表示。

　　在HSL模型中，H定义颜色的波长，称为色调；S定义颜色的强度(intensity)，表示颜色的深浅程度，称为饱和度；L定义掺入的白光量，称为亮度。用HSL表示颜色的重要性，是因为它比较容易为画家所理解。若把S和L的值设置为1，当改变H时就是选择不同的纯颜色；减小饱和度S时，就可体现掺入白光的效果；降低亮度时，颜色就暗，相当于掺入黑色。因此在Windows附带的画图软件也用了HSL表示法。表5��216色VGA调色板的值代码RGBHSL相加色000016000黑(Black)10012816024060蓝(Blue)2012808024060绿(Green)3012812812024060青(Cyan)412800024060红(Red)5128012820024060品红(Magenta)612812804024060褐色(DarkYellow)71921921921600180白(LightGray)81281281281600120深灰(DarkGray)900255160240120淡蓝(LightBlue)100255080240120淡绿(LightGreen)110255255120240120淡青(LightCyan)12255000240120淡红(LightRed)132550255200240120淡品红(LightMagenta)14255255040240120黄(Yellow)152552552551600240高亮白(BrightWhite)5.2.2打印彩色图像用CMY相减混色模型

　　一个不发光波的物体称为无源物体，它的颜色由该物体吸收或者反射哪些光波决定，用CMY相减混色模型。用彩色墨水或颜料进行混合，绘制的图画就是一种无源物体，用这种方法生成的颜色称为相减色。从理论上说，任何一种颜色都可以用三种基本颜色的颜料按一定比例混合得到。这三种颜色是青色(cyan)、图5��3相减混色

　　品红(magenta)和黄色(yellow)，通常写成CMY，称为CMY模型。用这种方法产生的颜色之所以称为相减色，是因为它减少了为视觉系统识别颜色所需要的反射光。

　　在相减混色中，当三基色等量相减时得到黑色；等量黄色(Y)和品红(M)相减而青色(C)为0时，得到红色(R)；等量青色(C)和品红(M)相减而黄色(Y)为0时，得到蓝色(B)；等量黄色(Y)和青色(C)相减而品红(M)为0时，得到绿色(G)。三基色相减结果如图5��3所示。

　　彩色打印机采用的就是这种原理，印刷彩色图片也是采用这种原理。按每个像素每种颜色用1位表示，相减法产生的8种颜色如表5��3所示。由于彩色墨水和颜料的化学特性，用等量的三基色得到的黑色不是真正的黑色，因此在印刷术中常加一种真正的黑色(blackink)，所以CMY又写成CMYK。表5��3相减色C(青色)M(品红)Y(黄色)相减色000白001黄010品红011红100青101绿110蓝111黑相加色与相减色之间有一个直接关系，见表5��4所示。利用它们之间的关系，可以把显示的颜色转换成输出打印的颜色。相加混色和相减混色之间成对出现互补色。例如，当RGB为1∶1∶1时，在相加混色中产生白色，而CMY为1∶1∶1时，在相减混色中产生黑色。从另一个角度也可以看出它们的互补性，例如，RGB为0∶1∶0，对应CMY为1∶0∶1。续表表5��4相加色与相减色的关系相加混色(RGB)相减混色(CMY)生成的颜色000111黑001110蓝010101绿011100青100011红101010品红110001黄111000白5.3图像的三个基本属性

　　属性是标识和描述被管理对象的特性，图像的属性包含分辨率、像素深度、真/伪彩色、图像的表示法和种类等，本节将介绍前面三个特性。

　　5.3.1图像分辨率

　　我们经常遇到的分辨率(resolution)有两种:屏幕分辨率和图像分辨率。为更好地理解图像分辨率的概念，首先介绍屏幕分辨率。

　　1.屏幕分辨率

　　屏幕分辨率也称显示分辨率，它是衡量显示设备再现图像时所能达到的精细程度的度量方法。屏幕分辨率通常用水平和垂直方向所能显示的像素数目表示，写成“水平像素数×垂直像素数”，如640×480表示显示屏分成480行，每行显示640个像素，整个显示屏含有307200个显像点。常见的屏幕分辨率包括640×480、800×600、1024×768、1280×1024。水平分辨率与垂直分辨率的比例通常是4∶3，与传统电视的宽高比相同，但与高清晰度电视的宽高比(16∶9)不同。

　　屏幕能够显示的像素越多，说明显示设备的分辨率越高，显示的图像质量也就越高。显示屏上的每个彩色像点由代表R、G、B三种模拟信号的相对强度决定，这些彩色像点就构成一幅彩色图像。

　　2.图像分辨率

　　图像分辨率(imageresolution)是图像精细程度的度量方法。对同样尺寸的一幅图，如果像素数目越多，则说明图像的分辨率越高，看起来就越逼真。相反，图像显得越粗糙。图像分辨率也称空间分辨率(spatialresolution)和像素分辨率(pixelresolution)。

　　在图像显示应用中，图像分辨率有多种方法表示。例如:(1)物理尺寸，如“每毫米线数(或行数)”；(2)行列像素，用“像素/行×行/幅”表示，如640像素/行×480行/幅；(3)像素总数，如在手机的相机上标的“1600万像素”；(4)单位长度(面积)的像素，如像素每英寸(PixelsPerInch，PPI)；(5)线对(linepair)数，以黑白相邻的两条线为一对，如“每毫米10线”表示黑线和白线相间的5对线；(6)像素深度(见5.3.2节)。

　　在图像数字化和打印应用中，通常要指定图像的分辨率，用每英寸多少点(DotsPerInch，DPI)表示。如果用300DPI来扫描一幅8″×10″的彩色图像，就得到一幅2400×3000个像素的图像。分辨率越高，像素就越多。

　　图像分辨率与屏幕分辨率是两个不同的概念。从行列像素角度看，图像分辨率是构成一幅图像的像素数目，而屏幕分辨率是显示图像的区域大小。例如，如果屏幕分辨率为640×480，那么一幅320×240像素的图像只占显示屏的1/4；相反，2400×3000像素的图像在这个显示屏上就不能显示其完整的画面。

　　5.3.2像素深度与阿尔法(α)通道1.像素深度像素深度是指存储每个像素所用的位数。例如，在电视图像信号数字化时，记录每个图像样本信号的位数为8、10、12或16位。8位表示的分辨率是1/256，10位表示的分辨率是1/1024。在这个意义上，像素深度也被认为是图像分辨率的一种度量方法。

　　像素深度决定彩色图像的每个像素可能有的颜色数，或者确定灰度图像的每个像素可能有的灰度级数。例如，一幅彩色图像的每个像素用R、G、B三个分量表示，若每个分量用8位，那么一个像素共用24位表示，就说像素的深度是24，每个像素可以是224=16777216种颜色中的一种。在这个意义上，往往把像素深度说成是图像深度。表示一个像素的位数越多，它能表达的颜色数目就越多，而它的深度就越深。

　　虽然像素深度或图像深度可以很深，但各种VGA的颜色深度却受到限制。例如，标准VGA支持4位16种颜色的彩色图像，多媒体应用中通常推荐用8位256种颜色。由于设备的限制，加上人眼分辨率的限制，一般情况下，不一定要追求特别深的像素深度。此外，像素深度越深，所占用的存储空间也越大。相反，如果像素深度太浅，那也影响图像的质量，图像看起来让人觉得很粗糙和很不自然。

　　2.α通道

　　在用二进制数表示彩色图像的像素时，除R、G、B分量用固定位数表示外，往往还增加1位或几位作为属性(attribute)位。例如，RGB5∶5∶5表示一个像素时，用2个字节共16位表示，其中R、G、B各占5位，剩下最高1位(b15)作为属性位，用来指定该像素应具有的性质，并把它称为透明(transparency)位，记为T。T的含义可以这样来理解:假如显示屏上已经有一幅图存在，如果要把另一幅图重叠在它上面，就可用T位来控制原图是否能看得见。例如，可定义T=1，原图完全看不见；T=0，原图能完全看见。在这种情况下，属性位T称为1位α通道(alphachannel)，像素深度为16位，而图像深度为15位。

　　在每个像素用32位的图像表示法中，最高8位称为8位α通道，用于表示像素在对象中的透明度，其余24位是颜色通道，红色、绿色和蓝色分量各占8位通道。这个由8位构成的α通道可看作是一个预乘数通道。因此，例如，一个像素(A，R，G，B)的四个分量都用规一化的数值表示，当像素值为(1，1，0，0)时显示红色，当像素值为(0.5,1,0,0)时，使用α通道中的预乘数0.5与R、G、B相乘的结果就为(0.5,0.5,0,0)，表示原来该像素显示的红色强度为1，而现在显示的红色的强度为0.5。又如，用两幅图像A和B混合成一幅新图像(New)，它的像素为:Newpixel=(alpha)(pixelAcolor)+(alpha)(pixelBcolor)。

　　用α通道描述像素属性在实际中很有用。例如，在一幅彩色图像上叠加文字说明，而又不想让文字把图覆盖掉，就可用α通道，而又有人把该像素显示的颜色称为混合色(keycolor)。在视像产品生产过程中，也往往把数字电视图像和计算机生产的图像混合在一起，这种技术称为视图混合(videokeying)技术，它也采用α通道。

　　5.3.3真伪彩色和直接色

　　了解真彩色、伪彩色与直接色的含义，对于编写图像显示程序、理解图像文件的存储格式都有很大帮助，对“本来是用真彩色表示的图像，但在VGA显示器上显示的颜色却不是原来图像的颜色”这类现象也不会感到困惑。

　　1.真彩色

　　真彩色(truecolor)是指每个像素的颜色值用红(R)、绿(G)和蓝(B)表示的颜色。例如，用RGB5∶5∶5表示图像颜色，R、G、B各用5位，其值大小直接确定三个基色的强度，这样得到的彩色是真实的原图彩色。真彩色通常用24位表示，因此也称24位颜色(24�瞓itcolor)或全彩色(fullcolor)，其颜色数目为224＝16777216种。

　　2.伪彩色

　　伪彩色(pseudocolor)是指每个像素的颜色不是由每个基色分量的数值直接决定的颜色，而是把像素值当作彩色查找表(ColorLook�睻pTable，CLUT)的表项入口地址，去查找显示图像时使用的R、G、B值，用查找出的R、G、B值产生的彩色称为伪彩色。

　　彩色查找表(CLUT)是一个事先做好的表，表项入口地址也称为索引号。例如，在有256种颜色的查找表中，0号索引对应黑色……255号索引对应白色。彩色图像本身的像素数值和彩色查找表的索引号有一个变换关系，这个关系可以使用Windows定义的变换关系，也可以使用你自己定义的变换关系。使用查找得到的数值显示的彩色是真的，但不是图像本身真正的颜色，它没有完全反映原图的颜色。

　　3.直接色

　　每个像素值由R、G、B分量构成，每个分量作为单独的索引值对它做变换，也就是通过相应的彩色变换表找出基色强度，用变换后的R、G、B强度值产生的颜色称为直接色(directcolor)。它的特点是对每个基色进行变换。

　　5.4图像的种类[��4/5]5.4.1矢量图与位图在计算机中，表示图像的常用方法有两种，一种称为矢量图法，生成的图像叫作矢量图(vectorgraphics)，另一种称为位图法，生成的图像叫作位图(bitmap或bitmappedimage)。虽然这两种图像的表示方法不同，但在显示器上显示的结果几乎没有差别。

　　1.矢量图

　　矢量图是用一系列计算机指令描绘的图，如点、线、面、曲线、圆、矩形以及它们的组合，如图5��4(a)所示。这种方法实际上是用许多数学表达式描述一幅图，再用计算机语言来表达，在显示图像时，还可看到画图的过程。绘制和显示这种图的软件通常称为绘图程序(drawprograms)，存放这种图的存储格式称为矢量图格式，存储的数据主要是绘制图形的数学描述。

　　矢量图有许多优点。例如，目标图像的移动、缩小或放大、旋转、拷贝、属性(如线条变宽变细、颜色)变更都很容易做到；相同的或类似的图可以把它们当作图的构造块，并把它们存到图库中，这样不仅可加速矢量图的生成，而且可减小矢量图的文件大小。

　　然而，对于真实世界的彩照，恐怕就很难用数学方法来描述，这就要用位图法表示。

　　……

前言/序言

　　前言

　　《多媒体技术基础》第3版教材于2008年定稿出版发行。从技术上看，当时许多新技术正处在开发和试验过程中，如H.265/HEVC、移动多媒体等技术，现已趋成熟。从国外的多媒体技术课程来看，教学内容已不再局限于多媒体本身，已经扩展到多媒体系统。

　　“多媒体系统”这个名称已在科学技术文献中频繁出现，越来越多地把它作为学术杂志的名称、学术会议的名称、教科书的名称，国外许多高等院校把它作为本科生、研究生的课程名称。从多媒体系统角度考虑，本版教材在内容上做了较大幅度的增减，使《多媒体技术基础》更趋完整，可把它理解为“多媒体系统的技术基础”。

　　一、教材内容的组织

　　与第3版相比，《多媒体技术基础》第4版教材变动较大的部分如下:

　　(1)增加了字符编码和字体技术，系统介绍了汉字编码的过去和现在，弥补了过去多媒体教材没有字符技术的遗憾。

　　(2)参照国外多媒体系统课程的教学大纲，较系统地介绍了多媒体互联网络，包括网络互联和宽带接入因特网的技术基础。宽带接入包括有线宽带、无线宽带和移动宽带接入，技术基础包括有线和无线数据通信学科方面的知识。

　　(3)为减少教材篇幅，第3版中的不少内容没有保留，但仍然有参考价值，如介绍HTML和XML的多媒体内容处理语言。

　　《多媒体技术基础》第4版教材的内容组织成如下三个部分。

　　第一部分:多媒体压缩和编码(第2～14章)，介绍文字、声音、图像和数字电视媒体的基本知识、压缩技术和编码方法。

　　第二部分:多媒体光盘存储技术(第15～17章)，介绍CD、DVD、HD�睤VD和蓝光盘的存储原理和存储格式。

　　第三部分:多媒体网络(第18～32章)，以多媒体网络应用和服务质量(QoS)为中心，介绍计算机网络、宽带(有线、无线和移动)接入因特网的基础知识。

　　二、教材的使用建议

　　本版教材系统介绍了多媒体系统的核心技术，在内容上力求选用相对成熟和实用的新技术，在技术原理阐述和解释上力求清楚准确。

　　为保持多媒体技术基础教材内容的系统性和完整性，本教材不免与其他学科教材有些交集。此外，教材中包含许多技术背景和技术细节，目的是为更好地理解技术原理。在上述思想指导下，使本教材的篇幅较大。

　　对本教材的使用，编者还是建议，教师有所教有所不教，学生有所学有所不学。具体建议详见本教材第3版前言。

　　三、衷心感谢

　　《多媒体技术基础》由林福宗主持编写，参加编写工作的教授、专家和高级程序员有黄民德、汪健如、黄国健、林彩荣和张哲等。特别感谢中国科学院院士、清华大学张钹教授长时期的直接指导和各方面给予的实质性支持；感谢我们课题组所有老师和硕博研究生为本教材所做的贡献；感谢使用本教材的师生和技术人员给予我们的热情鼓励和提出的宝贵建议。

　　林福宗

　　退休单位:清华大学计算机科学与技术系

　　电子邮件地址:linfz@mail.tsinghua.edu.cn

　　2017年3月1日第3版前言

　　本教材第2版于2001年定稿，2002年9月第一次印刷。当时许多新技术还没有出现或正在开发之中，如MPEG��4AVC/H.264(2003年)和XML1.1(2006年)。有些当时认为比较有前途的技术，现在已经更新，如普遍认为2002年公布的SIP(RFC3261)比1996年公布的H.323更简单。根据笔者过去几年的科研、教学和观察，教材中的大部分内容都适合当前使用，因此确定第3版教材的修改方针是保留第2版的体系结构、更新部分章节内容和增加新内容。

　　一、教材的组织结构

　　为保持多媒体技术基础课程内容的完整性，第3版教材仍由多媒体压缩和编码、多媒体存储、多媒体传输和多媒体内容处理语言共四个相对独立的部分组成。

　　第一部分：多媒体压缩和编码(第2～13章)，主要介绍声音、图像和数字电视的基本知识、压缩与编码方法。

　　第二部分：多媒体存储(第14～16章)，主要介绍CD、DVD、HD�睤VD和BD(Blu�瞨ayDisc)光盘的存储原理和多媒体在光盘上的存放格式。

　　第三部分：多媒体传输(第17～20章)，主要介绍多媒体网络应用、服务质量(QoS)、因特网、TCP/IP协议和多媒体传输的基础知识。

　　第四部分：多媒体内容处理语言(第21～22章)，主要介绍HTML和XML的基础知识。

　　为帮助读者加深对基础知识的理解，每章后面都有练习和思考题，但这些题目没有难度，教师可增加一些有一定深度的练习和思考题。

　　每章后面都有参考文献和站点，列出它们有两个目的：(1)表示在编写本教材过程中访问过相关站点，参考或引用了相关内容；(2)更重要的是为读者提供进一步学习的指南，教师要鼓励学生主动上网查阅。虽然到本书截稿时每个网址都有效，但以后可能会有变化。

　　二、教材修改的内容

　　在第2版教材基础上，第3版教材做了如下修改：

　　(1)考虑到视像压缩技术在多媒体产品和各种服务中的重要性，因此增加了一章专门用来介绍MPEG��4AVC/H.264。此外，考虑到光盘存储器在多媒体存储方面的重要性，因此增加了HDDVD和Blu�瞨ayDisc的内容。

　　(2)考虑到网上多媒体应用如火如荼，如IP电视、IP电话、即时通信和多媒体会议，因此重写了第三部分(第17～20章)，突出了多媒体传输或称多媒体通信技术。

　　(3)考虑到20世纪90年代末期开展的内容处理已成为重要的研究方向，因此在第22章（XML语言）中增加了XML新版本的内容。HTML和XML等标准已经并将继续对日益增长的包括移动通信在内的多媒体网络应用和多媒体电子出版业等行业产生深远的影响。

　　(4)为降低教材篇幅，第2版中的部分内容没有保留，如MIDI系统。

　　(5)XHTML是用XML重写的HTML版本，2008年1月介绍的HTML5(也称XHTML5)也是用XML编写的。因此本版教材没有保留第2版中的第23章(XHML语言)。

　　三、教材的使用建议

　　国内许多大学开设多媒体技术课程已有多年，在网上看到许多兄弟院校在教材建设和课程教学方面已有很多很好的经验，在学习和借鉴他们成功经验的基础上，为使用或打算使用本教材的老师和同学提出如下建议供参考。

　　1.有所教有所不教

　　在编写本教材过程中笔者注意到，国外有些信息技术学院从本科到研究生阶段，每个年级都开设内容不同、深浅不同的多媒体课程，既有广度又有深度。考虑到我国目前的多媒体课程教学计划一般只安排一个学期，学时也不多，因此教师可采用有所教有所不教和有所学有所不学的策略。任课教师可根据自己的兴趣和专长、学生已有的基础和专业方向，有的放矢地选择其中的部分内容。对于不作为重点的教学内容，如果有需要，学生自己就会主动去钻研。

　　2.教材作为参考书

　　对于信息技术课程的教材来说，写进正式出版的教材的内容通常是比较成熟的，即使是刚刚出版的教材，其内容也不一定新。据观察，许多大学的多媒体课程内容是当前最新的技术，教师都有自己编写的教学提纲和材料，而把正式出版的教科书列为必要的参考材料加以推荐。这不是说正式出版的教材不重要，而是通过教授新技术来带动基本原理的学习。其结果是学的内容先进，学的基础扎实。

　　本教材共22章，比较系统地介绍多媒体技术。笔者有意使本教材覆盖多方面的重要技术，努力选取相对比较新的和实用的技术，力图对多媒体技术原理解释清楚和准确。因此可把本教材作为多媒体技术课程的起点，在此基础上教授最新的技术。

　　3.用课程设计驱动

　　凡任课教师都很清楚，教一本书不等于开设一门课程。为配合我校加强实践教学的教学改革，更好地激励学生学习基础理论和技能的积极性，清华大学出版社出版了经过多年实际使用的《多媒体技术课程设计与学习辅导》。学生对课程设计反响强烈，由于严格实施“允许参考不许抄袭”的措施，学生普遍认为真正学到了知识。

　　辅助教材拟了多个难易程度不同的设计题目，每个题目都有原理介绍和示例。为便于学生撰写和教师评估课程设计报告，规范了课程设计报告的格式。由于设计题目的难度不大，任课教师可根据情况，从中选择一个或两个题目，也可在辅助教材所列的“参考选题”或其他参考选题中增加或更改设计题目。课程设计要求使用MATLAB语言来实现，因为MATLAB是攻读学位的大学生、硕士生和博士生必须掌握的基本工具。

　　4.用评估系统引导

　　评估系统是一个无形的指挥棒，可以引导学生的学习方向。教授本教材是多媒体技术基础课程中的一个部分，而课程设计是课程的另一个重要组成部分。因此笔者的课程评估采用了“基础知识书面开卷考试约占50%，课程设计约占50%”的方法，但对不同专业的学生可以在评估标准或在所占分数的比例上加以调整。

　　5.教学辅助材料

　　为本教材准备的电子版的辅助材料有四个部分：(1)练习与思考题参考答案；(2)课程设计参考答案；(3)正式出版的本教材中的插图，为制作电子版讲课提纲提供方便；(4)讲课提纲(PPT格式)。这些材料可在清华大学出版社的网站上下载，也可在http://www.csai.tsinghua.edu.cn/linfzmmc/上下载。

　　四、关于中文术语

　　随着信息科学和技术日新月异，新术语不断涌现，同时也给一些老术语赋予了新的含义，使用准确的术语有利于信息的交流。为使本教材中的中文术语尽量准确，笔者查阅了许多著名的英文词典，阅读了许多相关的科学和技术文献，参考了全国科学技术名词审定委员会2002年公布的《计算机科学技术名词》。

　　在本教材中，有几个常用术语有必要在此说明：(1)用“视频”作为video的释义是物理概念上的错误。video的真实含义是由一系列图像组成的(电)视(图)像，确切的中文译名应该是“视像”。“视频(videofrequency)”是电视信号频率的简称，在ITU�睷BT.601标准中，频率范围是0～6.75MHz。(2)不论什么场合，用“音频”作为audio的释义也是物理概念上的错误。audio是指人的听觉系统可感知的声音，是声音(sound)的同义词，作名词时的确切中文术语应该是“声音”。“音频(audiofrequency)”是声音信号频率的简称，频率范围通常认为是15～20000Hz。(3)“分组交换(packetswitching)”是一个不确切的中文术语。“packet”的含义是一个由收、发送地址和实际数据组成的“数据包”，确切的术语应该是“包交换”。(4)“组播(multicast)”是一个容易被误认为“收发关系颠倒”的术语，本教材使用“多目标广播”。尽管我们习惯使用2～3个字构成的术语，但“多目标广播”是顾名就可思义的术语，即一个发送者向多个接收者(多目标)传送(广播)数据的意思。

　　五、衷心感谢

　　特别感谢中国科学院院士张钹教授多年来的直接指导和各方面给予的实质性支持；衷心感谢我们课题组(智能多媒体组)所有老师和硕博研究生为本教材所做的贡献；衷心感谢使用本教材的老师和学生给予我们的热情鼓励和提出的宝贵建议。

　　参加本教材编写工作的有林彩荣、朱高建、朱高东、黄民德和谢霄艳，他们在多媒体语言、程序设计、多媒体通信、教育技术、软件评估、科研和教学方面都有各自的专长。

　　林福宗

　　清华大学计算机科学与技术系

　　智能技术与系统国家重点实验室

　　电子邮件地址：linfz@mail.tsinghua.edu.cn

　　2008年10月15日

多媒体技术基础（第4版）（清华大学计算机系列教材）内容简介《多媒体技术基础（第4版）》是清华大学计算机系列教材中的一本，旨在系统、全面地介绍多媒体技术的核心概念、基本原理、关键技术以及发展趋势。本书在前几版的基础上，结合近年来多媒体技术领域的最新发展和学术研究成果，进行了深入的更新和修订，以期为读者提供一份既经典又前沿的多媒体技术学习指南。本书从多媒体技术的全局出发，循序渐进地阐述了多媒体信息处理的各个环节，包括多媒体信息的采集、表示、存储、传输、处理和应用。内容涵盖了文本、图像、音频、视频等多种媒体形式，以及与之相关的编码、压缩、解码、合成、编辑、播放等技术。同时，本书也着重探讨了多媒体技术在网络环境下的应用，如流媒体技术、多媒体通信、Web多媒体等，并对未来多媒体技术的发展方向进行了展望。本书特色与优势体系完整，内容翔实：本书的结构设计严谨，从基础概念到高级应用，涵盖了多媒体技术的方方面面，力求做到内容全面、逻辑清晰。每个章节都围绕一个核心主题展开，深入剖析相关技术细节，确保读者能够建立起扎实的理论基础。理论与实践相结合：在讲解理论知识的同时，本书注重引导读者理解实际应用。通过丰富的案例分析和对相关技术的解释，帮助读者将抽象的理论转化为具体的实践能力。虽然本书以理论讲解为主，但其对技术的深入剖析，为读者后续进行相关项目开发或技术研究奠定了坚实的基础。紧跟技术前沿：第4版对内容进行了大幅度的更新，加入了近年来迅速发展的新技术和新概念。例如，在图像和视频处理部分，会涉及更先进的压缩标准和算法；在网络多媒体部分，会讨论最新的流媒体技术和交互式多媒体应用。这使得本书能够保持其在多媒体教育领域的领先地位。由清华大学知名教授编写：本书由清华大学计算机科学与技术领域的资深教授团队倾力编写，他们不仅在学术研究上造诣深厚，在教学实践中也积累了丰富的经验。教材的编写风格严谨、深入，充分体现了清华大学在计算机科学教育方面的严谨态度和高水平。适合多层次读者：本书既适合高等院校计算机科学、软件工程、信息工程等相关专业本科生和研究生作为教材使用，也适合从事多媒体技术研究、开发和应用的技术人员作为参考书籍。对于对多媒体技术感兴趣的初学者，本书提供了系统入门的学习路径；对于有一定基础的读者，本书则提供了深入理解和拓展视野的机会。本书内容框架本书的组织结构大致可以划分为以下几个主要部分：第一部分：多媒体技术概述与基础概念第一章多媒体技术导论：介绍多媒体技术的定义、发展历程、关键特征、基本组成要素以及其在现代社会中的重要作用和应用领域。第二章多媒体信息表示：详细讲解不同类型多媒体信息的数字表示方法，包括文本的编码（ASCII, Unicode）、图像的像素表示、音频的采样与量化、视频的帧序列等。第三章多媒体数据压缩基础：阐述数据压缩的必要性、基本原理（冗余度、感知模型），以及无损压缩和有损压缩的基本概念和常见技术。第二部分：核心多媒体信息处理技术第四章图像与图形技术：深入介绍图像的数字化、表示（位图、矢量图）、颜色模型（RGB, CMYK, HSV）、图像文件格式（JPEG, PNG, GIF）及其压缩原理。第五章音频技术：讲解声音的物理特性、数字音频的采样、量化、编码（PCM）、音频文件格式（WAV, MP3, AAC）以及音频压缩算法。第六章视频技术：介绍视频的构成（帧、分辨率、帧率）、视频编码的基本原理（帧内预测、帧间预测）、视频压缩标准（MPEG系列，如MPEG-2, MPEG-4, H.264/AVC, H.265/HEVC），以及视频文件格式。第七章动画技术：讲解动画的基本原理、制作方法（二维动画、三维动画）、动画文件格式（如GIF动画、Flash动画）以及其在多媒体中的应用。第三部分：多媒体系统与网络传输第八章多媒体信息存储与管理：讨论多媒体数据存储的特点，以及相应的存储介质（光盘、硬盘、云存储）和文件系统。第九章多媒体数据传输：介绍多媒体数据在网络上传输的挑战，如带宽、延迟、丢包等，以及相关的传输协议（TCP, UDP）和网络优化技术。第十章流媒体技术：详细讲解流媒体的概念、工作原理、流媒体服务器、客户端播放器，以及实时流媒体（RTSP）和点播流媒体（HTTP Streaming）等技术。第十一章多媒体通信：探讨多媒体通信的基本概念，包括视频会议、即时消息、IP电话等，以及相关的通信协议和技术。第十二章 Web多媒体：介绍多媒体在互联网上的应用，如HTML5的媒体标签、JavaScript对媒体的控制、WebRTC等，以及多媒体网页的设计与优化。第四部分：多媒体应用与发展趋势第十三章多媒体软件开发技术：介绍开发多媒体应用所需的相关编程接口（API）、开发工具和框架，以及多媒体内容创作和编辑的基本流程。第十四章多媒体技术应用实例：结合实际案例，介绍多媒体技术在教育、娱乐、医疗、工业设计、虚拟现实/增强现实（VR/AR）等领域的广泛应用。第十五章多媒体技术发展趋势：展望多媒体技术的未来发展方向，如人工智能与多媒体的结合（智能识别、内容生成）、超高清视频、沉浸式多媒体体验、区块链在多媒体版权保护中的应用等。学习建议本书内容丰富，理论性强，建议读者在阅读时：循序渐进：按照章节顺序进行学习，打好基础。勤于思考：积极思考书中的概念和原理，理解其内在逻辑。结合实践：如果条件允许，可以尝试使用相关的开发工具和技术，将理论知识应用于实践。查阅资料：对于某些深入的技术点，可以参考本书提供的参考文献或自行查阅相关文献，以获得更全面的理解。小组讨论：与同学或同行交流学习心得，共同解决疑难问题。《多媒体技术基础（第4版）》将为读者打开通往多媒体技术广阔世界的大门，帮助您深刻理解这项改变我们生活和工作的关键技术。

用户评价

评分☆☆☆☆☆

让我印象深刻的是，这本书并没有止步于讲解现有技术，而是对多媒体技术未来的发展趋势进行了展望。例如，它提到了人工智能在多媒体内容生成、处理和分析方面的巨大潜力，以及5G等新技术对多媒体传输和应用的推动作用。这种前瞻性的视角，让我觉得这本书不仅是一本教科书，更是一扇了解行业未来发展方向的窗口。它激励我不断学习新的知识，紧跟技术发展的步伐。

评分☆☆☆☆☆

让我惊喜的是，这本书在讲解多媒体技术的同时，并没有忽略与之相关的标准和协议。比如，在介绍视频编码时，它详细讲解了MPEG系列标准的发展历程，从MPEG-1到MPEG-4，以及它们各自的特点和优势。虽然初读时可能觉得有些晦涩，但作者通过大量的图示和表格，将复杂的编码流程和技术细节可视化，这对于我理解视频流的传输和解码过程非常有帮助。更重要的是，它让我认识到，多媒体技术的进步不仅仅是算法的革新，更是行业标准的不断统一和完善，这对于多媒体内容的互联互通至关重要。

评分☆☆☆☆☆

总的来说，这本书给我带来的不仅仅是知识，更是一种学习的思维方式。它教会我如何从本质上理解一个技术，如何将其与实际应用联系起来，以及如何展望未来的发展。即使是作为一本基础教材，它也展现出了极高的学术水准和教学艺术。对于任何想要深入了解多媒体技术的朋友来说，这本书都绝对是值得信赖的入门和进阶之选。

评分☆☆☆☆☆

对于我这样的非计算机专业背景的读者来说，这本书最宝贵的一点在于其“科普性”和“启发性”。它没有一味地追求晦涩的理论和高深的公式，而是尽可能地用通俗易懂的语言解释复杂的概念。例如，在介绍多媒体内容分发网络（CDN）时，它不仅仅是罗列了CDN的优势，更是通过比喻和实际案例，让我能够直观地理解CDN是如何提升用户体验的。这种讲解方式，让我能够保持学习的兴趣，也激发了我进一步探索多媒体技术的动力。

评分☆☆☆☆☆

读完这本书，我对多媒体技术的应用前景有了更清晰的认识。书中不仅介绍了基础的技术原理，还通过一些案例，展示了多媒体技术在各个领域的广泛应用，比如数字电视、互联网视频、虚拟现实、增强现实等等。它让我看到了多媒体技术不仅仅是技术本身，更是驱动许多新兴产业发展的重要力量。这种对技术与应用的结合的强调，让我觉得这本书的实用性非常强，也让我对未来的学习和职业发展有了更明确的方向。

评分☆☆☆☆☆

这本书给我的第一印象是“扎实”。作为一本清华大学的“计算机系列教材”，它从一开始就传递出一种严谨和系统的感觉，这对于我这样一个初学者来说，是非常重要的定心丸。书中对于多媒体概念的引入，并非简单罗列定义，而是循序渐进地铺陈开来，从最基础的图像、音频、视频的数字化原理讲起，比如像素的构成、采样率和量化深度的意义，甚至还深入到人耳和人眼对信息的感知特性，这让我明白了为什么这些参数会有这样的设定，而不是死记硬背。

评分☆☆☆☆☆

书中的多媒体网络传输部分，让我对互联网上的音视频内容有了全新的认识。过去，我只知道可以流畅地观看在线视频，但从未想过背后涉及到如此多的技术细节。这本书详细介绍了TCP/IP协议族在多媒体传输中的应用，以及UDP协议在流媒体传输中的优势。更让我印象深刻的是，它还讲解了实时传输协议（RTP）和实时传输控制协议（RTCP）的工作原理，以及它们如何协同工作，确保音视频数据的实时性和可靠性。这让我明白了，为什么有些应用会选择UDP而不是TCP来传输音视频。

评分☆☆☆☆☆

这本书在多媒体同步方面的内容，给我留下了深刻的印象。在现实生活中，我们观看视频、玩游戏，都会涉及到音视频的精确同步，但背后却涉及复杂的理论和技术。这本书对此进行了非常详尽的阐述，从时间戳的定义到同步机制的实现，再到不同应用场景下的同步策略，都做了深入的分析。它让我明白了，为什么有时候我们看到的直播画面会出现音画不同步的情况，以及如何通过各种技术手段来解决这个问题。这种对细节的关注，体现了作者在教学上的严谨和专业。

评分☆☆☆☆☆

这本书在多媒体安全方面的讨论，也让我受益匪浅。在享受多媒体带来的便利时，我们也需要关注其安全性问题，比如版权保护、信息泄露等。书中详细介绍了数字水印、内容加密、身份认证等技术，以及它们在多媒体内容安全中的应用。这让我明白了，如何从技术层面来保障多媒体内容的合法使用和个人信息的安全。这种对安全性的重视，是任何一项技术发展都不可或缺的。

评分☆☆☆☆☆

不得不说，作者在内容的组织上非常有匠心。当我以为只是在学习基础知识时，书中已经悄悄地将各种概念联系起来了。例如，在讲解图像压缩时，它会自然地引出无损压缩和有损压缩的区别，并且详细阐述了它们各自的应用场景和技术原理。JPEG、PNG这些耳熟能详的格式，在这里不再是简单的文件后缀，而是有了它们背后的算法支撑，比如离散余弦变换（DCT）是如何工作的，以及霍夫曼编码如何进一步减小数据量。这种由浅入深的讲解方式，让我能够清晰地看到每一个技术进步背后的逻辑，也为我后续学习更复杂的多媒体处理技术打下了坚实的基础。

评分☆☆☆☆☆

好。

评分☆☆☆☆☆

好。

评分☆☆☆☆☆

好。

评分☆☆☆☆☆

好。

评分☆☆☆☆☆

好。

评分☆☆☆☆☆

好。