音视频基础
创始人
2024-06-02 07:06:28
0

音视频录制原理

音视频播放原理

视频基础

图像表示-RGB格式

RGB是一种颜色编码方法,一个像素分别以R、G、B三个分量来表示

红光(R)

绿光(G)

蓝光(B)

每个像素用8bit表示,色彩:256*256*256=16,777,216

对于一幅图像,一般使用整数表示方法来进行描述,比如计算一张的RGB_888图像的大小,可采用如下方式:

1280×720 * 3 = 2.637 MB,4分钟就达到了15G的容量。

假如是一部90分钟的电影,每秒25帧,则一部电影为

2.637MB*90分钟*60秒*25FPS= 347.651GB

图像表示-YUV格式

YUV的含义

Y表示明亮度(LuminanceLuma),也称灰阶值;

UV表示的则是色度(ChrominanceChroma

YUV格式

YUV分为多种格式:

  • YUV444:每4个Y,配上4个U,4个V
  • YUV422:每4个Y,配上2个U,2个V
  • YUV420:每4个Y,配上1个U,1个V

YUV根据Y、U、V存储方式的不同,可以分成两个格式:

  • 紧缩格式(packed):每个像素点的Y、U、V连续存储,Y1U1V1...YnUnVn
  • 平面格式(planar):先存储所有像素点的Y分量,再存储所有像素点的UV分量。

平面格式(planar)又分为:

  • 平面格式(planar):先存储所有像素的Y,再存储所有像素点U或者V,最后存储V或者U。其中U、V分别连续存储:Y1...Yn U1...Un V1...Vn 或者 Y1...Yn V1...Vn U1...Un
  • 半平面格式(semi-planar):先存储所有像素的Y,再存储所有像素点UV或者VU。其中UV交替存储:Y1...Yn U1V1...UnVn 或者 Y1...Yn V1U1...VnUn

采样方式采用YUV420、存储方式采用平面格式(planar)称为YUV420PYUV420P根据UV顺序不同又分为:

  • I420Y1...Y4n U1...Un V1...Vn (例如:YYYYYYYYUUVV)
  • YV12Y1...Y4n V1...Vn U1...Un (例如:YYYYYYYYVVUU)

采样方式采用YUV420、存储方式采用半平面格式(semi-planar)称为YUV420SPYUV420SP根据UV顺序不同又分为:

  • NV12Y1...Y4n U1V1...UnVn (例如:YYYYYYYYUVUV)
  • NV21Y1...Y4n V1U1...VnUn (例如:YYYYYYYYVUVU)

YUV与RGB互转

  • libyuv
  • opencv

重要概念

视频码率:kb/s**,**是指视频文件在单位时间内使用的数据流量,也叫码流率。码率越大,说明单位时间内取样率越大,数据流精度就越高。

视频帧率fps,通常说一个视频的25帧,指的就是这个视频帧率,即1秒中会显示25帧。帧率越高,给人的视觉就越流畅。

视频分辨率:分辨率就是我们常说的640x480分辨率、1920x1080分辨率,分辨率影响视频图像的大小。

I帧(Intra coded frames):I帧不需要参考其他画面而生成,解码时仅靠自己就重构完整图像;

  • I帧图像采用帧内编码方式;

  • I帧所占数据的信息量比较大;

  • I帧图像是周期性出现在图像序列中的,出现频率可由编码器选择;

  • I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);

  • I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;

  • I帧不需要考虑运动矢量;

P帧(Predicted frames):根据本帧与相邻的前一帧(I帧P帧)的不同点来压缩本帧数据,同时利用了空间和时间上的相关性。P帧属于前向预测的帧间编码。它需要参考前面最靠近它的I帧P帧来解码。

B帧(Bi-directional predicted frames)B 帧图像采用双向时间预测,可以大大提高压缩倍数。

常用视频压缩格式

  • MPEG2 MPEG 阵营

  • H264 MPEG 阵营

  • H265 MPEG 阵营

  • AVS 中国 阵营

  • VP8 Google 阵营

  • VP9 Google 阵营

音频基础

重要概念

  • 声音的物理性质

    • 振动 声音是一种由物体振动引发的物理现象,如小提琴的弦声等。物体的振动使其四周空气的压强产生变化,这种忽强忽弱变化以波的形式向四周传播,当被人耳所接收时,我们就听见了声音。

    • 波形 声音是由物体的振动产生的,这种振动引起了周围空气压强的振荡,我们称这种振荡的函数表现形式为波形.

    • 频率 声音的频率是周期的倒数,它表示的是声音在1秒钟内的周期数,单位是赫兹(Hz)。千赫(kHz),即1000Hz,表示每秒振动1000次。声音按频率可作如下划分:

      • 次声 0~20Hz
      • 人耳能听见的声音 20Hz~20KHz
      • 超声 20KHz~1GHz
      • 特超声 1GHz~10THz
    • 振幅 声音有振幅,振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值(也称平衡态)的最大偏移量。

  • 数字音频 计算机并不直接使用连续平滑的波形来表示声音,它是每隔固定的时间对波形的幅值进行采样,用得到的一系列数字量来表示声音。下图是经过数字采样的波形示意图。

    • 采样频率 根据Nyguist采样定律,要从采样中完全恢复原始信号波形,采样频率必须至少是信号中最高频率的两倍。

      前面提到人耳能听到的频率范围是[20H~20kHz],所以采样频率一般为44.1Khz,这样就能保证声音到达20Khz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低。

      每秒钟采样的点的个数。常用的采样频率有:

      22000(22kHz): 无线广播。

      44100(44.1kHz): CD音质。

      48000(48kHz): 数字电视,DVD。

      96000(96kHz): 蓝光,高清DVD。

      192000(192kHz): 蓝光,高清DVD。

    • 采样量化

      采样是在离散的时间点上进行的,而采样值本身在计算机中也是离散的。

      采样值的精度取决于它用多少位来表示,这就是量化。例如8位量化可以表示256个不同值,而CD质量的16位量化可以表示65 536个值,范围为[-32768, 32767]。

      下图是一个3位量化的示意图,可以看出3位量化只能表示8个值:0.75,0.5,0.25,0,─0.25,─0.5,─0.75和 ─1,因而量化位数越少,波形就越难辨认,还原后的声音质量也就越差(可能除了一片嗡嗡声之外什么都没有)

    • 编码

      PCM(Pulse Code Modulation),脉冲编码调制。人耳听到的是模拟信号,PCM是把声音从模拟信号转化为数字信号的技术。

  • 音频基础名词

    • 采样精度(采样深度)

      每个“样本点”的大小,

      常用的大小为8bit, 16bit,24bit。

    • 通道数

      单声道,双声道,四声道,5.1声道

    • 比特率

      每秒传输的bit数,单位为:bps(Bit Per Second)

      间接衡量声音质量的一个标准。

      没有压缩的音频数据的比特率 = 采样频率 * 采样精度 * 通道数。

    • 码率

      压缩后的音频数据的比特率。常见的码率:

      96kbps: FM质量

      128-160kbps:一般质量音频。

      192kbps: CD质量。

      256-320Kbps:高质量音频

      码率越大,压缩效率越低,音质越好,压缩后数据越大。

      码率 = 音频文件大小/时长。

    • 每次编码的采样单元数,比如MP3通常是1152个采样点作为一个编码单元,AAC通常是1024个采样点作为一个编码单元。

    • 帧长

      可以指每帧播放持续的时间:每帧持续时间(秒) = 每帧采样点数 / 采样频率(HZ), 比如:MP3 48k, 1152个采样点,每帧则为 24毫秒

      1152/48000= 0.024 秒 = 24毫秒;也可以指压缩后每帧的数据长度。

    • 交错模式

      数字音频信号存储的方式。数据以连续帧的方式存放,即首先记录帧1的左声道样本和右声道样本,再开始帧2的记录…。LRLRLRLR....

    • 非交错模式

      首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本。LLLLL....RRRRRR

    • 举例

      采样频率44100,采样精度16bit,2通道(声道),采集4分钟的数据

      44100*16*2*4*60= ‭338688000‬bit

      ‭338688000‬/8/1024/1024 = 40M字节

      比特率:采样频率 * 采样精度 * 通道数 = 44100*16*2= 1411200bit/s

  • 音频编码基本原理

    数字音频信号如果不加压缩地直接进行传送,将会占用极大的带宽。例如,一套双声道数字音频若取样频率为44.1KHz,每样值按16bit量化,则其码率为:

    2*44.1kHz*16bit=1.411Mbit/s。

    数字音频压缩编码在保证信号在听觉方面不产生失真的前提下,对音频数据信号进行尽可能大的压缩,降低数据量。数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频中不能被人耳感知到的信号,它们对确定声音的音色,音调等信息没有任何的帮助。

    冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。例如,人耳所能察觉的声音信号的频率范围为20Hz~20KHz,除此之外的其它频率人耳无法察觉,都可视为冗余信号。

    此外,根据人耳听觉的生理和心理声学现象,当一个强音信号与一个弱音信号同时存在时,弱音信号将被强音信号所掩蔽而听不见,这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应,主要表现在频谱掩蔽效应和时域掩蔽效应

  • 压缩编码方法

    1.将它们映射到频域中,这种时域到频域的映射可通过子带滤波器实现。每个声道中的音频采样块首先要根据心理声学模型来计算掩蔽门限值;

    2.由计算出的掩蔽门限值决定从公共比特池中分配给该声道的不同频率域中多少比特数,接着进行量化以及编码工作;

    3.将控制参数及辅助数据加入数据之中,产生编码后的数据流。

常用音频编解码器

  • OPUS

  • MP3

  • AAC

  • AC3和EAC3杜比公司的方案

相关内容

热门资讯

安全生产会议的致辞 安全生产会议的致辞(精选5篇)  在日常的学习、工作、生活中,要用到致辞的地方还是很多的,致辞具有“...
最新半台词分享 最新三句半台词分享  俺们几个话挺多,大家不要嫌罗嗦,希望能够捧捧场,鼓掌!  北京先把地方占,天津...
《教父》经典台词中英文对照 《教父》经典台词中英文对照  1、To be close to your friend, but c...
播音主持稿 播音主持稿(精选21篇)  在现在的社会生活中,我们很多时候都不得不用到主持稿,主持稿是主持人为把整...
年会主持词 精选年会主持词四篇  主持词要注意活动对象,针对活动对象写相应的主持词。在现今人们越来越重视活动氛围...
金秋国庆主持词开场白 金秋国庆主持词开场白  国庆节是我们祖国母亲的生日,下面unjs小编整理了金秋国庆主持词开场白,欢迎...
金榜题名升学宴主持词 金榜题名升学宴主持词  金榜题名升学宴主持词开场白(一)  大家中午好!  在这鸟语花香、绿意盎然的...
春节晚会主持词串词 春节晚会主持词串词(精选10篇)  在人们积极参与各种活动的今天,我们越来越需要串词,有的时候,涉及...
高考动员大会主持词 高考动员大会主持词  同学们:  大家早上好!  xxxx年高考就要拉开帷幕,可谓弓已经在弦,剑已经...
职工代表大会会议主持词 职工代表大会会议主持词  职工代表大会是职工群众当家作主,参加企业经营决策、管理、监督干部、行使民主...
运动会闭幕式的主持词 运动会闭幕式的主持词(精选5篇)  主持词是主持人在节目进行过程中用于串联节目的串联词。在当今社会中...
德芙橱窗篇广告 德芙橱窗篇广告德芙橱窗篇广告评论整个广告的广告词只有简简单单的“德芙,此刻尽丝滑”,却给人很深刻的印...
《老友记》中超中英文对照经典... 《老友记》中超实用的中英文对照经典台词  《老友记》可以说是最风靡中国的`一部学习美语的剧集了。这几...
员工生日主持词 员工生日主持词3篇  篇一:公司员工集体生日晚会主持词主持人开场白:(背景音乐:激动人心)  各位领...
三八主持词开场白 三八主持词开场白  在现实社会中,很多时候,我们都不可避免的需要用到开场白,独具匠心的开场白,才能给...
篮球比赛主持人串词 篮球比赛主持人串词时 间:---地 点:----主持人:----尊敬的各位领导、各位嘉宾、同学们,大...
六一文艺汇演活动小主持人台词 六一文艺汇演活动小主持人台词尊敬的各位领导.各位老师.各位家长.亲爱的小朋友们:  大家上午好!您现...
金榜题名庆典主持词 金榜题名庆典主持词  主持词需要富有情感,充满热情,才能有效地吸引到观众。在当今中国社会,司仪等是很...
辩论赛主持稿 辩论赛主持稿(4篇)  一场精彩的辩论赛不能少的就是我们的主持人以及他的主持稿了,这个主持稿大家准备...
半搞笑开场白 三句半搞笑开场白三句半搞笑开场白元旦三句半台词贺新年三句半台词辞旧迎新又一年,敲锣打鼓恁别嫌,先给大...