音视频基础_资讯_华丰美文网

音视频基础

创始人

2024-06-02 07:06:28

0次

音视频录制原理

音视频播放原理

视频基础

图像表示-RGB格式

RGB是一种颜色编码方法，一个像素分别以R、G、B三个分量来表示

红光（R）

绿光（G）

蓝光（B）

每个像素用8bit表示，色彩：256*256*256=16,777,216

对于一幅图像，一般使用整数表示方法来进行描述，比如计算一张的RGB_888图像的大小，可采用如下方式：

1280×720 * 3 = 2.637 MB，4分钟就达到了15G的容量。

假如是一部90分钟的电影，每秒25帧，则一部电影为

2.637MB*90分钟*60秒*25FPS= 347.651GB

图像表示-YUV格式

YUV的含义

Y表示明亮度（Luminance或Luma），也称灰阶值；

U和V表示的则是色度（Chrominance或Chroma）

YUV格式

YUV分为多种格式：

YUV444：每4个Y，配上4个U，4个V
YUV422：每4个Y，配上2个U，2个V
YUV420：每4个Y，配上1个U，1个V

YUV根据Y、U、V存储方式的不同，可以分成两个格式：

紧缩格式（packed）：每个像素点的Y、U、V连续存储，Y1U1V1...YnUnVn。
平面格式（planar）：先存储所有像素点的Y分量，再存储所有像素点的UV分量。

平面格式（planar）又分为：

平面格式（planar）：先存储所有像素的Y，再存储所有像素点U或者V，最后存储V或者U。其中U、V分别连续存储：Y1...Yn U1...Un V1...Vn 或者 Y1...Yn V1...Vn U1...Un。
半平面格式（semi-planar）：先存储所有像素的Y，再存储所有像素点UV或者VU。其中U、V交替存储：Y1...Yn U1V1...UnVn 或者 Y1...Yn V1U1...VnUn。

采样方式采用YUV420、存储方式采用平面格式（planar）称为YUV420P。YUV420P根据U和V顺序不同又分为：

I420： Y1...Y4n U1...Un V1...Vn (例如：YYYYYYYYUUVV)
YV12：Y1...Y4n V1...Vn U1...Un (例如：YYYYYYYYVVUU)

采样方式采用YUV420、存储方式采用半平面格式（semi-planar）称为YUV420SP，YUV420SP根据U和V顺序不同又分为：

NV12： Y1...Y4n U1V1...UnVn (例如：YYYYYYYYUVUV)
NV21：Y1...Y4n V1U1...VnUn (例如：YYYYYYYYVUVU)

YUV与RGB互转

libyuv
opencv

重要概念

视频码率：kb/s**，**是指视频文件在单位时间内使用的数据流量，也叫码流率。码率越大，说明单位时间内取样率越大，数据流精度就越高。

视频帧率：fps，通常说一个视频的25帧，指的就是这个视频帧率，即1秒中会显示25帧。帧率越高，给人的视觉就越流畅。

视频分辨率：分辨率就是我们常说的640x480分辨率、1920x1080分辨率，分辨率影响视频图像的大小。

I帧（Intra coded frames）：I帧不需要参考其他画面而生成，解码时仅靠自己就重构完整图像;

I帧图像采用帧内编码方式;
I帧所占数据的信息量比较大;
I帧图像是周期性出现在图像序列中的，出现频率可由编码器选择;
I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);
I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;
I帧不需要考虑运动矢量;

P帧（Predicted frames）：根据本帧与相邻的前一帧（I帧或P帧）的不同点来压缩本帧数据，同时利用了空间和时间上的相关性。P帧属于前向预测的帧间编码。它需要参考前面最靠近它的I帧或P帧来解码。

B帧（Bi-directional predicted frames）：B 帧图像采用双向时间预测，可以大大提高压缩倍数。

常用视频压缩格式

MPEG2 MPEG 阵营
H264 MPEG 阵营
H265 MPEG 阵营
AVS 中国阵营
VP8 Google 阵营
VP9 Google 阵营

音频基础

重要概念

声音的物理性质
- 振动声音是一种由物体振动引发的物理现象，如小提琴的弦声等。物体的振动使其四周空气的压强产生变化，这种忽强忽弱变化以波的形式向四周传播，当被人耳所接收时，我们就听见了声音。
- 波形声音是由物体的振动产生的，这种振动引起了周围空气压强的振荡，我们称这种振荡的函数表现形式为波形.
- 频率声音的频率是周期的倒数，它表示的是声音在1秒钟内的周期数，单位是赫兹(Hz)。千赫(kHz),即1000Hz,表示每秒振动1000次。声音按频率可作如下划分:
  - 次声 0～20Hz
  - 人耳能听见的声音 20Hz～20KHz
  - 超声 20KHz～1GHz
  - 特超声 1GHz～10THz
- 振幅声音有振幅，振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值(也称平衡态)的最大偏移量。
数字音频 计算机并不直接使用连续平滑的波形来表示声音，它是每隔固定的时间对波形的幅值进行采样，用得到的一系列数字量来表示声音。下图是经过数字采样的波形示意图。
- 采样频率 根据Nyguist采样定律，要从采样中完全恢复原始信号波形，采样频率必须至少是信号中最高频率的两倍。
  
  前面提到人耳能听到的频率范围是[20H~20kHz]，所以采样频率一般为44.1Khz，这样就能保证声音到达20Khz也能被数字化，从而使得经过数字化处理之后，人耳听到的声音质量不会被降低。
  
  每秒钟采样的点的个数。常用的采样频率有：
  
  22000（22kHz）：无线广播。
  
  44100（44.1kHz）： CD音质。
  
  48000（48kHz）：数字电视，DVD。
  
  96000（96kHz）：蓝光，高清DVD。
  
  192000(192kHz): 蓝光，高清DVD。
- 采样量化
  
  采样是在离散的时间点上进行的，而采样值本身在计算机中也是离散的。
  
  采样值的精度取决于它用多少位来表示，这就是量化。例如8位量化可以表示256个不同值，而CD质量的16位量化可以表示65 536个值，范围为[-32768, 32767]。
  
  下图是一个3位量化的示意图，可以看出3位量化只能表示8个值:0.75,0.5,0.25,0,─0.25,─0.5,─0.75和 ─1，因而量化位数越少，波形就越难辨认，还原后的声音质量也就越差(可能除了一片嗡嗡声之外什么都没有)
- 编码
  
  PCM(Pulse Code Modulation)，脉冲编码调制。人耳听到的是模拟信号，PCM是把声音从模拟信号转化为数字信号的技术。
音频基础名词
- 采样精度（采样深度）
  
  每个“样本点”的大小，
  
  常用的大小为8bit， 16bit，24bit。
- 通道数
  
  单声道，双声道，四声道，5.1声道
- 比特率
  
  每秒传输的bit数，单位为：bps（Bit Per Second）
  
  间接衡量声音质量的一个标准。
  
  没有压缩的音频数据的比特率 = 采样频率 * 采样精度 * 通道数。
- 码率
  
  压缩后的音频数据的比特率。常见的码率：
  
  96kbps： FM质量
  
  128-160kbps：一般质量音频。
  
  192kbps： CD质量。
  
  256-320Kbps：高质量音频
  
  码率越大，压缩效率越低，音质越好，压缩后数据越大。
  
  码率 = 音频文件大小/时长。
- 帧
  
  每次编码的采样单元数，比如MP3通常是1152个采样点作为一个编码单元，AAC通常是1024个采样点作为一个编码单元。
- 帧长
  
  可以指每帧播放持续的时间：每帧持续时间(秒) = 每帧采样点数 / 采样频率（HZ），比如：MP3 48k, 1152个采样点,每帧则为 24毫秒
  
  1152/48000= 0.024 秒 = 24毫秒；也可以指压缩后每帧的数据长度。
- 交错模式
  
  数字音频信号存储的方式。数据以连续帧的方式存放，即首先记录帧1的左声道样本和右声道样本，再开始帧2的记录…。LRLRLRLR....
- 非交错模式
  
  首先记录的是一个周期内所有帧的左声道样本，再记录所有右声道样本。LLLLL....RRRRRR
- 举例
  
  采样频率44100，采样精度16bit，2通道（声道），采集4分钟的数据
  
  44100*16*2*4*60= ‭338688000‬bit
  
  ‭338688000‬/8/1024/1024 = 40M字节
  
  比特率：采样频率 * 采样精度 * 通道数 = 44100*16*2= 1411200bit/s
音频编码基本原理

数字音频信号如果不加压缩地直接进行传送，将会占用极大的带宽。例如，一套双声道数字音频若取样频率为44.1KHz，每样值按16bit量化，则其码率为：

2*44.1kHz*16bit=1.411Mbit/s。

数字音频压缩编码在保证信号在听觉方面不产生失真的前提下，对音频数据信号进行尽可能大的压缩，降低数据量。数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频中不能被人耳感知到的信号，它们对确定声音的音色，音调等信息没有任何的帮助。

冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。例如，人耳所能察觉的声音信号的频率范围为20Hz～20KHz，除此之外的其它频率人耳无法察觉，都可视为冗余信号。

此外，根据人耳听觉的生理和心理声学现象，当一个强音信号与一个弱音信号同时存在时，弱音信号将被强音信号所掩蔽而听不见，这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应，主要表现在频谱掩蔽效应和时域掩蔽效应
压缩编码方法

1.将它们映射到频域中,这种时域到频域的映射可通过子带滤波器实现。每个声道中的音频采样块首先要根据心理声学模型来计算掩蔽门限值；

2.由计算出的掩蔽门限值决定从公共比特池中分配给该声道的不同频率域中多少比特数，接着进行量化以及编码工作；

3.将控制参数及辅助数据加入数据之中，产生编码后的数据流。