音视频基础
创始人
2024-06-02 07:06:28
0

音视频录制原理

音视频播放原理

视频基础

图像表示-RGB格式

RGB是一种颜色编码方法,一个像素分别以R、G、B三个分量来表示

红光(R)

绿光(G)

蓝光(B)

每个像素用8bit表示,色彩:256*256*256=16,777,216

对于一幅图像,一般使用整数表示方法来进行描述,比如计算一张的RGB_888图像的大小,可采用如下方式:

1280×720 * 3 = 2.637 MB,4分钟就达到了15G的容量。

假如是一部90分钟的电影,每秒25帧,则一部电影为

2.637MB*90分钟*60秒*25FPS= 347.651GB

图像表示-YUV格式

YUV的含义

Y表示明亮度(LuminanceLuma),也称灰阶值;

UV表示的则是色度(ChrominanceChroma

YUV格式

YUV分为多种格式:

  • YUV444:每4个Y,配上4个U,4个V
  • YUV422:每4个Y,配上2个U,2个V
  • YUV420:每4个Y,配上1个U,1个V

YUV根据Y、U、V存储方式的不同,可以分成两个格式:

  • 紧缩格式(packed):每个像素点的Y、U、V连续存储,Y1U1V1...YnUnVn
  • 平面格式(planar):先存储所有像素点的Y分量,再存储所有像素点的UV分量。

平面格式(planar)又分为:

  • 平面格式(planar):先存储所有像素的Y,再存储所有像素点U或者V,最后存储V或者U。其中U、V分别连续存储:Y1...Yn U1...Un V1...Vn 或者 Y1...Yn V1...Vn U1...Un
  • 半平面格式(semi-planar):先存储所有像素的Y,再存储所有像素点UV或者VU。其中UV交替存储:Y1...Yn U1V1...UnVn 或者 Y1...Yn V1U1...VnUn

采样方式采用YUV420、存储方式采用平面格式(planar)称为YUV420PYUV420P根据UV顺序不同又分为:

  • I420Y1...Y4n U1...Un V1...Vn (例如:YYYYYYYYUUVV)
  • YV12Y1...Y4n V1...Vn U1...Un (例如:YYYYYYYYVVUU)

采样方式采用YUV420、存储方式采用半平面格式(semi-planar)称为YUV420SPYUV420SP根据UV顺序不同又分为:

  • NV12Y1...Y4n U1V1...UnVn (例如:YYYYYYYYUVUV)
  • NV21Y1...Y4n V1U1...VnUn (例如:YYYYYYYYVUVU)

YUV与RGB互转

  • libyuv
  • opencv

重要概念

视频码率:kb/s**,**是指视频文件在单位时间内使用的数据流量,也叫码流率。码率越大,说明单位时间内取样率越大,数据流精度就越高。

视频帧率fps,通常说一个视频的25帧,指的就是这个视频帧率,即1秒中会显示25帧。帧率越高,给人的视觉就越流畅。

视频分辨率:分辨率就是我们常说的640x480分辨率、1920x1080分辨率,分辨率影响视频图像的大小。

I帧(Intra coded frames):I帧不需要参考其他画面而生成,解码时仅靠自己就重构完整图像;

  • I帧图像采用帧内编码方式;

  • I帧所占数据的信息量比较大;

  • I帧图像是周期性出现在图像序列中的,出现频率可由编码器选择;

  • I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);

  • I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;

  • I帧不需要考虑运动矢量;

P帧(Predicted frames):根据本帧与相邻的前一帧(I帧P帧)的不同点来压缩本帧数据,同时利用了空间和时间上的相关性。P帧属于前向预测的帧间编码。它需要参考前面最靠近它的I帧P帧来解码。

B帧(Bi-directional predicted frames)B 帧图像采用双向时间预测,可以大大提高压缩倍数。

常用视频压缩格式

  • MPEG2 MPEG 阵营

  • H264 MPEG 阵营

  • H265 MPEG 阵营

  • AVS 中国 阵营

  • VP8 Google 阵营

  • VP9 Google 阵营

音频基础

重要概念

  • 声音的物理性质

    • 振动 声音是一种由物体振动引发的物理现象,如小提琴的弦声等。物体的振动使其四周空气的压强产生变化,这种忽强忽弱变化以波的形式向四周传播,当被人耳所接收时,我们就听见了声音。

    • 波形 声音是由物体的振动产生的,这种振动引起了周围空气压强的振荡,我们称这种振荡的函数表现形式为波形.

    • 频率 声音的频率是周期的倒数,它表示的是声音在1秒钟内的周期数,单位是赫兹(Hz)。千赫(kHz),即1000Hz,表示每秒振动1000次。声音按频率可作如下划分:

      • 次声 0~20Hz
      • 人耳能听见的声音 20Hz~20KHz
      • 超声 20KHz~1GHz
      • 特超声 1GHz~10THz
    • 振幅 声音有振幅,振幅的主观感觉是声音的大小。声音的振幅大小取决于空气压力波距平均值(也称平衡态)的最大偏移量。

  • 数字音频 计算机并不直接使用连续平滑的波形来表示声音,它是每隔固定的时间对波形的幅值进行采样,用得到的一系列数字量来表示声音。下图是经过数字采样的波形示意图。

    • 采样频率 根据Nyguist采样定律,要从采样中完全恢复原始信号波形,采样频率必须至少是信号中最高频率的两倍。

      前面提到人耳能听到的频率范围是[20H~20kHz],所以采样频率一般为44.1Khz,这样就能保证声音到达20Khz也能被数字化,从而使得经过数字化处理之后,人耳听到的声音质量不会被降低。

      每秒钟采样的点的个数。常用的采样频率有:

      22000(22kHz): 无线广播。

      44100(44.1kHz): CD音质。

      48000(48kHz): 数字电视,DVD。

      96000(96kHz): 蓝光,高清DVD。

      192000(192kHz): 蓝光,高清DVD。

    • 采样量化

      采样是在离散的时间点上进行的,而采样值本身在计算机中也是离散的。

      采样值的精度取决于它用多少位来表示,这就是量化。例如8位量化可以表示256个不同值,而CD质量的16位量化可以表示65 536个值,范围为[-32768, 32767]。

      下图是一个3位量化的示意图,可以看出3位量化只能表示8个值:0.75,0.5,0.25,0,─0.25,─0.5,─0.75和 ─1,因而量化位数越少,波形就越难辨认,还原后的声音质量也就越差(可能除了一片嗡嗡声之外什么都没有)

    • 编码

      PCM(Pulse Code Modulation),脉冲编码调制。人耳听到的是模拟信号,PCM是把声音从模拟信号转化为数字信号的技术。

  • 音频基础名词

    • 采样精度(采样深度)

      每个“样本点”的大小,

      常用的大小为8bit, 16bit,24bit。

    • 通道数

      单声道,双声道,四声道,5.1声道

    • 比特率

      每秒传输的bit数,单位为:bps(Bit Per Second)

      间接衡量声音质量的一个标准。

      没有压缩的音频数据的比特率 = 采样频率 * 采样精度 * 通道数。

    • 码率

      压缩后的音频数据的比特率。常见的码率:

      96kbps: FM质量

      128-160kbps:一般质量音频。

      192kbps: CD质量。

      256-320Kbps:高质量音频

      码率越大,压缩效率越低,音质越好,压缩后数据越大。

      码率 = 音频文件大小/时长。

    • 每次编码的采样单元数,比如MP3通常是1152个采样点作为一个编码单元,AAC通常是1024个采样点作为一个编码单元。

    • 帧长

      可以指每帧播放持续的时间:每帧持续时间(秒) = 每帧采样点数 / 采样频率(HZ), 比如:MP3 48k, 1152个采样点,每帧则为 24毫秒

      1152/48000= 0.024 秒 = 24毫秒;也可以指压缩后每帧的数据长度。

    • 交错模式

      数字音频信号存储的方式。数据以连续帧的方式存放,即首先记录帧1的左声道样本和右声道样本,再开始帧2的记录…。LRLRLRLR....

    • 非交错模式

      首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本。LLLLL....RRRRRR

    • 举例

      采样频率44100,采样精度16bit,2通道(声道),采集4分钟的数据

      44100*16*2*4*60= ‭338688000‬bit

      ‭338688000‬/8/1024/1024 = 40M字节

      比特率:采样频率 * 采样精度 * 通道数 = 44100*16*2= 1411200bit/s

  • 音频编码基本原理

    数字音频信号如果不加压缩地直接进行传送,将会占用极大的带宽。例如,一套双声道数字音频若取样频率为44.1KHz,每样值按16bit量化,则其码率为:

    2*44.1kHz*16bit=1.411Mbit/s。

    数字音频压缩编码在保证信号在听觉方面不产生失真的前提下,对音频数据信号进行尽可能大的压缩,降低数据量。数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频中不能被人耳感知到的信号,它们对确定声音的音色,音调等信息没有任何的帮助。

    冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。例如,人耳所能察觉的声音信号的频率范围为20Hz~20KHz,除此之外的其它频率人耳无法察觉,都可视为冗余信号。

    此外,根据人耳听觉的生理和心理声学现象,当一个强音信号与一个弱音信号同时存在时,弱音信号将被强音信号所掩蔽而听不见,这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应,主要表现在频谱掩蔽效应和时域掩蔽效应

  • 压缩编码方法

    1.将它们映射到频域中,这种时域到频域的映射可通过子带滤波器实现。每个声道中的音频采样块首先要根据心理声学模型来计算掩蔽门限值;

    2.由计算出的掩蔽门限值决定从公共比特池中分配给该声道的不同频率域中多少比特数,接着进行量化以及编码工作;

    3.将控制参数及辅助数据加入数据之中,产生编码后的数据流。

常用音频编解码器

  • OPUS

  • MP3

  • AAC

  • AC3和EAC3杜比公司的方案

相关内容

热门资讯

常用商务英语口语   商务英语是以适应职场生活的语言要求为目的,内容涉及到商务活动的方方面面。下面是小编收集的常用商务...
六年级上册英语第一单元练习题   一、根据要求写单词。  1.dry(反义词)__________________  2.writ...
复活节英文怎么说 复活节英文怎么说?复活节的英语翻译是什么?复活节:Easter;"Easter,anniversar...
2008年北京奥运会主题曲 2008年北京奥运会(第29届夏季奥林匹克运动会),2008年8月8日到2008年8月24日在中华人...
英语道歉信 英语道歉信15篇  在日常生活中,道歉信的使用频率越来越高,通过道歉信,我们可以更好地解释事情发生的...
六年级英语专题训练(连词成句... 六年级英语专题训练(连词成句30题)  1. have,playhouse,many,I,toy,i...
上班迟到情况说明英语   每个人都或多或少的迟到过那么几次,因为各种原因,可能生病,可能因为交通堵车,可能是因为天气冷,有...
小学英语教学论文 小学英语教学论文范文  引导语:英语教育一直都是每个家长所器重的,那么有关小学英语教学论文要怎么写呢...
英语口语学习必看的方法技巧 英语口语学习必看的方法技巧如何才能说流利的英语? 说外语时,我们主要应做到四件事:理解、回答、提问、...
四级英语作文选:Birth ... 四级英语作文范文选:Birth controlSince the Chinese Governmen...
金融专业英语面试自我介绍 金融专业英语面试自我介绍3篇  金融专业的学生面试时,面试官要求用英语做自我介绍该怎么说。下面是小编...
我的李老师走了四年级英语日记... 我的李老师走了四年级英语日记带翻译  我上了五个学期的小学却换了六任老师,李老师是带我们班最长的语文...
小学三年级英语日记带翻译捡玉... 小学三年级英语日记带翻译捡玉米  今天,我和妈妈去外婆家,外婆家有刚剥的`玉米棒上带有玉米籽,好大的...
七年级英语优秀教学设计 七年级英语优秀教学设计  作为一位兢兢业业的人民教师,常常要写一份优秀的教学设计,教学设计是把教学原...
我的英语老师作文 我的英语老师作文(通用21篇)  在日常生活或是工作学习中,大家都有写作文的经历,对作文很是熟悉吧,...
英语老师教学经验总结 英语老师教学经验总结(通用19篇)  总结是指社会团体、企业单位和个人对某一阶段的学习、工作或其完成...
初一英语暑假作业答案 初一英语暑假作业答案  英语练习一(基础训练)第一题1.D2.H3.E4.F5.I6.A7.J8.C...
大学生的英语演讲稿 大学生的英语演讲稿范文(精选10篇)  使用正确的写作思路书写演讲稿会更加事半功倍。在现实社会中,越...
VOA美国之音英语学习网址 VOA美国之音英语学习推荐网址 美国之音网站已经成为语言学习最重要的资源站点,在互联网上还有若干网站...
商务英语期末试卷 Part I Term Translation (20%)Section A: Translate ...