Redis原理篇（二）网络模型_资讯

Redis原理篇（二）网络模型

创始人

2024-05-20 17:25:10

0次

一、用户空间和内核空间

应用需要通过Linux内核与硬件交互。
在这里插入图片描述
内核本质也是应用，运行的时候也需要CPU资源、内存资源。用户应用也在消耗这些资源。
为了避免用户应用导致冲突甚至内核崩溃，用户应用与内核是分离的：

进程的寻址空间会划分为两部分：内核空间、用户空间
用户空间只能执行受限的命令（Ring3）,而且不能直接调用系统资源，必须通过内核提供的接口来访问
内核空间可以执行特权命令（Ring0）,调用一切系统资源。

寻址空间：无论内核还是用户应用，都无法直接访问物理内存，而是分配虚拟的内存空间，映射到不同的物理内存空间。内核和用户应用，再去访问虚拟内存空间，就需要有对应的虚拟地址（无符号的整数）
示例：32位系统，带宽32，地址的最大值就是2的32次方，也就是寻址的范围从0到2的32次方，也就是4GB.
在这里插入图片描述

在这里插入图片描述

IO在用户空间和内核空间切换的整体流程：
在这里插入图片描述

二、阻塞IO

访问流程图
在这里插入图片描述
顾名思义，阻塞IO就是两个阶段都必须阻塞等待。

三、非阻塞IO

顾名思义，非阻塞IO的recvfrom操作会立即返回结果而不是阻塞用户进程。
在这里插入图片描述
可以看到，非阻塞IO模型中，用户进程在第一个阶段是非阻塞，第二个阶段是阻塞状态。虽然是非阻塞，但是性能并没有得到提高。而且忙等机制导致CPU空转，CPU使用率暴增。

四、IO多路复用

1、背景

无论是阻塞IO还是非阻塞IO，用户应用在一阶段都需要调用recvfrom来获取数据，差别在于无数据时的处理方案：

如果调用recvfrom时，恰好没有数据，阻塞IO会使进程阻塞，非阻塞IO使CPU空转，都不能充分发挥CPU的作用。
如果调用recvfrom时，恰好有数据，则用户进程可以直接进入第二阶段，读取并处理数据

比如服务端处理客户端Socket请求时，在单线程情况下，只能依次处理每一个socket，如果正在处理的soket恰好未就绪(数据不可读或不可写)，线程就会被阻寒，所有其它客户端socket都必须等待，性能自然会很差。
这就像服务员给顾客点餐，分两步:
1、顾客思考要吃什么(等待数据就绪)；
2、顾客想好了，开始点餐(读取数据)。

第一步要提高效率的几种方法：
1、方案一：增加更多服务员(多线程)
2、方案二：不排队，谁想好了吃什么(数据就绪了)，服务员就给谁点餐(用户应用就去读取数据)

那么问题来了：用户进程如何知道内核中数据是否就绪呢?

2、IO多路复用

文件描述符(File Descriptor)：简称FD，是一个从0 开始递增的无符号整数，用来关联Linux中的一个文件。在Linux中，一切皆文件，例如常规文件、视频、硬件设备等，当然也包括网络套接字 (Socket)。
IO多路复用：是利用单个线程来同时监听多个FD，并在某个FD可读、可写时得到通知，从而避免无效的等待，充分利用CPU资源。
在这里插入图片描述
监听FD的方式、通知的方式又有多种实现，常见的有：
1、select
2、poll
3、epoll
差异：
（1）select和poll只会通知用户进程有FD就绪，但不确定具体是哪个FD，需要用户进程逐个遍历FD来确认；
（2）epoll则会在通知用户进程FD就绪的同时，把已就绪的FD写入用户空间

3、select

（1）底层框架

select是Linux中最早的I/O多路复用时限方案：
在这里插入图片描述

（2）执行流程

用户空间创建fd_set rfds，默认值0，大小1024bit位
用户空间假如要监听 fd=1,2,5，把1、2、5bit位置为1
用户空间执行select(5+1, rfds, null, null, 3)
用户空间拷贝fd_set 到内核空间
内核空间遍历fd_set
内核空间没有就绪，则休眠。
内核空间等待数据就绪，被唤醒或超时。未就绪的改成0
内核空间拷贝fd_set 到用户空间，覆盖用户空间的fd_set
用户空间遍历fd_set，找到就绪的fd，读取其中数据

在这里插入图片描述

（3） select模式存在的问题

需要将整个fd_set从用户空间拷贝到内核空间，select结束还要再次拷贝回用户空间
select无法得知具体是哪个fd就绪，需要遍历整个fd_set
fd_set监听的fd数量不能超过1024

4、poll

（1）底层框架

poll模式对select模式进行了简单改进，但性能提升不明显。
在这里插入图片描述

（2）执行流程

创建pollfd数组，向其中添加关注的fd信息，数组大小自定义
调用poll函数，将pollfd数组拷贝到内核空间，转链表存储，无上限
内核遍历fd，判断是否就绪
数据就绪或超时后，拷贝pollfd数组到用户空间，返回就绪fd数量n
用户进程判断n是否大于0
大于0则遍历pollfd数组，找到就绪的fd

（3）对比select

select模式中的fd_set大小固定为1024，而pollfd在内核中采用链表，理论上无上限
监听FD越多，每次遍历消耗时间也越久，性能反而会下降

5、epoll

（1）底层代码

epoll模式是对select和poll的改进，它提供了三个函数：
在这里插入图片描述

（2）执行流程

1、调用epoll_create(1),创建epoll实例
在这里插入图片描述
2、调用epoll_ctl(…)，添加要监听的FD，关联callback，当callback触发时，把对应的FD加入到链表list_head中。

3、epoll_wait(…, events)等待FD就绪
在这里插入图片描述

6、总结

1、select模式存在的三个问题：

能监听的FD最大不超过1024
每次select都需要把所有要监听的FD都拷贝到内核空间
每次都要遍历所有FD来判断就绪状态
2、poll模式的问题：
poll利用链表解决了select中监听FD上限的问题，但依然要遍历所有FD，如果监听较多，性能会下降
3、epoll模式中如何解决这些问题的?
基于epoll实例中的红黑树保存要监听的FD，理论上无上限，而且增删改查效率都非常高，性能不会随监听的FD数量增多而下降
每个FD只需要执行一次epoll_ctl添加到红黑树，以后每次epol_wait无需传递任何参数，无需重复拷贝FD到内核空间
内核会将就绪的FD直接拷贝到用户空间的指定位置，用户进程无需遍历所有FD就能知道就绪的FD是谁

7、事件通知机制

当FD有数据可读时，我们调用epoll_wait就可以得到通知。事件通知的模式有两种：

LevelTriggered：简称LT。当FD有数据可读时，会重复通知多次，直到数据处理完成。是Epoll的默认模式。
EdgeTriggered：简称ET。当FD有数据可读时，只会被通知一次。不管数据是否处理完成。

区别：
拷贝数据之前，会将链表中的fd从list_head中断开连接，然后拷贝。
假如数据没有处理完，
当采用ET时，直接删掉fd，再次调用epoll_wait，list_head中没有数据；
当采用LT，会再次添加到 list_head，再次调用epoll_wait，list_head中有数据；

在这里插入图片描述
结论：

ET模式避免了LT模式可能出现的惊群现象
ET模式最好结合非阻塞IO读取FD数据，相比LT会复杂一些

8、web服务流程

基于epoll模式的web服务的基本流程图：
在这里插入图片描述

五、信号驱动IO

信号驱动IO是与内核建立SIGIO的信号关联并设置回调，当内核有FD就绪时，会发出SIGIO信号通知用户，期间用户应用可
以执行其它业务，无需阻塞等待，
在这里插入图片描述
当有大量IO操作时，信号较多，SIGIO处理函数不能及时处理可能导致信号队列溢出。
而且内核空间与用户空间的频繁信号交互性能也较低。