线程的执行原创
承接上文CPU原理简介
程序的执行是由控制器发信号推动整个程序一步一步向前走,将数据存储在寄存器,从程序计数器中获取指令,比如先把3放到寄存器,再把5放到寄存器,再做一个加法,加法就是一个指令,从二进制的角度它也是01构成。
QQ.exe从硬盘读到内存里,内存里面装的全是二进制01,一个程序放到内存里面完全是由01信号构成。
如何区分二进制01是指令还是数据?
二进制01可以把它看成一个指令,比如add指令,也可以看作是数据,比如5,如何区分这个二进制是指令还是数据?这是由IO Bridge(总线)来控制的,总线是从内存到CPU之间的一条数据线路。
总线分3种类型:控制线、地址线、数据线;从地址线读过来的就是地址,从控制线读过来的就是指令,从数据线读过来的就是数据。
地址线是由cpu中专门的地址寄存器来控制的,通过地址线去寻找地址,比如读的是0101地址就去读取0101地址区域内存储的数字, 这个数字只要通过控制线过来的,就是指令加法,如果是数据线过来就是数据5。
各干各自的事情,就看从哪里读过来的。
地址线是一个寻址的线,QQ.exe这个程序放到内存之后,它一定会放到内存的某个地址上,比如这个地址是3号地址,在3号地址的起始位置是main方法,在起步的位置一定会放一条指令,操作系统会通知cpu,你去读3号地址,先把指令读过来,读过来指令如果是add,它就会通知地址线,把后面的2个数字都读过来,读到寄存器,然后计算单元开始做add计算,计算完了之后,存到某个寄存器,然后再写回内存。
QQ.exe双击之后放到内存里,一定会放到内存的某个地址上,比如内存地址从1号到1万号这么多的地址,比如把QQ.exe放3号地址,整个程序占用从3号到2000号地址区间,最开始的号一定是main方法所占的,最开始读的时候从3号地址开始读,操作系统通知cpu,我现在要运行一个程序,这个程序从3号到2000号,你现在必须给我马上运行它,从3号地址开始读一条指令过来,所以通过控制总线读过来一条指令,这条指令是add,add指令的执行是需要数据的,需要2个数字相加,接下来操作系统会告诉你去哪个位置,比如去4号位置、5号位置去把那2个数字读过来,放到寄存器,放完了之后,运算单元去运算,运算完了之后,把结果放到某个寄存器,再把它写回到内存中的某个位置去,每个程序都有自己的地址空间,从虚拟内存到真正放到物理内存的时候需要做一个地址的映射。
一个程序的执行,首先把可执行文件放到内存,找到起始位置即main开始的地址,进行读取指令和数据,进行计算并写回内存。
什么是线程?什么是进程?
最开始的进程只能执行一个程序 ,必须等我自己把这个程序执行完,其他程序才可以执行。最开始的计算机只有一个cpu、一个计算单元,让它做程序的计算。先把自己的程序写到闪存卡上,插上去,按下按钮,计算机开始执行,计算机执行这个程序的时候,决对不会执行另外一个闪存卡,这个时候是单任务的。
执行3+5这段代码叫一个任务,这个任务放到计算机执行,只要它放到内存里面就称之为一个进程,只要有一个程序进入内存就可以称为一个进程,进程的概念反映到内存里,一个程序进入内存被称之为进程。
一个程序可以跑多个进程吗?一个QQ.exe是可以运行多份的,一个程序本身是可以有多个进程的。
内存中的2个进程对应的程序是一个,随着程序的越来越复杂,人们发现不可能同时只一个进程。
2张闪存卡,就会有2个进程,但只有一个计算单元怎么能同时计算2个程序?
分时间计算即时间分片,同一个进程里面也可能要求2个不同的任务同时执行,比如一个带图形的界面,输入数字,服务端做计算,也要响应用户的输入输出,也可能正在接受网络传输的数据,即有多个任务在同时进行。
同一个进程内部有多个任务并发执行的需求,比如一边计算、一边接受网络数据、一边刷新界面,需要设计一种机制同时并发的运行,能不能把原来的一个进程分成3个进程?其实没有必要引入线程的概念,完全用多进程就行了,但进程有个严重的问题:每个进程都有自己地址空间,进程之间有同步和共享数据的过程,很容易出现一件事情,写我自己的进程时候很容易把另外的进程搞死,到此终于发明了线程。
多线程执行多个任务只使用了计算单元,并没有自己具体的地址空间,如果这3个任务想去访问数据的话,访问的是进程里面的同一份空间的数据即共享进程的空间,但是并不共享计算。
进程是静态的概念,一个程序只要放到内存,分配对应的资源主要是内存空间;线程是动态概念,可执行计算任务。
第一个进程进入内存之后,都会对应一个主线程,进程是分配资源用的,分配的资源是和存储、文件、网络相关的,最主要的是空间资源,进程都有自己的空间,线程是共享进程的空间。
一个线程访问的进程中的同一份数据,多线程访问同一份数据,就会产生并发的问题。
线程是一条一条指令执行的,它没有数据,数据在进程里。协程是用户级别的线程。
为什么同一个代码可以被多个线程所执行?
线程是可执行的计算单元,做任务计算,如果一个cpu只有一个ALU,一个cpu的内核同一个时间只能执行一个线程,比如递归操作,看上去是同一段代码,同一段代码为什么可以被多个线程执行?
这颗cpu或这个计算单元正在执行的也是这段代码,另外一个cpu正在执行的也是这段代码,2个线程,同一份代码即同一份指令,同一份指令怎么有多个线程在执行?
虽然是同一份指令,但有可能里面的数据是不一样的,每次执行参数都是不一样的,比如递归,第一次入参是n,第二次入参是n-1,即便参数是一样的,也可以同时执行2次,这里就会牵扯到线程切换的问题,多个cpu永远不可能执行同一个线程,
cpu正在执行t1,t1有它自己的指令和数据,这些数据是需要放到寄存器的,在t1没有执行完的时候,比如10多毫秒的时间片到了,切换到t2,t2执行完回来又轮到t1,t1不需要从头开始执行,要把t1执行到哪里了给记录下来,保存好上下文;t1执行到了哪条指令以及t1在寄存器是什么状态,全部放到一个缓存里,这个缓存是位于整个进程空间的,这叫保存现场,这就是线程切换的过程,但缓存宕掉了就会丢失,简单的理解为存储到了内存里,严格来讲会存到了锁存器中。
线程的切换,需要保存上下文(保存现场),是不是线程数量越多,执行效率越高?
比如多线程有一个线程正在等待网络的输入,但网络还没有输入,只有一个线程一个cpu就等着?这个时候显然需要把你的计算资源切换给其他人使用,所以中间有个切换的过程,10个线程可以切换,1万个活着的线程,操作系统必须保证每个线程都有时间来执行,不然就不叫活线程了 ,那就会把整个线程资源全部耗在线程切换上了。
对于一个程序或一个线程池设置多少个线程合适?线程池设定多少核心线程?
比如有1颗cpu,如果一个线程有50%的时间做计算,剩下的50%的时间等待着网络的输入和输出,在一颗cpu的情况下,多少个线程可以充分利用好这个cpu,2个线程,在这个线程50%的时间计算完等待的时候切换给另外一个线程用。
看这个线程等待的时间和计算时间的比值,这里有一个理论上的计算公式,
Ucpu是期望cpu的利用率,比如期望cpu利用率是100%;
100% * (1+50% / 50%)=2个线程,1颗cpu2个线程,2颗cpu就是4个线程。
当然这是理论,但实际中不能精确的计算出来多少时间做计算多少时间做wait ,最终还是要压测做决定。
这里面有个理想的情况 ,整个机器都被我这个进程所使用,其他进程不用,但是操作系统自己也有线程,其他正在跑着的程序自己也会有线程,那肯定会影响我我这个进程,所以理论计算的结果会有一些偏差,实际中肯定是要做压测,可以通过理论计算出来一个初始值,比如10,拿10来做压测看看是否达到期望值,再根据实际做调整。