知乎上有人提问:电脑怎样执行编程语言的?
很多刚刚入坑的小白可能对此完全没有概念,或者模模糊糊知道个大概,我们写下的一行行代码,计算机到底是如何在执行的呢?
我们以x86架构的CPU为研究对象,从一个例子出发,来尝试解答这个问题。
1、高级语言为了方便编程,伟大的计算机先驱们发明了一个又一个的编程语言,使得我们可以用人类最容易理解的语法规则去告诉计算机完成我们想要的功能。
比如,一个C语言程序员写下了一行代码:
intsum=a+b;
一句简单的不能再简单的C语言语句。
但即便是如此简单,聪明绝顶的计算机却还是看不懂:这是弄啥捏?
这时候就需要一个翻译,负责把人类编写的高级语言“翻译”成计算机能看得懂的东西,这个翻译就是编译器。
2、编译链接上面的高级语言语句经过编译器编译链接后,生成了一个目标运行平台为x86架构的可执行程序exe/elf,使用反编译工具IDA进行分析,可以看到这行代码编译后的样子是这样的:
moveax,a:将变量a的值存入eax寄存器中
addeax,b:把变量b的值和eax寄存器的值相加,并将结果保存在eax寄存器中
movsum,eax:将计算结果从eax寄存器写入sum变量
看到了吗,就像把大象关进冰箱需要分三步,计算机完成程序员的一条加法语句,也分了三步:取出被加数、加上加数、写入结果。
3、机器指令上面的汇编指令只是为了人类理解方便的助记符,计算机同样也不认识这玩意,那几条指令在内存中实际上是这样的一串数据:
十六进制:
8B45ECEF8
十六进制是为了书写方便,计算机真正能看到的只有二进制的比特流:
接下来,计算机要做的事情就是识别这些二进制流都是什么意思,转换成一条条的指令来执行。
在开始执行之前,先来了解一下指令格式。
4、指令格式x86架构CPU指令集中的指令格式如下:
主要有六个部分:
[非必需]指令前缀:我们经常用到的原子操作指令前面有一个lock前缀,就属于指令前缀。[必需]操作码:指令最核心的部分,标识这条指令是什么功能。[非必需]ModR/M:内存/寄存器操作数字节[非必需]SIB:索引寻址描述字节[非必需]Displacement:常数偏移字节/半字/字[非必需]Immediate:立即数字节/半字/字需要注意的是,并不是每一条指令都包含上面的所有部分,许多指令只包含其中一部分字段。
根据操作码的长度不同,指令分为单字节操作码指令、双字节操作码指令、三字节操作码指令。
5、执行指令计算机中真正负责指令执行的核心部件是中央处理器CPU,在CPU中有一个指令寄存器IP,全称是InstructionPointer,在32位下,它叫EIP,在64位下它叫RIP。
下面开始执行:
指令寄存器EIP指向了第一条指令,开始读取第一个字节:,也就是0x8B。
开始指令译码,翻译出这是一条什么指令。
下面是x86架构的CPU指令操作码表:
CPU中的指令译码模块拿到手一看,呀,不是指令前缀,是个单字节操作码的mov指令,要往eax寄存器里面塞数据,数据从哪来呢?
再往后一看,0x45,再来译码:
好家伙,原来是根据ebp寄存器的值+一个8位的偏移来读取数据。
再往后读取一个字节,就是偏移值:EC。
现在第一条指令就译码出来了:将ebp+0xEC位置处的4个字节的数据取出来,放到eax寄存器中。,这就是这一条指令要干的事情。
同时CPU还得出了另一个信息:这一条指令长度是3个字节,下一条指令的起始地址是在3个字节之后,随后,指令寄存器EIP向后拨动,指向下一条指令的