如果你曾经写过或者用过 Python,你可能已经习惯了看到 Python 源代码文件;它们的名称以.Py 结尾。你可能还见过另一种类型的文件是 .pyc 结尾的,它们就是 Python “字节码”文件。(在 Python3 的时候这个 .pyc 后缀的文件不太好找了,它在一个名为pycache的子目录下面。).pyc文件可以防止Python每次运行时都重新解析源代码,该文件大大节省了时间。
Python是如何工作的
Python 通常被描述为一种解释语言,在这种语言中,你的源代码在程序运行时被翻译成CPU指令,但这只是说对了部分。和许多解释型语言一样,Python 实际上将源代码编译为虚拟机的一组指令,Python 解释器就是该虚拟机的实现。其中这种中间格式称为“字节码”。
因此,Python留下的这些.pyc文件,是为了让运行的速快变得 “更快”,或者是针对你的源代码的”优化“的版本;它们是 Python 虚拟机上运行的字节码指令。
Python 虚拟机内幕
CPython使用基于堆栈的虚拟机。也就是说,它完全围绕堆栈数据结构(你可以将项目“推”到结构的“顶部”,或者将项目“弹出”到“顶部”)。
CPython 使用三种类型的栈:
1.调用堆栈。这是运行中的Python程序的主要结构。对于每个当前活动的函数调用,它都有一个项目一“帧”,堆栈的底部是程序的入口点。每次函数调用都会将新的帧推到调用堆栈上,每次函数调用返回时,它的帧都会弹出
2.在每一帧中,都有一个评估堆栈(也称为数据堆栈)。这个堆栈是执行 Python 函数的地方,执行Python代码主要包括将东西推到这个堆栈上,操纵它们,然后将它们弹出。
3.同样在每一帧中,都有一个块堆栈。Python使用它来跟踪某些类型的控制结构:循环、try /except块,以及 with 块都会导致条目被推送到块堆栈上,每当退出这些结构之一时,块堆栈就会弹出。这有助于Python知道在任何给定时刻哪些块是活动的,例如,continue或break语句可以影响正确的块。
大多数 Python 字节码指令操作的是当前调用栈帧的计算栈,虽然,还有一些指令可以做其它的事情(比如跳转到指定指令,或者操作块栈)。
为了更好地理解,假设我们有一些调用函数的代码,比如这个
my_function(my_variable,2)。
Python 将转换为一系列字节码指令:
1.一个LOAD_NAME指令,用于查找函数对象 my_function,并将其推送到计算栈的顶部
2.另一个 LOAD_NAME 指令去查找变量 my_variable,并将其推送到计算栈的顶部
3.一个 LOAD_CONST 指令将一个整数 2 推送到计算栈的顶部
4.一个 CALL_FUNCTION 指令
CALL_FUNCTION 指令有2个参数,它表示 Python 需要在堆栈顶部弹出两个位置参数; 然后函数将在它上面进行调用,并且它也同时被弹出(关键字参数的函数,使用指令-CALL_FUNCTION_KW-类似的操作,并配合使用第三条指令CALL_FUNCTION_EX,它适用于函数调用涉及到参数使用 * 或 ** 操作符的情况)
一旦 Python 具备了这些,它将在调用堆栈上分配一个新的帧,填充到函数调用的本地变量,然后运行该帧内的 my_function 的字节码。一旦运行完成,帧将从调用堆栈中弹出,在原始帧中,my_function 的返回值将被推入到计算栈的顶部。
我们知道了这个东西了,也知道字节码了文件了,但是如何去使用字节码呢?ok不知道也没关系,接下来的时间我们所有的话题都将围绕字节码,在python有一个模块可以通过反编译Python代码来生成字节码这个模块就是今天要说的–dis模块。
dis模块的使用
dis模块包括一些用于处理 Python 字节码的函数,可以将字节码“反汇编”为更便于人阅读的形式。查看解释器运行的字节码还有助于优化代码。这个模块对于查找多线程中的竞态条件也很有用,因为可以用它评估代码中哪一点线程控制可能切换。参考源码Include/opcode.h,可以找到字节码的正式列表。详细可以看官方文档。注意不同版本的python生成的字节码内容可能不一样,这里我用的Python 3.8.
访问和理解字节码
输入如下内容,然后运行它:
defhello() print("Hello,World!") importdis dis.dis(hello)
函数 dis.dis() 将反汇编一个函数、方法、类、模块、编译过的 Python 代码对象、或者字符串包含的源代码,以及显示出一个人类可读的版本。dis 模块中另一个方便的功能是 distb()。你可以给它传递一个 Python 追溯对象,或者在发生预期外情况时调用它,然后它将在发生预期外情况时反汇编调用栈上最顶端的函数,并显示它的字节码,以及插入一个指向到引发意外情况的指令的指针。
它也可以用于查看 Python 为每个函数构建的编译后的代码对象,因为运行一个函数将会用到这些代码对象的属性。这里有一个查看 hello() 函数的示例:
>>>hello.__code__<codeobjecthelloat0x104e46930,file"<stdin>",line1>>>>hello.__code__.co_consts (None,'Hello,World!')>>>hello.__code__.co_varnames ()>>>hello.__code__.co_names ('print',)
代码对象在函数中可以以属性 code 来访问,并且携带了一些重要的属性:
co_consts是存在于函数体内的任意实数的元组
co_varnames是函数体内使用的包含任意本地变量名字的元组
co_names是在函数体内引用的任意非本地名字的元组
许多字节码指令–尤其是那些推入到栈中的加载值,或者在变量和属性中的存储值–在这些元组中的索引作为它们参数。
因此,现在我们能够理解 hello() 函数中所列出的字节码:
1、 LOAD_GLOBAL 0:告诉 Python 通过 co_names (它是 print 函数)的索引 0 上的名字去查找它指向的全局对象,然后将它推入到计算栈
2、 LOAD_CONST 1:带入 co_consts 在索引 1 上的字面值,并将它推入(索引 0 上的字面值是 None,它表示在 co_consts 中,因为 Python 函数调用有一个隐式的返回值 None,如果没有显式的返回表达式,就返回这个隐式的值 )。
3、 CALL_FUNCTION 1:告诉 Python 去调用一个函数;它需要从栈中弹出一个位置参数,然后,新的栈顶将被函数调用。
“原始的” 字节码–是非人类可读格式的字节–也可以在代码对象上作为 co_code 属性可用。如果你有兴趣尝试手工反汇编一个函数时,你可以从它们的十进制字节值中,使用列出 dis.opname 的方式去查看字节码指令的名字。
基本反汇编
函数dis()可以打印 Python 源代码(模块、类、方法、函数或代码对象)的反汇编表示。可以通过从命令行运行 dis 来反汇编 dis_simple.py 之类的模块。
dis_simple.py #!/usr/bin/envpython3 #encoding:utf-8 my_dict={'a':1}
输出按列组织,包含原始源代码行号,代码对象中的指令地址,操作码名称以及传递给操作码的任何参数。
对于简单的代码我们可以通过命令行的形式执行下面的命令:
python3-mdisdis_simple.py
输出
10LOAD_CONST0('a') 2LOAD_CONST1(1) 4BUILD_MAP1 6STORE_NAME0(my_dict) 8LOAD_CONST2(None) 10RETURN_VALUE
在这里源代码转换为4个不同的操作来创建和填充字典,然后将结果保存到一个局部变量。
首先解释每一行各列参数的含义:
以第一条指令为例:
第一列 数字(1)表示对应源代码的行数。
第二列(可选)指示当前执行的指令(例如,当字节码来自帧对象时)【这个例子没有】
第三列 一个标签,表示从之前的指令到此可能的JUMP 【这个例子没有】
第四列 数字是字节码中对应于字节索引的地址(这些是2的倍数,因为Python 3.6每条指令使用2个字节,而在以前的版本中可能会有所不同)指令LOAD_CONST在0位置。
第五列 指令本身对应的人类可读的名字这里是"LOAD_CONST"
第六列 Python内部用于获取某些常量或变量,管理堆栈,跳转到特定指令等的指令的参数(如果有的话)。
第七列 计算后的实际参数。
然后让我们看看这个过程:
由于 Python 解释器是基于栈的,所以前几步是用LOAD_CONST将常量按正确顺序放入到栈中,然后使用 BUILD_MAP 弹出要增加到字典的新键和值。用 STORE_NAME 将所得到的dict对象绑定名为my_dict.
反汇编函数
需要注意的是上面的命令行反编译的形式,不能自动的递归反编译函数,所以我们要使用在文件中导入dis的模式进行反编译,就像下面这样。
#dis_function.py deff(*args): nargs=len(args) print(nargs,args) if__name__=='__main__': importdis dis.dis(f)
运行命令
python3dis_function.py
然后得到以下结果
20LOAD_GLOBAL0(len) 2LOAD_FAST0(args) 4CALL_FUNCTION1 6STORE_FAST1(nargs) 38LOAD_GLOBAL1(print) 10LOAD_FAST1(nargs) 12LOAD_FAST0(args) 14CALL_FUNCTION2 16POP_TOP 18LOAD_CONST0(None) 20RETURN_VALUE
要查看函数的内部,必须把函数传递到dis().因为这里打印的是函数内部的东西,所以没有显示函数的在外层的行编号,而是从2开始的。
下面解析下每一行指令的含义:
1、LOAD_GLOBAL 用来加载全局变量,包括指定函数名,类名,模块名等全局符号,这里是len函数,LOAD_FAST 一般加载局部变量的值,也就是读取值,用于计算或者函数调用传参等,这里就是传入参数args。
2、一般是先指定要调用的函数,然后压参数,最后通过 CALL_FUNCTION 调用。
3、STORE_FAST 保存值到局部变量。也就是把结果赋值给 STORE_FAST。
4、下面的print因为2个参数所以LOAD_FAST了2次,POP_TOP删除堆栈顶部(TOS)项。LOAD_CONST加载const变量,比如数值、字符串等等,这里因为是print所以值为None。
5、最后通过RETURN_VALUE来确定函数结尾。
要打印一个函数的总结信息我们可以使用dis的show_code的方法,它包含使用的参数和名的相关信息,show_code的参数就是这个函数对象,代码如下:
deff(*args): nargs=len(args) print(nargs,args) if__name__=='__main__': importdis dis.show_code(f)
Name:f Filename:dis_function_showcode.py Argumentcount:0 Kw-onlyarguments:0 Numberoflocals:2 Stacksize:3 Flags:OPTIMIZED,NEWLOCALS,VARARGS,NOFREE Constants: 0:None Names: 0:len 1:print Variablenames: 0:args 1:nargs原文来自:https://www.py.cn
暂无评论内容