能快速找到代码运行最慢部分的编程神器-电子发烧友网

天下武功，唯快不破。

编程也不例外，你的代码跑的快，你能快速找出代码慢的原因，你的码功就高。

今天分享一个超级实用的 Python 性能分析工具 pyinstrument ，可以快速找到代码运行最慢的部分，帮助提高代码的性能。支持 Python 3.7+ 且能够分析异步代码，仅需一条命令即可显示具体代码的耗时。经常写 Python 的小伙伴一定要用一下。

安装

pipinstallpyinstrument

简单的使用

在程序的开始，启动 pyinstrument 的 Profiler，结束时关闭 Profiler 并打印分析结果如下：

frompyinstrumentimportProfiler

profiler=Profiler()
profiler.start()

#这里是你要分析的代码

profiler.stop()

profiler.print()

比如这段代码 123.py，我们可以清楚的看到是列表推导式比较慢：

frompyinstrumentimportProfiler

profiler=Profiler()
profiler.start()

#这里是你要分析的代码
a=[iforiinrange(100000)]
b=(iforiinrange(100000))

profiler.stop()
profiler.print()

上述分析需要修改源代码，如果你使用命令行工具，就不需要修改源代码，只需要执行 pyinstrument xxxx.py 即可：

比如有这样一段排序的程序 c_sort.py：

importsys
importtime

importnumpyasnp

arr=np.random.randint(0,10,10)

defslow_key(el):
time.sleep(0.01)
returnel

arr=list(arr)

foriinrange(10):
arr.sort(key=slow_key)

print(arr)

这段代码里面故意放了一句 time.sleep(0.01) 来延迟性能，看看 pyinstrument 能否识别，命令行执行 pyinstrument c_sort.py:

从结果来看，程序运行了 1.313 秒，而 sleep 就运行了 1.219 秒，很明显是瓶颈，现在我们把它删除，再看看结果：

删除之后，性能最慢的就是 numpy 模块的初始化代码 __init__.py了，不过这些代码不是自己写的，而且并不是特别慢，就不需要去关心了。

分析 Flask 代码

Web 应用也可以使用这个来找出性能瓶颈，比如 flask，只需要在请求之前记录时间，在请求之后统计时间，只需要在 flask 的请求拦截器里面这样写：

fromflaskimportFlask,g,make_response,request
app=Flask(__name__)

@app.before_request
defbefore_request():
if"profile"inrequest.args:
g.profiler=Profiler()
g.profiler.start()

@app.after_request
defafter_request(response):
ifnothasattr(g,"profiler"):
returnresponse
g.profiler.stop()
output_html=g.profiler.output_html()
returnmake_response(output_html)

假如有这样一个 API：

@app.route("/dosomething")
defdo_something():
importrequests
requests.get("http://google.com")
return"Googlesayshello!"

为了测试这个 API 的瓶颈，我们可以在 url 上加一个参数 profile 就可以：http://127.0.0.1:5000/dosomething?profile，哪一行代码执行比较慢，结果清晰可见：

分析 Django 代码

分析 Django 代码也非常简单，只需要在 Django 的配置文件的 MIDDLEWARE 中添加

"pyinstrument.middleware.ProfilerMiddleware",

然后就可以在 url 上加一个参数 profile 就可以：

如果你不希望所有人都能看到，只希望管理员可以看到，settings.py 可以添加这样的代码：

defcustom_show_pyinstrument(request):
returnrequest.user.is_superuser

PYINSTRUMENT_SHOW_CALLBACK="%s.custom_show_pyinstrument"%__name__

如果不想通过 url 后面加参数的方式查看性能分析，可以在 settings.py 文件中添加：

PYINSTRUMENT_PROFILE_DIR='profiles'

这样，每次访问一次 Django 接口，就会将分析结果以 html 文件形式保存在项目目录下的 profiles 文件夹中。

分析异步代码

简单的异步代码分析：

async_example_simple.py：

importasyncio

frompyinstrumentimportProfiler

asyncdefmain():
p=Profiler()
withp:
print("Hello...")
awaitasyncio.sleep(1)
print("...World!")
p.print()

asyncio.run(main())

复杂一些的异步代码分析：

importasyncio
importtime

importpyinstrument

defdo_nothing():
pass

defbusy_wait(duration):
end_time=time.time()+duration

whiletime.time()< end_time:
        do_nothing()

async def say(what, when, profile=False):
    ifprofile:
p=pyinstrument.Profiler()
p.start()

busy_wait(0.1)
sleep_start=time.time()
awaitasyncio.sleep(when)
print(f"sleptfor{time.time()-sleep_start:.3f}seconds")
busy_wait(0.1)

print(what)
ifprofile:
p.stop()
p.print(show_all=True)

loop=asyncio.get_event_loop()

loop.create_task(say("firsthello",2,profile=True))
loop.create_task(say("secondhello",1,profile=True))
loop.create_task(say("thirdhello",3,profile=True))

loop.run_forever()
loop.close()

工作原理

Pyinstrument 每 1ms 中断一次程序，并在该点记录整个堆栈。它使用 C 扩展名和 PyEval_SetProfile 来做到这一点，但只每 1 毫秒读取一次读数。你可能觉得报告的样本数量有点少，但别担心，它不会降低准确性。默认间隔 1ms 是记录堆栈帧的下限，但如果在单个函数调用中花费了很长时间，则会在该调用结束时进行记录。如此有效地将这些样本“打包”并在最后记录。

Pyinstrument 是一个统计分析器，并不跟踪，它不会跟踪您的程序进行的每个函数调用。相反，它每 1 毫秒记录一次调用堆栈。与其他分析器相比，统计分析器的开销比跟踪分析器低得多。

比如说，我想弄清楚为什么 Django 中的 Web 请求很慢。如果我使用 cProfile，我可能会得到这个：

151940functioncalls(147672primitivecalls)in1.696seconds

Orderedby:cumulativetime

ncallstottimepercallcumtimepercallfilename:lineno(function)
10.0000.0001.6961.696profile:0(at0x1053d6a30,file"./manage.py",line2>)
10.0010.0011.6931.693manage.py:2()
10.0000.0001.5861.586__init__.py:394(execute_from_command_line)
10.0000.0001.5861.586__init__.py:350(execute)
10.0000.0001.1421.142__init__.py:254(fetch_command)
430.0130.0001.1240.026__init__.py:1()
3880.0080.0001.0620.003re.py:226(_compile)
1580.0050.0001.0480.007sre_compile.py:496(compile)
10.0010.0011.0421.042__init__.py:78(get_commands)
1530.0010.0001.0360.007re.py:188(compile)
106/1020.0010.0001.0300.010__init__.py:52(__getattr__)
10.0000.0001.0291.029__init__.py:31(_setup)
10.0000.0001.0211.021__init__.py:57(_configure_logging)
20.0020.0011.0110.505log.py:1()

看完是不是还是一脸懵逼，通常很难理解您自己的代码如何与这些跟踪相关联。Pyinstrument 记录整个堆栈，因此跟踪昂贵的调用要容易得多。它还默认隐藏库框架，让您专注于影响性能的应用程序/模块：

_.___/_______/_Recorded:1435Samples:131
/_//_////_///_/////_'///Duration:3.131CPUtime:0.195
/_/v3.0.0b3

Program:examples/django_example/manage.pyrunserver--nothreading--noreload

3.131manage.py:2
└─3.118execute_from_command_linedjango/core/management/__init__.py:378
[473frameshidden]django,socketserver,selectors,wsgi...
2.836selectselectors.py:365
0.126_get_responsedjango/core/handlers/base.py:96
└─0.126hello_worlddjango_example/views.py:4

最后的话

本文分享了 pyinstrument 的用法，有了这个性能分析神器，以后优化代码可以节省很多时间了，这样的效率神器很值得分享，毕竟人生苦短，能多点时间干点有意思的不香么？

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编程

编程

+关注

关注
88

文章
3643

浏览量
94131
代码

代码

+关注

关注
30

文章
4841

浏览量
69225

原文标题：效率神器：快速定位运行最慢的代码

文章出处：【微信号：LinuxHub，微信公众号：Linux爱好者】欢迎添加关注！文章转载请注明出处。

电脑相片云存储位置，如何快速找到电脑相片云存储位置

在数字化时代，传统的电脑已经无法满足我们对高效、便捷计算的需求。云电脑以其强大的功能和灵活的使用方式，成为了新时代的宠儿。今天就为大家介绍如何快速找到电脑相片云存储位置。在现代办公和生活中

发表于 01-16 10:44 •227次阅读

电脑相片云存储位置，如何<b class='flag-5'>快速</b><b class='flag-5'>找到</b>电脑相片云存储位置

如何快速入门HAL库编程 HAL库与裸机编程的比较

如何快速入门HAL库编程要快速入门HAL库编程，可以遵循以下步骤：了解基础知识：掌握C语言编程基础，包括变量、数据类型、函数、指针等

发表于 12-02 11:39 •503次阅读

对比Python与Java编程语言

Python与Java都是目前非常流行的编程语言，它们各有其独特的优势和适用场景。以下是对这两种编程语言的对比：一、语法和易用性 Python 语法简洁，代码更易读，非常适合初学者。动态类型系统

发表于 11-15 09:31 •519次阅读

【「仓颉编程快速上手」阅读体验】+初步读后感

《仓颉编程快速上手》这本书给我留下了深刻的印象。首先，书籍的排布清晰明了，章节划分合理，让人在阅读过程中能够轻松地找到所需内容。无论是按照顺序阅读还是选择性地查阅特定部分，都十分

发表于 09-10 11:09

【「仓颉编程快速上手」阅读体验】+壹读后感

清晰透彻，让你即使没有任何编程经验，也能轻松理解。书中还配备了大量的实例和练习，这使得理论知识不再空洞抽象。通过实际操作这些例子，你可以更好地掌握编程的技巧和方法，快速上手

发表于 09-06 20:12

爱普生产品-低抖动温补可编程晶振

的晶体振荡器。由于项目和实验急迫，怎么才能快速找到合适的晶振呢？很多工程师都遇到过这样的问题，爱普生可编程晶振能满足快速交付的急切需求。

发表于 08-09 13:55 •0次下载

国内低代码平台推荐--万界星空科技低代码平台

低代码平台是一种应用程序，它为编程提供图形用户界面，从而以极快的速度开发代码，减少传统编程工作。这些工具有助于快速开发

发表于 07-18 15:39 •372次阅读

国内低<b class='flag-5'>代码</b>平台推荐--万界星空科技低<b class='flag-5'>代码</b>平台

运动控制器的代码运行顺序是什么

组成部分和关键步骤。初始化运动控制器的代码运行顺序首先从初始化开始。初始化是为控制器设置初始状态的过程，包括配置输入/输出接口、设置寄存器、初始化变量等。初始化的目的是确保控制器在开始执行任务之前处于正确的状

发表于 06-13 09:25 •563次阅读

JScope RTT模式无法找到区块是怎么回事？

模式下，我配置了一个向上缓冲区，并正在更新引用中的值。但是，当我运行 Jscope 工具时，它无法找到定义的 RTT 块（截图附后）。我是否遗漏了任何配置/代码？下面是一个示例代码

发表于 05-20 07:23

模拟运行的代码时间和实际运行的代码时间非常不同是什么原因导致的？

！模拟运行的代码时间和实际运行的代码时间非常不同！那我到底是应该信任哪一个时间呢？下面是我的代码： Below is my ISR

发表于 05-17 14:52

stm32cubeIDE代码运行时间如何查看？

stm32cubeIDE 代码运行时间，如何查看？就如 keil 调试时候那样，可以测试代码的运行时间。但是在stm32cubeIDE 中，一直没有

发表于 04-16 08:10

爱普生的低抖动温补可编程晶振

由于项目和实验急迫，怎么才能快速找到合适的晶振呢?很多工程师都遇到过这样的问题，爱普生可编程晶振能满足快速交付的急切需求。爱普生应对急迫的市

发表于 04-08 14:27 •0次下载

STM32G070RB部分代码不运行是什么原因导致的？

STM32G070RB 部分代码不运行主循环代码运行一会就不运行了，但定时器、串口都正常在工作

发表于 04-02 06:55

请问STM32IDE如何设定代码到ITCM中运行？

近期使用STM32MUX生成STM32IDE的代码(MCU是STM32H743)，目前希望可以将部分代码定位到ITCM中运行，加快处理速度，关于代码

发表于 03-26 06:08

关于STM8S字长度问题和自动快速字节编程问题求解

（1）字长度问题：RM0016文档字编程部分介绍1字=4字节，PM0044介绍1字=2字节（例如LDW指令），因此这两个文档不是矛盾吗？（2）自动快速字节编程问题：上文字节

发表于 03-14 08:24

搜索历史

能快速找到代码运行最慢部分的编程神器

安装