Python多线程程序中的MYSQL连接管理研究

Posted by 肖哥shelwin on June 10, 2019

项目地址:https://github.com/slxiao/python-advanced/tree/master/python-mysql

研究背景

针对多用户/高并发访问MYSQL数据库这一场景,研究不同Python并发模式(单线程/多线程)和不同MYSQL连接模式(单连接/多连接/连接池)时的程序性能。

研究手段

脚本

  • 初始化MYSQL数据库
    • init_db.py: 包括创建database,创建table,添加示例(example)等功能。脚本只需执行一次。如果必要,需要修改脚本中的数据库hostname, username和password。
  • 并发读取数据库内容

工具

  • cProfile: 一种动态分析工具,测量程序每一步的执行时间。
  • time: 一种Linux内置命令,测量程序总的执行时间。
  • multitime: 一种Linux第三方工具,测量程序在多次执行情况下的最大/平均/最小执行时间。

研究结果

单线程程序中,多连接的耗时显著高于单连接

例如,单线程场景下,连续读取1000次MYSQL数据库中的数据,测量单连接和多连接时各自的执行时间:

1
2
3
4
5
root@hzettv53:~/workspace/github/python-mysql-examples# time python stsc.py
real    0m0.234s
root@hzettv53:~/workspace/github/python-mysql-examples# time python stmc.py
real    0m1.378s

可以看到,采用单连接时,程序耗时0.234秒;采用多连接(即每次访问都新建一个连接)时,程序耗时1.378秒。后者是前者的近6倍。

进一步分析后可以发现,造成这一现象的原因在于:MYSQL连接的创建是一个时间开销较大的操作。例如,执行命令python -m cProfile -s cumtime stmc.py

1
2
3
4
5
6
   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
        1    0.039    0.039    1.410    1.410 stmc.py:3(<module>)
     1000    0.005    0.000    1.345    0.001 stmc.py:7(read_user_from_db)
     1000    0.013    0.000    0.885    0.001 __init__.py:128(connect)
     1000    0.007    0.000    0.871    0.001 connection.py:53(__init__)
     1000    0.004    0.000    0.856    0.001 abstracts.py:711(connect)

可以看到,在多连接情况下,总执行时间1.410秒,其中建立连接这一步(init.py:128(connect))就花了0.885秒,占比接近63%。这说明,创建MYSQL连接是一个时间开销相对较大的步骤。多连接情况下,每次访问MYSQL数据库都会创建一个新的连接,从而大大增加总的执行时间。

MYSQL连接不是线程安全的

执行命令python mtsc.py,程序出现异常。

1
2
3
4
5
6
Exception in thread Thread-102:
Traceback (most recent call last):
  File "/usr/lib/python2.7/threading.py", line 801, in __bootstrap_inner
......
    if buf[0] == 251:  # \xfb
IndexError: bytearray index out of range

这种异常一般是由多个线程同时操作共享数据出现冲突导致的。当然,由于冲突的多样性,异常表现并不局限于上面这种。

为什么出现异常?因为MYSQL连接不是线程安全的。这意味着,在多线程程序中,MYSQL连接不能由多个线程共享。

多线程程序中,使用连接池比使用多连接更加高效

既然MYSQL不是线程安全的,那么在多线程程序中,我们有两种选择。

(1) 使用多连接,即每个线程使用一个自己创建的连接。

(2) 使用连接池(Connection Pool),即维护一组创建好的数据库连接,由每个线程在需要时从中获取(而不是创建)一个空闲的连接,并且在使用完毕之后放回(而不是关闭)连接。

那么,哪一种方法效率更高呢?

1
2
3
4
root@hzettv53:~/workspace/github/python-mysql-examples# time python mtmc.py
real    0m2.347s
root@hzettv53:~/workspace/github/python-mysql-examples# time python mtcp.py
real    0m1.434s

通过比较我们可以发现,在多连接情况下,程序执行时间为2.347秒,而在连接池情况下,程序执行时间只要1.434秒,节省了近40%。

这是因为,使用连接池的方式能够减少数据库连接的创建次数,提高数据库连接的使用效率,因而更加高效。

总结

这篇文章针对多用户/高并发访问MYSQL数据库这一场景,研究了不同Python并发模式(单线程/多线程)和不同MYSQL连接模式(单连接/多连接/连接池)时的程序执行效率。

从文中的实验结果可以发现,为了提高MYSQL数据库访问程序的性能:

  • 在能够共享连接的情况下,尽量使用共享连接
  • 在不能共享连接的情况下,使用连接池

更多内容可以访问Github:https://github.com/slxiao/python-advanced/tree/master/python-mysql

我是肖哥shelwin,一个高质量软件工程实践者和推动者。欢迎扫描下方二维码,添加我的个人公众号测试不将就,获得更多自动化测试, 持续集成, 软件工程实践, Python编程等领域原创文章。

公众号