PHP与C++性能比较

PHP是速度很快的脚本语言，但是用了框架以后好像感觉挺慢的。于是猜测会不会PHP本身也不是很快。如果不是很快，能否采用PHP调用本地动态链接库的形式来提升速度。于是有了下面的对比实验。

测试环境

1. 硬件环境如下图所示。

2. 软件环境

系统： Ubuntu 12.10

gcc版本：

Thread model: posix
gcc version 4.7.2 (Ubuntu/Linaro 4.7.2-2ubuntu1)

php版本：

PHP 5.3.22 (cli) (built: Mar 14 2013 20:37:16)
Copyright (c) 1997-2013 The PHP Group
Zend Engine v2.3.0, Copyright (c) 1998-2013 Zend Technologies

php开发环境： LAMP，所有安装包均是通过源码编译安装而成，编译过程中会自动根据本机各项参数进行最优配置。性能比apt-get install命令直接安装好。关于以源码包方式搭建LAMP请参考文章：http://keping.me/linux-php-dev-by-source-style/

测试方法

由于冒泡排序在时间复杂度上相当稳定——O(n²)，在最大程度上减少了数据可能带来的影响，故采取计算冒泡排序的运行时间的方法来进行此次实验。

对比测试分组

分组1： C++直接调用程序内的函数

分组2： C++调用打包好的动态链接库文件（.so文件，该文件也是自己写好并打包）

分组3： PHP直接调用程序内的函数

分组4： PHP调用打包好的动态链接库文件（.so文件，该文件也是自己写好并打包）

测试数据

数据总体规模为5，500，000个0～999的整数。

每一实验组，循环执行次数为30250，000，000，000次。

测试所用数据可以从以下地址下载：

http://keping.me/david-uploads/data/data_cpp.tar.gz

测试数据生成代码如下

[cpp]
#include
#include
#include

using std::cout;
using std::endl;
int main (int argc, char *argv[])
{
int scale;

scale = atoi(argv[1]); // argv[1] will be 10000, 20000 … 90000, 100000

srand(unsigned(time(0))); // use the UNIX timestamp as seeds
for(int i = 1; i <= scale; i++)
{
cout << rand() % 1000 << "\t";
if(i % 10 == 0) cout << endl;
}
}
[/cpp]

可以看到是0～999的整数，一共有10种测试数据的规模，分别放在十个不同目录下，如下图所示

目录名称代表数据的规模，如data_90000 表示数据规模为90，000个，同理data_100000表示数据规模为100，000个，依次类推。每一个目录下面包含10组测试数据，以data_100000举例，如下图所示

每个文件则包含100，000个0~999的随机数

数据文件打包下载地址：地址1（包含数据以及 “分组1” 的测试结果）

以下是对比测试。

首先是 “分组1” 的测试

为了尽量保证算法一致，所以没有采用指针等数据结构，变量的交换也采用最原始的设置中间变量机制，关键代码如下：

[cpp]
void bubble(int *arr, int len)
{
int tmp;

for(int i = 0; i < len – 1; i++)
{
for(int j = i + 1; j < len; j++)
{
if(arr[i] > arr[j])
{
tmp = arr[i];
arr[i] = arr[j];
arr[j] = tmp;
}
}
}
}

[/cpp]

以下是data_100000目录下num_1数据文件的运行结果文件result_1的部分截图，用时13.74秒

第一行输出记录的是每一秒中所含的时钟数；第二行记录的是排序开始之前程序已经运行的时钟数；第三行记录的是排序结束以后程序运行的时钟数；第四行则可以根据前面的数据得出本次排序运行的时间，以秒记，保留两位小数便于对比。

下表则是data_100000目录下的所有数据文件（num_1 至 num_9）的运行结果

可以看到，对于100，000级别的数据，进行冒泡排序， “分组1” 用了大约13.8秒左右的时间。下面将给出对于不同数据规模（data_10000~data_100000）的平均测试数据

其中X轴方向上表示数据规模为 10K（即使10，000），20K，，，100K的测试数据。
其中Y轴方向上表示测试的平均时间，对每一数据规模均有10个测试数据，此处为平均值。
从图中可以看出，结果基本符合 y=x²的函数曲线，冒泡排序还是相当稳定的。。。

分组2的测试

目录结构如下，其中libbubble.so文件即为冒泡排序打包成动态链接库。将会在main函数中调用。分组2与分组1的主要区别也在此，分组1中是在main里调用本地的冒泡排序函数，而分组2则是通过调用.so文件中的冒泡排序函数。

运行的测试数据来源与“测试分组1”完全一致，测试结果储存在相应目录下，如下图所示。

将测试结果的数据处理以后，得到下图。

速度竟然比C++调用自己内部的函数更快，估计是打包成动态链接库的时候，编译器已经做了优化。

分组3的测试

接下来是PHP执行冒泡排序的测试。

目录结构如下图所示，将调用PHP写的冒泡排序函数进行数据测试。关

关键代码如下

[php]
for($i = 0; $i < $len – 1; $i++)
{
for($j = $i + 1; $j < $len; $j++)
{
if($arr[$i] > $arr[$j])
{
$tmp = $arr[$i];
$arr[$i] = $arr[$j];
$arr[$j] = $tmp;
}
}
}
[/php]

可以看到，为了保证算法上的一致性，代码结构与实验分组一是一样的。

由于实在是比较慢，所以写了一个shell脚本来执行，shell脚本如下图所示（未完整截图）

将分组3的测试结果的数据处理以后，得到下图。

可以看到在相同数据规模下，分组3的运行时间要远远大于分组1以及分组2，并且随着数据规模的上升，总体呈现出上升趋势。

分组4的测试

分组4与分组3的区别在于：分组4则是调用以C++编写的动态链接库中的冒泡排序算法，并将该动态链接库以扩展的形势添加到了PHP系统中；分组3则是直接调用PHP写的冒泡排序算法。

将分组4的测试结果的数据处理以后，得到下图。

可以看到虽然还是PHP进行冒泡排序算法，但是效率得到了极大的提高。

最后是对比图

首先看一下数据表

其中10000,20000, …, 100000代表数据规模，表中数据为执行的秒数。可以看到分组3，也就是PHP分组，大约是其他分组的100倍至170倍时间。以至于如果不采取log函数，将完全看不到其他三个分组的图。下图是对上表每个数据取以10为底的对数以后，得到的数值描绘的图。

大致结论，PHP执行速度很慢，如果实在要采取PHP的方式，请采用将C/C++编写的动态链接库，经过Zend API的转化添加成PHP扩展，PHP再调用该扩展的形势，性能如分组4所示，是非常快的。

参考文献

[1] Al-Qahtani, S. S., Arif, R., Guzman, L. F., Pietrzynski, P., & Tevoedjre, A. (2010). Comparing selected criteria of programming languages java, PHP, C++, perl, haskell, AspectJ, ruby, COBOL, bash scripts and scheme revision 1.0.Cornell University.

[2] Sterling Hughes. Extending PHP [J]. Web Techniques, 2001, 6(1), 56 – 60.

[3] PHP, http://www.php.net/manual/en/internals2.structure.php

[4] Wikipedia, PHP, https://en.wikipedia.org/wiki/PHP

测试环境

测试方法

对比测试分组

测试数据

以下是对比测试。

Leave a Reply Cancel reply