php和C語言陣列佔用空間對比
我們在前面的php高效寫法提到,儘量不要複製變數,特別是陣列。一般來說,PHP陣列的記憶體利用率只有 1/10, 也就是說,一個在C語言裡面100M 記憶體的陣列,在PHP裡面就要1G。下面我們可以粗略的估算PHP陣列佔用記憶體的大小,首先我們測試1000個元素的整數佔用的記憶體:
- <?php
- echo memory_get_usage() , '<br>';
- $start = memory_get_usage();
- $a = Array();
- for ($i=0; $i<1000; $i++) {
- $a[$i] = $i + $i;
- }
- $mid = memory_get_usage();
- echo memory_get_usage() , '<br>';
- for ($i=1000; $i<2000; $i++) {
- $a[$i] = $i + $i;
- }
- $end = memory_get_usage();
- echo memory_get_usage() , '<br>';
- echo'argv:', ($mid - $start)/1000 ,'bytes' , '<br>';
- echo'argv:'
輸出是:
353352
437848
522024
argv:84.416bytes
argv:84.176bytes
大概瞭解1000 個元素的整數陣列需要佔用 82k 記憶體,平均每個元素佔用 84 個位元組。而純 C 中整體只需要 4k(一個整型佔用4byte * 1000 )。memory_get_usage() 返回的結果並不是全是被陣列佔用了,還要包括一些 PHP 執行本身分配的一些結構,可能用內建函式生成的陣列更接近真實的空間:
- <?php
- $start = memory_get_usage();
- $a = array_fill(0, 10000, 1);
- $mid = memory_get_usage(); //10k elements array;
- echo'argv:', ($mid - $start )/10000,'byte' , '<br>';
- $b = array_fill(0, 10000, 1);
- $end = memory_get_usage(); //10k elements array;
- echo'argv:', ($end - $mid)/10000 ,'byte' , '<br>';
得到:
argv:54.5792byte
argv:54.5784byte
從這個結果來看似乎一個數組元素大約佔用了54個位元組左右。
首先看一下32位機C語言各種型別佔用的位元組:
- #include "stdafx.h"
- //#include <stdio.h>
- int main() {
- printf("int:%d\nlong:%d\ndouble:%d\nchar*:%d\nsize_t:%d\n",
- sizeof(int), sizeof(long),
- sizeof(double), sizeof(char *),
- sizeof(size_t));
- return 0;
- }
int:4
long:4
double:8
har*:4
size_t:4
在PHP中都使用long型別來代表數字,沒有使用int型別
大家都明白PHP是一種弱型別的語言,它不會去區分變數的型別,沒有int float char *之類的概念。
我們看看php在zend裡面儲存的變數,PHP中每個變數都有對應的 zval, Zval結構體定義在Zend/zend.h裡面,其結構:
- typedefstruct _zval_struct zval;
- struct _zval_struct {
- /* Variable information */
- zvalue_value value; /* The value 1 12位元組(32位機是12,64位機需要8+4+4=16) */
- zend_uint refcount__gc; /* The number of references to this value (for GC) 4位元組 */
- zend_uchar type; /* The active type 1位元組*/
- zend_uchar is_ref__gc; /* Whether this value is a reference (&) 1位元組*/
- };
PHP使用一種UNION結構來儲存變數的值,即zvalue_value 是一個union,UNION變數所佔用的記憶體是由最大
成員資料空間決定。
- typedefunion _zvalue_value {
- long lval; /* long value */
- double dval; /* double value */
- struct { /* string value */
- char *val;
- int len;
- } str;
- HashTable *ht; /* hash table value */
- zend_object_value obj; /*object value */
- } zvalue_value;
最大成員資料空間是struct str,指標佔*val用4位元組,INT佔用4位元組,共8位元組。
struct zval佔用的空間為8+4+1+1 = 14位元組,其實呢,在zval中陣列,字串和物件還需要另外的儲存結構,陣列則是一個 HashTable:
HashTable結構體定義在Zend/zend_hash.h.
- typedefstruct _hashtable {
- uint nTableSize;//4
- uint nTableMask;//4
- uint nNumOfElements;//4
- ulong nNextFreeElement;//4
- Bucket *pInternalPointer; /* Used for element traversal 4*/
- Bucket *pListHead;//4
- Bucket *pListTail;//4
- Bucket **arBuckets;//4
- dtor_func_t pDestructor;//4
- zend_bool persistent;//1
- unsigned char nApplyCount;//1
- zend_bool bApplyProtection;//1
- #if ZEND_DEBUG
- int inconsistent;//4
- #endif
- } HashTable;
- typedefstruct bucket {
- ulong h; /* Used for numeric indexing 4位元組 */
- uint nKeyLength; /* The length of the key (for string keys) 4位元組 */
- void *pData; /* 4位元組*/
- void *pDataPtr; /* 4位元組*/
- struct bucket *pListNext; /* PHP arrays are ordered. This gives the next element in that order4位元組*/
- struct bucket *pListLast; /* and this gives the previous element 4位元組 */
- struct bucket *pNext; /* The next element in this (doubly) linked list 4位元組*/
- struct bucket *pLast; /* The previous element in this (doubly) linked list 4位元組*/
- char arKey[1]; /* Must be last element 1位元組*/
- } Bucket;
Bucket 結構需要 33 個位元組,鍵長超過四個位元組的部分附加在 Bucket 後面,而元素值很可能是一個 zval 結構,另外每個陣列會分配一個由 arBuckets 指向的 Bucket 指標陣列, 雖然不能說每增加一個元素就需要一個指標,但是實際情況可能更糟。這麼算來一個數組元素就會佔用 54 個位元組,與上面的估算幾乎一樣。
一個空陣列至少會佔用 14(zval) + 39(HashTable) + 33(arBuckets) = 86 個位元組,作為一個變數應該在符號表中有個位置,也是一個數組元素,因此一個空陣列變數需要 118 個位元組來描述和儲存。從空間的角度來看,小型陣列平均代價較大,當然一個指令碼中不會充斥數量很大的小型陣列,可以以較小的空間代價來獲取程式設計上的快捷。但如果將陣列當作容器來使用就是另一番景象了,實際應用經常會遇到多維陣列,而且元素居多。比如10k個元素的一維陣列大概消耗540k記憶體,而10k x 10 的二維陣列理論上只需要 6M 左右的空間,但是按照 memory_get_usage 的結果則兩倍於此,[10k,5,2]的三維陣列居然消耗了23M,小型陣列果然是划不來的。