1. 程式人生 > >php和C語言陣列佔用空間對比

php和C語言陣列佔用空間對比

我們在前面的php高效寫法提到,儘量不要複製變數,特別是陣列。一般來說,PHP陣列的記憶體利用率只有 1/10, 也就是說,一個在C語言裡面100M 記憶體的陣列,在PHP裡面就要1G。下面我們可以粗略的估算PHP陣列佔用記憶體的大小,首先我們測試1000個元素的整數佔用的記憶體:

  1. <?php  
  2.     echo memory_get_usage() , '<br>';  
  3.     $start = memory_get_usage();  
  4.     $a = Array();  
  5.     for ($i=0; $i<1000; $i++) {  
  6.     $a[$i] = $i + $i;  
  7.     }  
  8.     $mid =  memory_get_usage();  
  9.     echo memory_get_usage() , '<br>';  
  10.     for ($i=1000; $i<2000; $i++) {  
  11.     $a[$i] = $i + $i;  
  12.     }  
  13.     $end =  memory_get_usage();  
  14.     echo memory_get_usage() , '<br>';  
  15.     echo'argv:', ($mid - $start)/1000 ,'bytes' , '<br>';  
  16.     echo'argv:'
    ,($end - $mid)/1000 ,'bytes' , '<br>';  

輸出是:

353352
    437848
    522024
    argv:84.416bytes
    argv:84.176bytes

大概瞭解1000 個元素的整數陣列需要佔用 82k 記憶體,平均每個元素佔用 84 個位元組。而純 C 中整體只需要 4k(一個整型佔用4byte * 1000 )。memory_get_usage() 返回的結果並不是全是被陣列佔用了,還要包括一些 PHP 執行本身分配的一些結構,可能用內建函式生成的陣列更接近真實的空間:

  1. <?php  
  2.     $start = memory_get_usage();  
  3.     $a = array_fill(0, 10000, 1);  
  4.     $mid = memory_get_usage(); //10k elements array;
  5.     echo'argv:', ($mid - $start )/10000,'byte' , '<br>';  
  6.     $b = array_fill(0, 10000, 1);  
  7.     $end = memory_get_usage(); //10k elements array;
  8.     echo'argv:', ($end - $mid)/10000 ,'byte' , '<br>';  

得到:
argv:54.5792byte
argv:54.5784byte

從這個結果來看似乎一個數組元素大約佔用了54個位元組左右。

首先看一下32位機C語言各種型別佔用的位元組:

  1. #include "stdafx.h"
  2. //#include <stdio.h>
  3. int main() {  
  4.         printf("int:%d\nlong:%d\ndouble:%d\nchar*:%d\nsize_t:%d\n",   
  5.         sizeof(int), sizeof(long),   
  6.         sizeof(double), sizeof(char *),   
  7.         sizeof(size_t));  
  8.     return   0;   
  9. }  



int:4
long:4
double:8
har*:4
size_t:4
在PHP中都使用long型別來代表數字,沒有使用int型別
大家都明白PHP是一種弱型別的語言,它不會去區分變數的型別,沒有int float char *之類的概念。
我們看看php在zend裡面儲存的變數,PHP中每個變數都有對應的 zval, Zval結構體定義在Zend/zend.h裡面,其結構:

  1. typedefstruct _zval_struct zval;  
  2. struct _zval_struct {  
  3.     /* Variable information */
  4.     zvalue_value value;     /* The value 1 12位元組(32位機是12,64位機需要8+4+4=16) */
  5.     zend_uint refcount__gc; /* The number of references to this value (for GC) 4位元組 */
  6.     zend_uchar type;        /* The active type 1位元組*/
  7.     zend_uchar is_ref__gc;  /* Whether this value is a reference (&) 1位元組*/
  8. };  

PHP使用一種UNION結構來儲存變數的值,即zvalue_value 是一個union,UNION變數所佔用的記憶體是由最大

成員資料空間決定。

  1. typedefunion _zvalue_value {  
  2.     long lval;                  /* long value */
  3.     double dval;                /* double value */
  4.     struct {                    /* string value */
  5.         char *val;  
  6.         int len;  
  7.     } str;   
  8.     HashTable *ht;              /* hash table value */
  9.     zend_object_value obj;      /*object value */
  10. } zvalue_value;  

最大成員資料空間是struct str,指標佔*val用4位元組,INT佔用4位元組,共8位元組。

       struct zval佔用的空間為8+4+1+1 = 14位元組,

      其實呢,在zval中陣列,字串和物件還需要另外的儲存結構,陣列則是一個 HashTable:

   HashTable結構體定義在Zend/zend_hash.h.

  1. typedefstruct _hashtable {  
  2.     uint nTableSize;//4
  3.     uint nTableMask;//4
  4.     uint nNumOfElements;//4
  5.     ulong nNextFreeElement;//4
  6.     Bucket *pInternalPointer;   /* Used for element traversal 4*/
  7.     Bucket *pListHead;//4
  8.     Bucket *pListTail;//4
  9.     Bucket **arBuckets;//4
  10.     dtor_func_t pDestructor;//4
  11.     zend_bool persistent;//1
  12.     unsigned char nApplyCount;//1
  13.     zend_bool bApplyProtection;//1
  14. #if ZEND_DEBUG
  15.     int inconsistent;//4
  16. #endif
  17. } HashTable;  
HashTable 結構需要 39 個位元組,每個陣列元素儲存在 Bucket 結構中:
  1. typedefstruct bucket {  
  2.     ulong h;    /* Used for numeric indexing                4位元組 */
  3.     uint nKeyLength;    /* The length of the key (for string keys)  4位元組 */
  4.     void *pData;        /* 4位元組*/
  5.     void *pDataPtr;         /* 4位元組*/
  6.     struct bucket *pListNext;  /* PHP arrays are ordered. This gives the next element in that order4位元組*/
  7.     struct bucket *pListLast;  /* and this gives the previous element           4位元組 */
  8.     struct bucket *pNext;      /* The next element in this (doubly) linked list     4位元組*/
  9.     struct bucket *pLast;      /* The previous element in this (doubly) linked list     4位元組*/
  10.     char arKey[1];            /* Must be last element   1位元組*/
  11. } Bucket;  

Bucket 結構需要 33 個位元組,鍵長超過四個位元組的部分附加在 Bucket 後面,而元素值很可能是一個 zval 結構,另外每個陣列會分配一個由 arBuckets 指向的 Bucket 指標陣列, 雖然不能說每增加一個元素就需要一個指標,但是實際情況可能更糟。這麼算來一個數組元素就會佔用 54 個位元組,與上面的估算幾乎一樣。

    一個空陣列至少會佔用 14(zval) + 39(HashTable) + 33(arBuckets) = 86 個位元組,作為一個變數應該在符號表中有個位置,也是一個數組元素,因此一個空陣列變數需要 118 個位元組來描述和儲存。從空間的角度來看,小型陣列平均代價較大,當然一個指令碼中不會充斥數量很大的小型陣列,可以以較小的空間代價來獲取程式設計上的快捷。但如果將陣列當作容器來使用就是另一番景象了,實際應用經常會遇到多維陣列,而且元素居多。比如10k個元素的一維陣列大概消耗540k記憶體,而10k x 10 的二維陣列理論上只需要 6M 左右的空間,但是按照 memory_get_usage 的結果則兩倍於此,[10k,5,2]的三維陣列居然消耗了23M,小型陣列果然是划不來的。