你的java/c/c++程式崩潰了？揭祕段錯誤（Segmentation fault）（3）

阿新 • • 發佈：2019-02-18

前言

接上兩篇:

寫到這裡，越跟，越發現真的是核心上很白，非一般的白。
但是既然是研究，就定住心，把段錯誤搞到清楚明白。

本篇將作為終篇，來結束這個系列，也算是對段錯誤和程式除錯、尋找崩潰原因（通常不會給你那麼完美的stackstrace和人性化的錯誤提示）的再深入。

本篇使用到的工具或命令：

dmesg
strace
gdb
linux 核心3.10原始碼

情景再現

上兩篇圍繞著一個這樣的問題進行展開：

//野指標
char ** p;
//零指標或空指標
p = NULL;
//段錯誤（Segmentation Fault）
*p = (char *)malloc(sizeof 
(char));

問題程式碼

為了本篇的可讀性，圍繞上述問題編織問題程式碼：

#include "stdio.h"
#include "string.h"
#include "stdlib.h"


int main(int argc,char** args) {
    char * p = NULL;
    *p = 0x0;
}

段錯誤

這裡寫圖片描述

找出問題

第1步 strace 查訊號描述

上篇已經介紹了gbd+coredump的方法來找到出現段錯誤的程式碼，本篇直接上strace：

strace -i -x -o segfault.txt ./segfault. 
o

得到如下資訊：
這裡寫圖片描述

可以知道：

1.錯誤訊號：SIGSEGV
3.錯誤碼：SEGV_MAPERR
3.錯誤記憶體地址：0x0
4.邏輯地址0x400507處出錯.

可以猜測:

程式中有空指標訪問試圖向0x0寫入而引發段錯誤.

第2步 dmesg 查錯誤現場

上dmesg：

dmesg

得到：
這裡寫圖片描述

可知：

1.錯誤型別：segfault ,即段錯誤（Segmentation Fault）.
2.出錯時ip：0x400507
3.錯誤號：6，即110

第3步收集已知結論

這裡 錯誤號和ip 是關鍵，錯誤號對照下面：

    /*
     * Page fault error code bits:
     *
     *   bit 0 
 ==    0: no page found   1: protection fault
     *   bit 1 ==    0: read access     1: write access
     *   bit 2 ==    0: kernel-mode access  1: user-mode access
     *   bit 3 ==               1: use of reserved bit detected
     *   bit 4 ==               1: fault was an instruction fetch
     */
    /*enum x86_pf_error_code {

        PF_PROT     =       1 << 0,
        PF_WRITE    =       1 << 1,
        PF_USER     =       1 << 2,
        PF_RSVD     =       1 << 3,
        PF_INSTR    =       1 << 4,
    };*/

對照後可知:

錯誤號6 = 110 = (PF_USER | PF_WIRTE | 0).
即“使用者態”、“寫入型頁錯誤 ”、“沒有與指定的地址相對應的頁”.

上面的資訊與我們最初的推斷吻合.

現在，對目前已知結論進行概括如下：

1.錯誤型別：segfualt ,即段錯誤（Segmentation Fault）.

2.出錯時ip：0x400507

3.錯誤號：6，即110

4.錯誤碼：SEGV_MAPERR 即地址沒有對映到物件.

5.錯誤原因：對0x0進行寫操作引發了段錯誤，原因是0x0沒有與之對應的頁或者叫對映.

第4步根據結論找到出錯程式碼

上gdb：

gdb ./segfault.o

根據結論中的ip = 0x400507立即得到：

這裡寫圖片描述

顯然，這驗證了我們的結論：

我們試圖將值0x0寫入地址0x0從而引發寫入未對映的地址的段錯誤.

這裡寫圖片描述並且我們找到了錯誤的程式碼stack.c的第9行：

查根溯源

顯然，我們不滿足於此，為什麼訪問了0x0會造成這個錯誤從而讓程式崩潰？

第二篇已經說了程序虛擬地址空間的問題，事實上我們進行寫入操作的時候，會引發虛擬地址到實體地址的對映，因為你最終要將資料（本篇是0x0，注意和我們的地址0x0區分）寫入到實體記憶體中。

0x0是個邏輯地址，linux按頁式管理記憶體對映，0x0不會對應任何頁，那麼記憶體中就不會有主頁，所以對其進行寫入就會引發一個缺頁中斷，這一部分由linux記憶體對映管理模組(memory mapping,縮寫mm)處理。

缺頁錯誤處理

1. __do_page_fault

缺頁後進入__do_page_fault流程,注意，這裡為了儘量減少篇幅，刪去了原始碼的一些註釋，而與我們有關的命中程式碼都做了註釋：

/*
 * This routine handles page faults.  It determines the address,
 * and the problem, and then passes it off to one of the appropriate
 * routines.
 */
static void __kprobes
__do_page_fault(struct pt_regs *regs, unsigned long error_code./*  注意我們的錯誤是6，即110 */)
{
    struct vm_area_struct *vma;
    struct task_struct *tsk;
    unsigned long address;
    struct mm_struct *mm;
    int fault;
    int write = error_code & PF_WRITE;
    unsigned int flags = FAULT_FLAG_ALLOW_RETRY | FAULT_FLAG_KILLABLE |
                    (write ? FAULT_FLAG_WRITE : 0);

    tsk = current;
    mm = tsk->mm;

    /* 這裡會去取到我們的 地址=0x0 */
    /* Get the faulting address: */
    address = read_cr2();

    if (kmemcheck_active(regs))
        kmemcheck_hide(regs);
    prefetchw(&mm->mmap_sem);

    if (unlikely(kmmio_fault(regs, address)))
        return;

    if (unlikely(fault_in_kernel_space(address))) {
        //這裡略去，不會命中
        /* ... */
        return;
    }

    //略去很多程式碼
    // ...

retry:
        down_read(&mm->mmap_sem);
    } else {
        might_sleep();
    }

    vma = find_vma(mm, address);
    if (unlikely(!vma)) {

        /* 到這裡處理 */
        bad_area(regs, error_code, address);
        //處理後返回
        return;
    }

    //略去很多程式碼
    // ...
}

2. bad_area

其中的一個關鍵呼叫bad_area(regs, error_code, address);

static noinline void
bad_area(struct pt_regs *regs, unsigned long error_code, unsigned long address)
{
    /* 注意這裡講錯誤碼設為了SEGV_MAPERR */
    __bad_area(regs, error_code, address, SEGV_MAPERR);
}

可以明確

我們結論中的SEGV_MAPERR的出處.

這個型別就是無法對映到物件的意思！看下面strace得到的東西,其中
si_code=SEGV_MAPERR.
--- SIGSEGV {si_signo=SIGSEGV, si_code=SEGV_MAPERR, si_addr=0} ---
+++ killed by SIGSEGV (core dumped) +++

最後會來到這裡：

static void
__bad_area_nosemaphore(struct pt_regs *regs, unsigned long error_code,
               unsigned long address, int si_code)
{
    struct task_struct *tsk = current;

    /* 我們的錯誤碼是6 = 110,PF_USER = 100,所以會進入這個if */
    if (error_code & PF_USER) {

        /* 關中斷 */
        local_irq_enable();

        //...略 

        if (address >= TASK_SIZE)
            error_code |= PF_PROT;

        /* 這裡會將出錯資訊列印 */
        if (likely(show_unhandled_signals))
            show_signal_msg(regs, error_code, address, tsk);

        tsk->thread.cr2     = address;
        tsk->thread.error_code  = error_code;
        tsk->thread.trap_nr = X86_TRAP_PF;

        /* 這裡會強制傳送 SIGSEGV=段錯誤 訊號 */
        force_sig_info_fault(SIGSEGV, si_code, address, tsk, 0);

        return;
    }

    //...略
}

注意上面的程式碼的兩個關鍵呼叫:

show_signal_msg  //用於打印出錯資訊
force_sig_info_fault  //用於強制傳送訊號

3. show_signal_msg

/*
 * Print out info about fatal segfaults, if the show_unhandled_signals
 * sysctl is set:
 */
static inline void
show_signal_msg(struct pt_regs *regs, unsigned long error_code,
        unsigned long address, struct task_struct *tsk)
{
    //...略

    /* 列印段錯誤資訊 -> /proc/kmsg */
    printk("%s%s[%d]: segfault at %lx ip %p sp %p error %lx",
        task_pid_nr(tsk) > 1 ? KERN_INFO : KERN_EMERG,
        tsk->comm, task_pid_nr(tsk), address,
        (void *)regs->ip, (void *)regs->sp, error_code);

    print_vma_addr(KERN_CONT " in ", regs->ip);

    printk(KERN_CONT "\n");
}

其中，列印段錯誤的資訊的程式碼，就是我們使用dmesg得到的東西.

可以對比下我們的段錯誤的圖：
這裡寫圖片描述

4. force_sig_info_fault

最後就是傳送訊號了。

static void
force_sig_info_fault(int si_signo, int si_code, unsigned long address,
             struct task_struct *tsk, int fault)
{
    unsigned lsb = 0;
    siginfo_t info;

    info.si_signo   = si_signo;
    info.si_errno   = 0;
    info.si_code    = si_code;
    info.si_addr    = (void __user *)address;
    if (fault & VM_FAULT_HWPOISON_LARGE)
        lsb = hstate_index_to_shift(VM_FAULT_GET_HINDEX(fault)); 
    if (fault & VM_FAULT_HWPOISON)
        lsb = PAGE_SHIFT;
    info.si_addr_lsb = lsb;

    /* 強制傳送SIGSEGV訊號 */
    force_sig_info(si_signo, &info, tsk);
}

force_sig_info：

int
force_sig_info(int sig, struct siginfo *info, struct task_struct *t)
{
    unsigned long int flags;
    int ret, blocked, ignored;
    struct k_sigaction *action;

    spin_lock_irqsave(&t->sighand->siglock, flags);

    /* 這裡就指定訊號的處理程式了 */
    action = &t->sighand->action[sig-1];

    //...略

    /* 必須強制傳送 */
    if (action->sa.sa_handler == SIG_DFL)
        /* 不需要遞迴式的傳送SEGSIGV訊號，所以清掉SIGNAL_UNKILLABLE */
        t->signal->flags &= ~SIGNAL_UNKILLABLE;

    // 傳送
    ret = specific_send_sig_info(sig, info, t);
    spin_unlock_irqrestore(&t->sighand->siglock, flags);

    return ret;
}

上面的程式碼告訴我們，訊號的處理程式如何被指定的，那麼關於段錯誤的訊號SEGSIGV預設就是core dump.

5. core dump

到此，我們已經可以拿到core dump，那麼第二篇中找到引發段錯誤的程式碼的方法就可以用了，這也是推薦的做法：

gdb ./segfault.o core.36054

這裡寫圖片描述

是不是立即可知stack.c第9行的程式碼*p = 0x0是罪魁禍首了呢？

結語

到此，整個段錯誤的探索就結束了，希望讀者和我一樣不虛此行。

列出幾種常見段錯誤原因：

1.陣列越界

    int a[10] = {0,1};
    printf("%d",a[10000]);

2.零指標或空指標

    //本系列所用例項
    char * p = NULL;
    *p = 0x0;

3.懸浮指標

如果指標p懸浮，它指向的地址有可能能用，也有可能不能，你不知道那塊地址什麼時候被寫入，什麼時候被保護（mprotect）.
如果被保護為可讀，你寫就出現段錯誤！

4.訪問許可權，非法訪問

參見3.

5.多執行緒對共享指標變數操作

不僅c/c++,android中、java程式中有可能也會出現jvm崩潰哦，那檢查下多執行緒的共享變數吧！

如有錯誤，請不吝賜教.

你的java/c/c++程式崩潰了？揭祕段錯誤（Segmentation fault）（3）

前言接上兩篇: 寫到這裡，越跟，越發現真的是核心上很白，非一般的白。但是既然是研究，就定住心，把段錯誤搞到清楚明白。本篇將作為終篇，來結束這個系列，也算是對段錯誤和程式除錯、尋找崩潰原因（通常不會給你那麼完美的stackstrace和人性化的錯

超過了30歲，你就別當程式設計師了吧？

去年12月，42歲的中興通訊的研究工程師從樓上跳下，結束了自己的生命，留下了自己的妻子，和兩個孩子。他在一週前被解僱，而公司拒絕給出解僱他的理由。他的妻子將他的故事放到網路上，不過中興為啥解僱，他為啥離開這個世界都是個謎。但是網友將關注點放在了他的年齡上——42歲

Effective C++ 改善程式與設計的55個做法，總結筆記（上）

前言最近在看《Effective C++》這本書，這部落格相當於是個濃縮版的總結吧。在這裡你可以大致遊覽下在 C++ 開發中前人給了我們哪些建議，有機會我覺得最好還是可以看看原書，因為裡面會有不少具體的例子告訴你為什麼這麼做以及這麼做的好處。一、讓自己習慣

Effective C++ 改善程式與設計的55個做法，總結筆記（下）

前言六、繼承和麵向物件設計 32. 確定你的 public 繼承塑模出 is-a 關係繼承是 is-a 關係，指 “是一個”，即父類的每條屬性和方法都應該適用於子類。 33. 避免遮掩繼承而來的名稱對於變數和函式，子類的名稱會遮掩父類的名稱，即使函式是

C++ 應用程式記憶體結構 --- BSS段，資料段，程式碼段，堆記憶體和棧

二. 在C++中，記憶體分成5個區，他們分別是堆、棧、自由儲存區、全域性/靜態儲存區和常量儲存區1.棧，就是那些由編譯器在需要的時候分配，在不需要的時候自動清楚的變數的儲存區。裡面的變數通常是區域性變數、函式引數等。2.堆，就是那些由new分配的記憶體塊，他們的釋放編譯器不去管，由我們的應用程式去控制，一

android上jni跑影象分類程式崩潰了，報錯libc : Fatal signal 11 ... gif影象通道數是1啊

android上jni跑影象分類程式崩潰了，報錯libc : Fatal signal 11 ... 還好一個同事查出來有張gif圖片冒充jpg，就是這個：怎麼知道是冒充的呢？用文字檔案檢

python CTP 8193 心跳超時程式崩潰解決方法——8193錯誤

終於，終於，終於！！！！博主千辛萬苦把CTP 8193心跳超時導致程式崩潰的問題解決了！！！！！經歷了一天一夜的測試後，第二天親眼看到CTP返回了8193錯誤後，我的程式沒有崩潰！第二天早上9:00一到，又自己正常運行了。敲開心~~~ 博主的血淚史，就是搜遍國內外全網，不止博主一個人遇到8

C/C++中的段錯誤（Segmentation fault）

}3）其他其實大概的原因都是一樣的，就是段錯誤的定義。但是更多的容易出錯的地方就要自己不斷積累，不段發現，或者吸納前人已經積累的經驗，並且注意避免再次發生。例如：<1>定義了指標後記得初始化，在使用的時候記得判斷是否為NULL<2>在使用陣列的時候是否被初始化，陣列下標是否越界，陣列元

Java併發程式設計之執行緒管理（基本執行緒同步3）

(上一節的繼續) 2.2 使用Lock機制 Java提供了另外一種機制來同步程式碼塊。它是比synchrozied關鍵字更為強大且彈性的機制。它是基於鎖介面和實現了這個介面的類

第十四周專案六閱讀程式（1、2、3）

1． #include <iostream> using namespace std; int main() { int a [6]={2,-3,4,-6,-8,10}, i; for (i=0;i<6;i++) { if(a[i]&l

天天 Java、C/C++，可這五種程式語言你知道嗎？

"適者生存，優勝劣汰”，程式語言同樣適用。世界上有超過 1500 種程式語言，雖然本質上都是對於最底層 0 與 1 的抽象和封裝，但是卻沒有哪一種程式語言可以解決所有的問題。當有新的問題領域出現時，就需要創造新的程式語言來適配它。這也就導致了不同的計算機語言擁有不同的“個性”——除去 Python、Jav

匿名IT網友: 我們程式設計師專屬美圖功能, 騰訊員工: 又黑程式設計師了你c

現在網際網路科技那麼發達，經常上網就能看到這裡一個黑科技那裡一個黑科技什麼的。提起IT人們就會想起程式設計師，如今這樣那樣的黑科技背後就是程式設計師們的默默付出和貢獻。提起程式設計師，這個行業在普通人眼裡是非常神祕的，為什麼呢！一般不瞭解的聽到程式設計師就會聯想到修電腦、黑客

哪種程式語言好？大神為你分析 Go、Java、C、C++ 等主流程式語言

2004 年進入華為，一直在訊息產品開發一線耕耘，今年下半年轉入華為融合視訊業務。曾參與多個重要專案與重要版本的設計、重構與開發，輾轉多個語言：長期從事 C、C++ 開發，Java 與 Python 也有約 30K+ 程式碼的開發經驗，目前正在基於 Go 語言開發，對 HTML/JS/Shell 等指令碼

你的C/C++程式為什麼無法執行？揭祕Segmentation fault （1）

什麼讓你對C/C++如此恐懼？晦澀的語法？還是優秀IDE的欠缺？我想那都不是問題，最多的可能是一個類似這樣的錯誤：段錯誤（Segmentation fault）這是新手無法避免的錯誤，也是老手極力迴避也經常遇到的錯誤。本篇，試圖簡略地剖析

一文了解c/c++、java、JavaScript、php、Python的用途

BE 算法實現分布式底層 web服務器物聯網文檔性能爆發編程語言是用來定義計算機程序的形式語言。它是一種被標準化的交流技巧，用來向計算機發出指令。一種計算機語言讓程序員能夠準確地定義計算機所需要使用的數據，並精確地定義在不同情況下所應當采取的行動。 C和C+

天天 Java、C/C++，可這五種編程語言你知道嗎？

計算機 scrip rip 生存腳本價值本質號稱 c++ "適者生存，優勝劣汰”，編程語言同樣適用。世界上有超過 1500 種編程語言，雖然本質上都是對於最底層 0 與 1 的抽象和封裝，但是卻沒有哪一種編程語言可以解決所有的問題。當有新的問題領域出現時

COMP/2013作業代做、代寫software留學生作業、代做Python、C/C++程式作業、代寫Java/C++實驗設計作業

COMP/2013作業代做、代寫software留學生作業、代做Python、C/C++程式作業、代寫Java/C++實驗設計作業COMP/2013 (Lab 04 - 2018)1LAB 4: ADDING UNIT TESTS, WORKING WITH BUILD SCRIPTSAims: Add so

程式語言的進化史，細數C/C++，Java等程式語言的演變

程式語言從何而來？程式設計師慣用的 Java、C、C++ 等語言又是誰研究而成的？本文追溯到 1800 年，歷數百年來的程式語言進化史。在學習C/C++或者想要學習C/C++可以加入我們的學習交流QQ群：835257103，群內有學習資源，大家一起學習交流 1800

C++程式崩潰解決方案

C++程式崩潰解決方案如需轉載請標明出處：http://blog.csdn.net/itas109 QQ技術交流群：129518033 目錄文章目錄 C++程式崩潰解決方案 @[toc] 前言

java呼叫C程式

案例如下： package com.laction.so linux:/mnt/zddom/com/laction/so -rw-r--r--. 1 root root 922 Nov 13 14:30 HelloJNI.class -rw-r--r--. 1 root root 463 Nov 13 14:

你的java/c/c++程式崩潰了？揭祕段錯誤（Segmentation fault）（3）

前言

本篇使用到的工具或命令：

情景再現

問題程式碼

段錯誤

找出問題

第1步 strace 查訊號描述

第2步 dmesg 查錯誤現場

第3步 收集已知結論

第4步 根據結論找到出錯程式碼

查根溯源

缺頁錯誤處理

1. __do_page_fault

2. bad_area

3. show_signal_msg

4. force_sig_info_fault

5. core dump

結語

相關推薦

第3步收集已知結論

第4步根據結論找到出錯程式碼