【知識點】KMP演算法詳解

阿新 • • 發佈：2020-08-10

KMP演算法

演算法簡介

KMP演算法，即~~看毛片~~ \({Knuth-Morris-Pratt}\) 演算法。是由三位電腦科學家 \(D.E.Knuth、J.H.Morris、V.R.Pratt\) 提出的。該演算法可以在 \(O(n+m)\) 的時間複雜度內查詢一個字串在另一個字串中的位置。

KMP演算法的基本原理就是尋找模式串的公共前後綴，以優化時間複雜度。

演算法原理

~~盜用百度的圖片~~（推薦閱讀）

首先，假設我們有一個字串和一個需要比對的“模式串”，如圖：

首先，我們一個華（bao）麗（li）的開頭，就是把模式串與子串進行逐位匹配：

但是我們發現第六個字元不匹配。
按照傳統的思路，我們需要將模式串右移一位，然後繼續諸位比較。但是KMP演算法是一個毒瘤

高階演算法，怎麼能容忍如此赤裸裸的暴力呢？

我們發現目前已經匹配的子串中，字首和字尾都是一樣的，都是“GTG”：

所以我們驚訝地發現，我們可以直接把模式串右移到最長可匹配字尾的位置，然後繼續愉快的比較

可是又出現了一個“壞字元”，我們應該如何處理呢？
沒錯，繼續尋找可匹配最長字首和字尾，然後再次移動模式串。

以此類推。這就是KMP演算法的流程。

原理應該理解了，那麼要如何實現呢？

演算法實現

一、\(nxt\) 陣列

\(nxt\) 是一個一維整型陣列，陣列的下標代表了“已匹配字首的下一個位置”，元素的值則是“最長可匹配字首子串的下一個位置”。如圖所示：

其中，由於子串“G”、“GT”、“GTGTGC”沒有可匹配的字首和字尾，所以對應的 \(nxt\)

值為 \(0\)。

只要我們求出 \(nxt\) 陣列，我們就可以解決尋找最長可匹配前後綴並移動模式串的問題了。

~~相信聰明的你已經理解了~~

二、求出 \(nxt\) 陣列

我們設兩個變數，\(i\) 和 \(j\) ，它們分別表示“已匹配字首的下一個位置”，也就是待填充的陣列下標，和“最長可匹配字首子串的下一個位置”，也就是待填充的陣列元素值。它們的初始值如下：

求出 \(nxt\) 陣列的過程，就是用模式串“自己匹配自己”。

首先，我們讓 \(i++\) 。

此時，一匹配子串長度為 \(1\) ，不存在可匹配字尾，故 \(nxt[1]=0\)。

我們令 \(i\) 繼續 \(+1\)。
可以發現，最長可匹配前後綴子串仍不存在，所以 \(nxt[2]=0\)

。

當 \(i\) 又一次加一時，我們發現此時的模式串 \(s\) 中存在 \(s[j]=s[i-1]\) ，於是 \(nxt[3]=nxt[2]+1=1\) 。

現在，我們需要讓 \(i,\ j\) 都加一。

我們驚訝的發現，\(s[j]=s[i-1]='T'\) ，所以可匹配最長前後綴子串的長度加一，即 \(nxt[4]=nxt[3]+1=2\)。

當 \(i,\ j\) 再次同時加一後，我們找到了 \(s[j]=s[i-1]='G'\)，所以 \(nxt[5]=nxt[4]+1=3\)

可是此時的 \(s[j]\) 和 \(s[i-1]\) 不匹配了，怎麼辦呢？

按照套路，應該移動模式串了。如何移動？簡單地移動一位嗎？當然不，我們令 \(j=nxt[j]\) 。

可是天不從人願，我們發現字元仍然不匹配。所以再次使 \(j=nxt[j]\) 。

此時， \(j\) 已經無法回溯，所以 \(nxt[6]=0\)， \(nxt\) 陣列就求出來了。
推導完畢。匹配的過程也類似。

建議將 \(nxt\) 陣列的推導多看幾遍，這樣可以加深理解。因為 \(nxt\) 陣列的推導過程是KMP演算法最~~反人類~~核心的地方。

具體程式碼實現

\(\mathtt{Talking\ is\ cheap,\ show\ me\ the\ code.}\)

void KMP(char *s1,char *s2)
{
    /* KMP演算法
     * @params s1為主串，s2為模式串，l1,l2分別是它們的長度
     * @from 程式碼來自Luogu P3375，是一道KMP模板題
     */
    int l1=strlen(s1),l2=strlen(s2);
    int j=0;
    for(int i=2;i<=l2;i++)
    {
        while(j && s2[i]!=s2[j+1])
            j=nxt[j];
        if(s2[i]==s2[j+1])	j++;
        nxt[i]=j;
    }
    j=0;
    for(int i=1;i<=l1;i++)
    {
        while(j && s1[i]!=s2[j+1])
            j=nxt[j];
        if(s1[i]==s2[j+1])	j++;
        if(j==l2)
            printf("%d\n",i-l2+1),j=nxt[j];
    }
}

注：\(Galax OJ\) 的 \(KMP\) 練習題題解已經在路上啦~

恭喜你找到了練習題連結~

【知識點】KMP演算法詳解

KMP演算法演算法簡介 KMP演算法，即看毛片 \\({Knuth-Morris-Pratt}\\) 演算法。是由三位電腦科學家 \\(D.E.Knuth、J.H.Morris、V.R.Pratt\\) 提出的。該演算法可以在 \\(O(n+m)\\) 的時間複雜度內查詢一個字串在另

【知識點】Manacher演算法詳解

Manacher演算法演算法簡介 \\(Manacher\\) 演算法，即“馬拉車”演算法，是一種高效（\\(O(n)\\)）的求最長迴文子串的演算法。相比於 \\(KMP\\) ，\\(Manacher\\) 也許更好理解一些。

KMP 演算法詳解

title: KMP 演算法詳解 date: \'2020-07-16 15:55\' index_img: https://api.mz-moe.cn/img.php tags: 演算法

【C++ 】 deque使用詳解

一、概述 deque（雙端佇列）是由一段一段的定量連續空間構成，可以向兩端發展，因此不論在尾部或頭部安插元素都十分迅速。在中間部分安插元素則比較費時，因為必須移動其它元素。

【Linux】Linux expect詳解

原文連結：https://www.jianshu.com/p/2fcdf764f464 隨處可見的expect 第一次見expect這個命令還是我第一次參加全量上線的時候，那是公司的一個牛人用Shell指令碼寫的一套自動部署、MD5 比對、釋出的全量上線工具，

【JVM】jstat命令詳解---JVM的統計監測工具

java程序的PID獲取命令： https://www.cnblogs.com/sxdcgaq8080/p/10734752.html ===========================================================

【JVM】jmap命令詳解----檢視JVM記憶體使用詳情

linux獲取java程序PID： https://www.cnblogs.com/sxdcgaq8080/p/10734752.html 如果命令使用過程中報錯,可能解決你問題的方案：

【C++】智慧指標詳解

轉自：https://blog.csdn.net/flowing_wind/article/details/81301001 參考資料：《C++ Primer中文版第五版》我們知道除了靜態記憶體和棧記憶體外，每個程式還有一個記憶體池，這部分記憶體被稱為自由空間或者堆。程

【Oracle】Library Cache 詳解

簡介庫快取主要用於快取剛剛執行過的 SQL 語句和 PL/SQL 語句（如儲存過程、函式、包、觸發器）所對應的執行計劃、解析樹（Parse Tree）、Pcode、Mcode 等，當同樣的 SQL 語句和 PL/SOL 語句再次被執行時無須再

【筆記】cat命令詳解

無論是在linux運維中還是生信工作中處理一些文字檔案時，熟練運用檔案過濾及內容編輯處理命令都能幫助我們提高工作效率，老男孩老師的這本書雀實是總結得十分完善的，一方面兼顧了我們這種基礎學習者，另一方面也為

【RECYCLEBIN】Oracle回收站詳解

Oracle 提供了很多保護資料的方法，其中回收站也是保護資料的一道防線，本文以Oracle11.2.0.4 為例進行測試。

【字串】KMP演算法

KMP演算法參考基本概念 1、s[ ]是模式串，即比較長的字串（要去匹配上的字串）。

【elasticsearch】搜尋過程詳解

elasticsearch 搜尋過程詳解本文基於elasticsearch8.1。在es搜尋中，經常會使用索引+星號，採用時間戳來進行搜尋，比如aaaa-*在es中是怎麼處理這類請求的呢？是對匹配的進行搜尋呢還是僅僅根據時間找出索引，然後才

KMP演算法詳解-字串匹配

1.什麼是KMP 是由這三位學者發明的：Knuth，Morris和Pratt，所以取了三位學者名字的首字母。所以叫做KMP

宇智波程式筆記6-【MySQL】之join演算法詳解

在阿里巴巴的java開發手冊有這麼一條強制規定：超過三個表禁止join，需要join的欄位，資料型別保持絕對一致，多表關聯查詢時，要保證被關聯的欄位需要有索引。為什麼儘量避免使用join？如果使用join，我們應該怎麼用

【OCR技術系列之七】端到端不定長文字識別CRNN演算法詳解

【OCR技術系列之七】端到端不定長文字識別CRNN演算法詳解在以前的OCR任務中，識別過程分為兩步：單字切割和分類任務。我們一般都會講一連串文字的文字檔案先利用投影法切割出單個字型，在送入CNN裡進行文字分類

【字串演算法】字典樹詳解

字典樹　　字典樹，又稱單詞查詢樹，Trie樹，是一種樹形結構，是一種雜湊樹的變種。典型應用是用於統計，排序和儲存大量的字串（但不僅限於字串），所以經常被搜尋引擎系統用於文字詞頻統計。它的優點是：利用字串的

【java提高】(19)---BigDecimal詳解和精度問題

BigDecimal詳解和精度問題一、背景在實際開發中，對於不需要任何準確計算精度的屬性可以直接使用float或double，但是如果需要精確計算結果，則必須使用BigDecimal，例如價格、質量。

宇智波程式筆記34-【Flutter 實戰】路由堆疊詳解

老孟導讀：Flutter中路由是非常重要的部分，任何一個應用程式都離不開路由管理，此文講解路由相關方法的使用和路由堆疊的變化。

【小白學PyTorch】12 SENet詳解及PyTorch實現

文章來自微信公眾號【機器學習煉丹術】。我是煉丹兄，有什麼問題都可以來找我交流，近期建立了微信交流群，也在朋友圈抽獎贈書十多本了。我的微信是cyx645016617，歡迎各位朋友。

【知識點】KMP演算法詳解

KMP演算法

演算法簡介

演算法原理

演算法實現

一、\(nxt\) 陣列

二、求出 \(nxt\) 陣列

具體程式碼實現

相關推薦