字尾陣列模板及程式碼詳解

阿新 • • 發佈：2018-12-24

字尾陣列程式碼詳解

這裡寫圖片描述

上圖中存在直邊和斜邊，下文會用到。

#include <cstdio>
#include <cstring>
#include <iostream>
#include <algorithm>
using namespace std;

const int maxn = 1000;
const int maxasc = 128; //ascII碼[0,127]
char s[maxn];
int sa[maxn],t1[maxn],t2[maxn],c[maxn],n;

void debug()
{
    for(int 
 i=0; i<n; i++) printf("%d ",sa[i]);
    printf("\n");
}

void build_sa(int m)
{
    int *x = t1, *y = t2;//因為之後我們要swap（x，y）所以用指標 
    //第一遍實際就是對s陣列穩定排序,使用的是基數排序
    for(int i=0; i<m; i++) c[i] = 0;//清空桶 
    for(int i=0; i<n; i++) c[x[i] = s[i]]++;//x[i]=s[i]，x相當於是rank，存的是排名第i的串的首字母是什麼，當然現在還沒有排名 
    //把首字母相同的放在同一個桶裡  

    for(int i=1; i<m; i++) c[i] += c[i-1];//就根據首字母排序，首字母為i的前面留出首字母為1~i-1的數足夠位置 
    for(int i=n-1; i>=0; i--) sa[--c[x[i]]] = i;//sa[i]表示排名為i的串首字母在原串中的位置
    //因為還沒有排完序，所以當前x[i]表示的還是i位置所引領的串的首字母（s[i]），所以i位置所引領的串的排名自然就是“--c[x[i]]”
    // 
    for(int k=1; k<=n; k = k<<1) //每次擴充套件兩倍
    {
        int 
 p = 0;
        //利用sa陣列直接排序第二關鍵字
        for(int i=n-k; i<n; i++) y[p++] = i; 
        //實際是認為沒有第二關鍵字，即不存在後k個字元的串的第二關鍵字最小,所以放在前面，y[i] = x 表示第二關鍵字第i小的串的首字母在i位置 
        for(int i=0; i<n; i++) if(sa[i] >= k) y[p++] = sa[i]-k;//第二關鍵字的位置本來是sa[i]，-k之後就變成它對應第一關鍵字的位置（直邊所指） 
        //如果sa[i]小於k,第一關鍵字不夠k個字元，因為斜邊指向第二關鍵字，直邊就指向第一關鍵字，若是第二關鍵字小於看，有會指出去 
        //基數排序第一關鍵字
        //已經知道第二關鍵字的大小順序了,扔到桶(c陣列)裡來一趟基數排序
        for(int i=0; i<m; i++) c[i] = 0;
        for(int i=0; i<n; i++) c[x[y[i]]]++;//y[i]表示第二關鍵字第i小的串對應第一關鍵字的首字母在i位置，x[i]表示i位置所引領的串的首字母
        //所以x[y[i]]表示第二關鍵字第i小的串對應第一關鍵字的首字母，首字母相同的放在一個桶裡
        for(int i=0; i<m; i++) c[i] += c[i-1];//就根據首字母排序，首字母為i的前面留出首字母為1~i-1的數足夠位置 
        for(int i=n-1; i>=0; i--) sa[--c[x[y[i]]]] = y[i];//y[i]表示第二關鍵字第i小的串對應第一關鍵字的首字母在i位置
        //sa[i]表示排名為i的串首字母在原串中的位置，那麼在y[i]位置的串排名應該是“--c[x[y[i]]]” 
        //根據sa和y陣列計算x陣列
        //x陣列實際是用來確定首字母為第i號字元,連續k個字母的串的相對大小的,所以最開始x[i]=s[i]
        swap(x,y);//我們在下一次迴圈之前不會用到x所以不用在意x中到底存的是什麼，總是要覆蓋的。
        //交換以後，我們原本捨棄的x，就變成捨棄y了 
        p = 1; x[sa[0]] = 0;
        //從最小的串開始，賦予串一個整數值代表大小,aa = aa = 1,ab = 2,ba = 3等等
        for(int i=1; i<n; i++)
            x[sa[i]] = y[sa[i-1]] == y[sa[i]] && y[sa[i-1]+k] == y[sa[i]+k] ? p-1 : p++;//針對兩個串比較直邊所指元素和斜邊所指元素 
        //每個串都彼此大小不同了,事實上字尾就是應該所有都不相等的，相對大小已確定,退出迴圈
        if(p >= n) break;
        m = p; //關鍵字的取值範圍發生了變化,現在只有p個不同的值
    }//最後就得到了sa和rank（x） 
    debug();
}

int main()
{
    scanf("%s",s);
    n = strlen(s);
    build_sa(maxasc);
    return 0;
}

void build_height(int *r, int n){//加一段求height的程式碼吧
    int k=0, j;  
    for(int i=0; i<n; i++)  rank[sa[i]] = i;//rank與sa是反函式
    //如果在原串後面加了一個極小的字元（某些題目需要）
    //就應該for(int i=1; i<=n; i++)//因為以這個極小字元開頭的字尾串一定是最小的，也就是s[0]
    //我們0~n-1，n個字尾串也就變成了0~n，n個，所以for 1~n（網上大多數程式碼並沒有解釋這一點） 
    for(int i=1; i<=n; height[rank[i++]] = k)//height[rank[1]=0
        for(k ? k--:0, j = sa[rank[i]-1]; r[i+k] == r[j+k]; k++);
        //j就是排序後的上一個字尾。
        //第i-2個字尾與第i-1個字尾的height為k，那麼第i-1個字尾與第i個字尾的height至少為k-1（可舉例驗證）於是從k-1向後擴充套件
}

詳細內容參看：字尾陣列——處理字串的有力工具

字尾陣列模板及程式碼詳解

字尾陣列程式碼詳解上圖中存在直邊和斜邊，下文會用到。 #include <cstdio> #include <cstring> #include <iostream> #include <algorit

batchnorm原理及程式碼詳解（筆記2）

Batchnorm原理詳解前言：Batchnorm是深度網路中經常用到的加速神經網路訓練，加速收斂速度及穩定性的演算法，可以說是目前深度網路必不可少的一部分。本文旨在用通俗易懂的語言，對深度學習的常用演算法–batchnorm的原理及其程式碼實現做一個詳細的解讀。本文主要包括以下幾個

Android + Appium 自動化測試完整的環境配置及程式碼詳解

環境的的搭建參考大神部落格：https://www.cnblogs.com/fnng/p/4540731.html 該部落格有一套詳細的入門教程，奈何時間有點久遠有些東西不能用了，但是參考價值還是有滴。 1.安裝各種SDK jre必須1.8以上 AndroidSDK需要8.0以下的測試，

tensorflow-deeplab-resnet 原理及程式碼詳解

前言：程式碼的model.py，network.py是建立深度學習網路的部分，這部分程式碼風格與Faster-RCNN_TF那個程式的風格非常相似，也很簡單，不再多做介紹。這裡主要介紹train.py、image_reader.py其他還有inference

TensorFlow 製作自己的TFRecord資料集讀取、顯示及程式碼詳解

準備圖片資料筆者找了2類狗的圖片，哈士奇和吉娃娃，全部 resize成128 * 128大小如下圖，儲存地址為D:\Python\data\dog 每類中有10張圖片現在利用這2 類 20張圖片製作TFRecord檔案製作TFRECO

【TensorFlow】TFRecord資料集的製作：讀取、顯示及程式碼詳解

在跑通了官網的mnist和cifar10資料之後，筆者嘗試著製作自己的資料集，並儲存，讀入，顯示。 TensorFlow可以支援cifar10的資料格式，也提供了標準的TFRecord 格式。 tensorflow 讀取資料，官網提供了以下三種方法： 1 Feeding：在

資料快取技術及程式碼詳解

1.快取概述　　•為什麼使用快取　　　　– 應用程式可以將那些頻繁訪問的資料，以及那些需要大量處理時間來建立的資料儲存在記憶體中，從而提高效能　　• 快取機制分類介紹　　　　– 應用程式快取　　　　– 頁輸出快取 2.應用程式快取的機制　　• 應用程式快取是由System.Web.Caching

linux-socket tcp客戶端伺服器程式設計模型及程式碼詳解

上一篇文章介紹了 TCP/IP相關協議,socket通訊流程和涉及到的各種函式: 本篇將具體解釋tcp客戶端伺服器程式設計模型相關的程式碼文章分為4個部分: 1. TCP客戶端伺服器程式設計模型流程圖 2. 網路位元組序與主機位元組序 3.

tensorflow ————batchnorm原理及程式碼詳解

Batchnorm————深度學習中常用到的加速神經網路訓練，加速收斂及穩定性的演算法。1.batchnorm主要解決的問題（BN的歸一化手段很好用）batchnorm直譯過來就是批規範化，就是為了解決分佈變化問題。深度學習上都要對資料做歸一化處理，因為深度神經網路主要就是為

Faster rcnn（1）--- RPN原理及程式碼詳解

一. 論文二. RPN提出的目的用cnn來提取proposal，替代原始的slective search；由於原始的selective search獲得proposal框的過程很費時，使用cnn提取後可以極大提高速度。如何提高？用CNN直接產生

字尾陣列——羅穗騫倍增演算法程式碼詳解

首先解釋一下用到的幾個陣列。陣列sa：構造完成前表示關鍵字陣列，下標表示名次，值表示關鍵字的首字元位置，值相同的時候名次根據在原串中相對位置的先後決定；構造完成後表示字尾陣列，下標表示名次，值表示字

普通型母函式原理及模板程式碼詳解

母函式有很多種，最常用的有普通型母函式和指數型母函式。兩者區別是：普通型母函式主要是來求組合的方案數，而指數型母函式是求多重排列數。下面只講解普通型母函式的相關知識。定義：若函式G(x)=a0+a1*x

OHEM演算法及Caffe程式碼詳解

版權宣告：本文為博主原創文章，未經博主允許不得轉載。 https://blog.csdn.net/u014380165/article/details/73148073 這是CVPR2016的一篇論文，用於目標檢測，本篇博文先介紹這個演算法，然後介紹其Caffe程

OpenCV中copyTo()函式及Mask詳解（附程式碼詳解）

copyTo函式有兩種重構方式：第一種：A.copyTo(B)，表示將A矩陣複製到B中第二種：A.copyTo(B, mask)，表示得到一個附加掩膜mask的矩陣B。第一種方法就不多贅述，這裡主要詳細敘述第二種使用方法。對於第二種mask引數的格

mybatis 程式碼生成器（IDEA, Maven)及配置詳解（部分配置你應該不知道）

在使用 mybatis 過程中，當手寫 JavaBean和XML 寫的越來越多的時候，就越來越同意出錯。這種重複性的工作，我們當然不希望做那麼多。還好， mybatis 為我們提供了強大的程式碼生成–MybatisGenerator。通過簡單的配置，

陣列的定義、初始化及特點詳解

陣列（Array），就是把有限個數據型別一樣的元素按順序放在一起，用一個變數命名，然後通過編號可以按順序訪問指定位置的元素的一個有序集合。其實簡單來說，就是為了方便而把這些元素放在一起。我們通過編號去獲取每個元素，這個編號叫作下標或者索引（Index），一般的語言是從 0 開始的。我們常說的陣列一般指

許可權驗證程式碼詳解及自定義許可權驗證類

一、許可權認證原始碼詳解 1、進入dispatch 2、initial中self.check_permissions(request)進行許可權驗證 3、進入check_permissions for permission in self.get_permissions(): 4、

SSD（single shot multibox detector）演算法及Caffe程式碼詳解

這篇部落格主要介紹SSD演算法，該演算法是最近一年比較優秀的object detection演算法，主要特點在於採用了特徵融合。演算法概述：本文提出的SSD演算法是一種直接預測bounding box的座標和類別的object detection

程式碼詳解設計模式--模板模式

模板模式一個抽象類公開定義了執行方法的模板，它的子類可以按需要重寫方法實現，但呼叫將以抽象類中定義的方式進行。優點：封裝不變部分，擴充套件可變部分。提取公共程式碼，便於維護。行為由父類控制，子類實現。缺點：

R-FCN演算法及Caffe程式碼詳解

本篇部落格一方面介紹R-FCN演算法（NISP2016文章），該演算法改進了Faster RCNN，另一方面介紹其Caffe程式碼，這樣對演算法的認識會更加深入。要解決的問題：這篇論文提出一種基於region的object detection演算

字尾陣列模板及程式碼詳解

字尾陣列程式碼詳解

上圖中存在直邊和斜邊，下文會用到。

相關推薦