1. 程式人生 > 實用技巧 >演算法資料結構 | 只要30行程式碼,實現快速匹配字串的KMP演算法

演算法資料結構 | 只要30行程式碼,實現快速匹配字串的KMP演算法

一、檔案概述

1.介紹

計算機系統分為:計算機硬體,作業系統,應用程式三部分。

我們用python或其他語言編寫的應用程式若想要把資料永久儲存下來,必須要保存於硬碟中,這就涉及到應用程式要操作硬體,眾所周知,應用程式是無法直接操作硬體的,這就用到了作業系統。作業系統把複雜的硬體操作封裝成簡單的介面給使用者/應用程式使用,其中檔案就是作業系統提供給應用程式來操作硬碟虛擬概念,使用者或應用程式通過操作檔案,可以將自己的資料永久儲存下來。

有了檔案的概念,我們無需再去考慮操作硬碟的細節,只需要關注操作檔案的流程:

  1)開啟檔案,得到檔案控制代碼並賦值給一個變數
  2)通過控制代碼對檔案進行操作
  3) 關閉檔案

2.python中檔案操作簡介
1)開啟檔案,得到檔案控制代碼並賦值給一個變數
  f=open('a.txt','r',encoding='utf-8') #預設開啟模式就為r 2)通過控制代碼對檔案進行操作
 data=f.read() 3) 關閉檔案
  f.close() 3.f=open('a.txt','r')的過程分析 1)由應用程式向作業系統發起系統呼叫open(...)
2)作業系統開啟該檔案,並返回一個檔案控制代碼給應用程式
3)應用程式將檔案控制代碼賦值給變數 f 4.強調內容 第一點: 開啟一個檔案包含兩部分資源:作業系統級開啟的檔案+應用程式的變數。在操作完畢一個檔案時,必須把與該檔案的這兩部分資源一個不落地回收,回收方法為:
  1)f.close() #回收作業系統級開啟的檔案
  2)del f #回收應用程式級的變數

其中del f一定要發生在f.close()之後,否則就會導致作業系統開啟的檔案還沒有關閉,白白佔用資源,
而python自動的垃圾回收機制決定了我們無需考慮del f,這就要求我們,在操作完畢檔案後,一定要記住f.close()

雖然我這麼說,但是很多同學還是會很不要臉地忘記f.close(),對於這些不長腦子的同學,我們推薦傻瓜式操作方式:使用with關鍵字來幫我們管理上下文
with open('a.txt','w') as f:
pass
with open('a.txt','r') as read_f,open('b.txt','w') as write_f:
data=read_f.read()
write_f.write(data) 第二點: f=open(...)是由作業系統開啟檔案,那麼如果我們沒有為open指定編碼,那麼開啟檔案的預設編碼很明顯是作業系統說了算了,作業系統會用自己的預設編碼去開啟檔案,在windows下是gbk,在linux下是utf-8。
這就用到了上節課講的字元編碼的知識:若要保證不亂碼,檔案以什麼方式存的,就要以什麼方式開啟。

f=open('a.txt','r',encoding='utf-8') 二、開啟檔案的方式 1. 開啟檔案的模式有(預設為文字模式):
r ,只讀模式【預設模式,檔案必須存在,不存在則丟擲異常】
w,只寫模式【不可讀;不存在則建立;存在則清空內容】
a, 之追加寫模式【不可讀;不存在則建立;存在則只追加內容】 2. 對於非文字檔案,我們只能使用b模式,"b"表示以位元組的方式操作(而所有檔案也都是以位元組的形式儲存的,使用這種模式無需考慮文字檔案的字元編碼、圖片檔案的jgp格式、視訊檔案的avi格式)
rb
wb
ab
注:以b方式開啟時,讀取到的內容是位元組型別,寫入時也需要提供位元組型別,不能指定編碼 3. 瞭解部分
"+" 表示可以同時讀寫某個檔案
r+, 讀寫【可讀,可寫】
w+,寫讀【可讀,可寫】
a+, 寫讀【可讀,可寫】 x, 只寫模式【不可讀;不存在則建立,存在則報錯】
x+ ,寫讀【可讀,可寫】
xb 4. U模式
'U' mode is deprecated and will raise an exception in future versions
of Python. It has no effect in Python 3. Use newline to control universal newlines mode. # 總結:
在python3中使用預設的newline=None即可,換行符無論何種平臺統一用\n即可 三、操作檔案的方法 1.必須掌握部分
f.read() #讀取所有內容,游標移動到檔案末尾
f.readline() #讀取一行內容,游標移動到第二行首部
f.readlines() #讀取每一行內容,存放於列表中 f.write('1111\n222\n') #針對文字模式的寫,需要自己寫換行符
f.write('1111\n222\n'.encode('utf-8')) #針對b模式的寫,需要自己寫換行符
f.writelines(['333\n','444\n']) #檔案模式
f.writelines([bytes('333\n',encoding='utf-8'),'444\n'.encode('utf-8')]) #b模式 2.瞭解部分
f.readable() #檔案是否可讀
f.writable() #檔案是否可讀
f.closed #檔案是否關閉
f.encoding #如果檔案開啟模式為b,則沒有該屬性
f.flush() #立刻將檔案內容從記憶體刷到硬碟
f.name 3.練習

利用b模式,編寫一個cp工具,要求如下:

  1)既可以拷貝文字又可以拷貝視訊,圖片等檔案

  2)使用者一旦引數錯誤,列印命令的正確使用方法,如usage: cp source_file target_file

  提示:可以用import sys,然後用sys.argv獲取指令碼後面跟的引數

import sys
if len(sys.argv) != 3:
    print('usage: cp source_file target_file')
    sys.exit()

source_file,target_file=sys.argv[1],sys.argv[2]
with open(source_file,'rb') as read_f,open(target_file,'wb') as write_f:
    for line in read_f:
        write_f.write(line)

四、檔案內游標移動

1.: read(3):

  1. 檔案開啟方式為文字模式時,代表讀取3個字元

  2. 檔案開啟方式為b模式時,代表讀取3個位元組

2.: 其餘的檔案內游標移動都是以位元組為單位如seek,tell,truncate

注意:

  1. seek有三種移動方式0,1,2,其中1和2必須在b模式下進行,但無論哪種模式,都是以bytes為單位移動的

  2. truncate是截斷檔案,所以檔案的開啟方式必須可寫,但是不能用w或w+等方式開啟,因為那樣直接清空檔案了,所以truncate要在r+或a或a+等模式下測試效果

import time
with open('test.txt','rb') as f:
    f.seek(0,2)
    while True:
        line=f.readline()
        if line:
            print(line.decode('utf-8'))
        else:
            time.sleep(0.2)

五、檔案的修改

檔案的資料是存放於硬碟上的,因而只存在覆蓋、不存在修改這麼一說,我們平時看到的修改檔案,都是模擬出來的效果,具體的說有兩種實現方式:

方式一:將硬碟存放的該檔案的內容全部載入到記憶體,在記憶體中是可以修改的,修改完畢後,再由記憶體覆蓋到硬碟(word,vim,nodpad++等編輯器)

import os

with open('a.txt') as read_f,open('.a.txt.swap','w') as write_f:
    data=read_f.read() #全部讀入記憶體,如果檔案很大,會很卡
    data=data.replace('alex','SB') #在記憶體中完成修改

    write_f.write(data) #一次性寫入新檔案

os.remove('a.txt')
os.rename('.a.txt.swap','a.txt')

方式二:將硬碟存放的該檔案的內容一行一行地讀入記憶體,修改完畢就寫入新檔案,最後用新檔案覆蓋原始檔

import os

with open('a.txt') as read_f,open('.a.txt.swap','w') as write_f:
    for line in read_f:
        line=line.replace('alex','SB')
        write_f.write(line)

os.remove('a.txt')
os.rename('.a.txt.swap','a.txt')