1. 程式人生 > >政府大資料面臨的問題和阻力在哪裡?

政府大資料面臨的問題和阻力在哪裡?

摘要:筆者在前段時間受邀參加了某省會公安部門的大資料專案規劃調研,在閱讀完《綱要》和了解完相關政府對大資料專案的規劃和設計背景後,認為從專案的規劃和設計完整且嚴謹,看似無可挑剔。但在實際的調研過程中發現了很多與大資料專案規劃和執行不相符合的情況,這些問題切實存在不可避免,執行過程又困難重重。

背景 

2015年經李克強總理籤批,國務院印發《促進大資料發展行動綱要》,中國政府已經開始系統部署大資料發展工作。

《綱要》明確,推動大資料發展和應用,在未來5至10年打造精準治理、多方協作的社會治理新模式,建立執行平穩、安全高效的經濟執行新機制,構建以人為本、惠及全民的民生服務新體系,開啟大眾創業、萬眾創新的創新驅動新格局,培育高階智慧、新興繁榮的產業發展新生態...

政府大資料從狹義的角度理解就是政府所擁有和管理的資料,如典型的公安、交通、醫療、衛生、就業、社保、地理、文化、教育、科技、環境、金融、統計、氣象等資料。

摘選筆者所撰寫的有關資料採集體系和可行性方案分析部分內容,分享給讀者朋友們,僅供參考和探討。(原內容有刪減,以下涉及到相關的政府單位或部門略作處理)

關於某部大資料採集體系調研

與可行性方案分析

專案背景簡介 

某市公安局作為公安部資料建設的試點單位,推進市局與社會化資料資源整合的標準化建設,和實現資料資源共享推進市局和相關單位的資訊共享為目標,對資料化專案建設進行立項。 

專案需求 

專案旨在解決以下兩個方面的問題: 

1. 實現社會化資料資源整合 

1) 某市公安局以及下屬分局、各支隊的各個應用系統資料作為市局的基礎核心資料資源,例如基礎的人口管理、信訪、犯罪資訊、情報等,以及作為資料監控所涉及到的鐵路、網咖、民航購票、民航進出港、ETC 卡口、住宿等基本資料資訊。 

2) 在此基礎上,為了納入更多的社會化資料資源,實現全行業的資料覆蓋,擬接入交通、服務、科技資訊化、教育、社保、民政、戶政、工商、網路通訊等各個行業的 資料。 

2. 資料統一介面和規範化建設 

1) 公安部下發了有關公安資料標準化建設的資料規範格式,各級部門需要按照標準化格式規範建設資料資產。對資料欄位的描述、格式和錄入規範定義都有一定的詳細描述和定義。 

在相關可以直接管控的領域和下屬單位,資料資產需要按照這些資料格式進行管理, 需要建設統一的資料介面以確保各下屬單位資料上傳質量。 

2) 在涉及到第三方的社會化資料資源,需要制定標準的可執行的資料標準,包括:資料介面的定義、格式的約束、資料交換的方式和渠道等。 

3) 以上所有的資料介面定義都有據可行,能夠形成統一和清晰的資料管理規範。 

在未來旨在規劃以下兩個方面的資料建設方向 

1. 資料資產整合、資料分發和應用平臺建設 

1) 打通市局內部資料和社會化資料資源,形成統一的可管理、可追溯的資料資產管理中心。 

2) 基於市局的資料資產中心,對平臺上的資料使用者提供統一的資料介面,形成資料分發,各資料使用者可以基於自己的業務需求對資料進行使用,包括:資料分析與挖掘、業務系統和應用平臺建設等。 

2. 大資料 

1) 基於大量的內部資料和社會化資料資源,推進大資料專案的建設和發展,增強資料標籤屬性、使用者畫像,可廣泛的應用於人口管理、犯罪管理、社會化資訊管理等。

專案現狀調研與存在的問題 

1. 業務系統現狀 

1) 業務系統數量多、系統複雜。目前市局各個單位以及下屬的分局、支隊等各個業務系統、資料來源系統共計近 200 多個,覆蓋範圍廣,業務系統複雜。 

2) 業務系統管理和維護缺失。大多數業務系統由不同的第三方 IT 公司開發和維護, 歷史週期長、服務更迭和系統維護斷檔,造成業務系統資料字典資訊缺失和不全。

 3) 舊的業務系統對同樣的資料資訊描述不一致。不同的業務系統對同樣的資料描述、 定義、資料錄入規範不一致,造成在資料抽取和基本清洗階段無法追溯實際資料欄位的業務含義。長期以來的無人維護,部分資料的理解無法從業務系統管理方得到有力的支援。 

2. 業務系統管理方 IT 支援力量不夠 

1) 大多數業務系統由第三方 IT 公司建設,分局和支隊 IT 人員缺失,在整個資料專案建設的推進過程中溝通成本比較高。 

2) 對由分局、支隊提供的資料,由於缺乏專業的 IT 經驗,在資料的錄入和採集過程中無法做到高質量的資料錄入,資料規範意識不強。 

3) 前端資料採集質量不高也對現有的資料管理體系建設增加了很大的資料處理負擔, 目前很多的資料基礎驗證工作都是在資料處理後方完成。 

3. 部分上報渠道缺失、資料來源和資料質量參差不齊  

1) 資料採集和上報渠道缺失。特別是對於一些基層單位,由於在工作中缺乏相應的資料收集上報終端,造成資料收集困難、資料收集質量不高。比如在派出所級別,一 方面比較缺乏對資料建設意識,另外一方面缺乏配套的資料採集終端,不能夠很好 的完成採集相應的業務資料的任務和工作。 

2) 資料來源格式繁多,資料渠道不規範不統一。 在已有的資料來源中,涉及到了 FTP、 EXCEL、DMP 檔案、Oracle 資料庫、XML 檔案、CSV 檔案、SQL SERVER 資料庫等,需要不同的處理方案和接入方式處理。目前已經逐步在推進資料介面和上報渠道規範化建設,但是仍然需要比較長的週期。 

3) 上報的資料質量參次不齊。有大量未經驗證和規範化處理的資料上報到資料處理中 心,包括大量需要手工檢查和處理的資料,極大的降低了資料中心對資料處理的效 率。 

4. 社會化資料資源採集方式不合理、難度大 。

1) 部分資料資源採集分配方式重複和單一。例如各個轄區採集轄區內的教育單位的資料,這些資料實質上會進入市級的資料系統。市級單位和下屬單位的資料採集形成 重複,各單位資料上報方式和途徑各異,增加各級轄區下屬單位資料採集的成本, 同時也增加資料處理團隊的資料處理成本。 

2) 社會化資料資產單位的配合程度不積極。對社會化資料資產管理方,例如教育、銀行、金融等單位對於與市公安局的資料上報標準、資料定義、傳送方式理解不一, 配合程度不一,也造成了對社會化資料抽取和管理的難度比較高。 

需解決的問題和方案 

資料採集是一個龐大的專案工程,涉及到已有和以後規劃的業務系統的方方面面,需要站在整個資料體系建設的高度去考慮這個問題。同時,資料質量的保證也為以後的資料採集、 資料治理、資料中心建設、資料分析與挖掘、大資料平臺的建設起到非常重要的作用。根據上述的問題,我們需要從以下這些方面入手來考慮。 

1. 內部已有業務系統的欄位梳理 

1) 由於歷史原因,內部已有業務系統的欄位梳理目前已經沒有非常合適的可行方案。 這是由於舊系統的相關維護人員缺失,沒有規範的資料文件管理造成的,因此特別 需要注意在新系統的建設上加強交付標準建設,和形成專案報備機制避免類似問題 出現。 

2) 唯一可嘗試的方式就是熟悉業務系統,通過試用業務系統觀察資料流向來理解資料 含義。但缺點是投入大、產出小,建議考慮只抓業務系統的核心業務流程和核心數 據。 

2. 新的業務系統建設遵循現有資料規範和標準 

1) 已有業務系統保持現狀,在遵守已制定的資料介面定義規範通過技術手段完善資料 欄位的轉換與定義。 

2) 在市局領導範圍內的業務系統,對於新規劃和新建設的專案應該主動向市局資料中 心建設部門進行專案報備。對業務系統中所涉及到的資料庫設計、欄位設計規範應 該遵循市局資料中心所提供的標準資料定義和規範進行開發。 

3) 新規劃和新建設的專案應該包括:WEB 端應用開發、移動端應用開發、CS 應用開 發等一切需要錄入資料的專案。 

3. 梳理和明確資料採集的範圍、資料邊界、物件和目標 

1) 資料採集的範圍包括內部資料和外部資料。 

2) 內部資料涵蓋市局以及市局領導下的所有事業單位的各個大小業務系統和子系統, 需要對這些業務系統進行梳理。確定業務系統中所涉及到的資料構成,例如:人口 基本資訊、戶政資訊、犯罪管理等,對以上資訊進行分類,明確在內部系統中擁有 哪些或者哪一類的資料資源。 

3) 外部資料包括兩個方面:

第一,市局因當前工作需要所要監控的社會化資料資源, 例如:住宿、出入境記錄、網咖、交通管理等。

第二,市局所需要打通的非重點當 前需要和非監控管理的社會化資料資源,例如:教育行業、金融行業、通訊行業、 工商等。這些資料需要有一個明確的採集範圍定義,不能片面求全求大,而應該先 明確所需要採集的行業範圍,採集邊界。同時,對主管這些資料資源的事業單位進行梳理和明確,以及需要明確資料採集的目標,例如資料欄位的構成。 

4) 對於外部資料中涉及到的社會化資源需要從上往下推進。在目前的社會化資料收集的過程中,部分行業的子事業單位向他們的上級主管單位進行資料上報。資料採集的物件應該集中在這些上級主管單位,而不應該由市局所領導的轄區單位與這些行業的子事業單位進行資料採集再集中上報給市局。這樣可以避免市局所領導的轄區單位重複採集資料,同時可以避免各子事業單位採集的資料不規範而導致的重複資料清洗工作。 

4. 確定資料上報的渠道、資料介面定義和資料交換方式。 

1) 對於目前已有的市局範圍內各業務系統繼續保留已有的資料採集方式。通過源資料庫向標準資料庫的資料驗證、稽核和載入,確保標準資料庫的資料介面定義。 

2) 對於市局目前所要求的各轄區分局、支隊等資料採集,需要明確資料採集的範圍、 資料採集的渠道、資料採集的方式和資料介面定義。通過對資料採集範圍和資料採集渠道分析,可以針對性提供資料採集的方案。例如移動端資料採集所需要的移動裝置、相關的硬體和軟體設施。如果沒有明確的資料採集範圍和採集渠道定義,將無法明確資料採集的方案和相關採集軟硬體設施的構成。 

3) 對於社會化資料採集資源,在梳理和明確資料採集的範圍、資料邊界、物件和目標之後,應該對相關資料的主管單位進行洽談合作: 

i. 合作中需要明確雙方對於資料資源合作的資料介面定義,需要對方確定可以提供的資料資源。 

ii. 資料上報的渠道建議使用 FTP 檔案傳送形式,在明確的資料介面定義下確定資料檔案傳輸的網路目標地址,傳送週期。例如在央行與各個銀行、美國保險行業與相關協會組織、某汽車金融公司與國外總部的資料傳統都是通過這種檔案傳輸形式進行資料上報。 

iii. 在前期需要對上報的資料進行資料準確性、資料傳達郵件通知等驗證,驗證測試通過後可正式形成資料上報機制。 

iv. 考慮對等的、互惠互利的資料共享合作。由於涉及到資料合作雙方的利益,需要雙方建立資料共享機制來形成資料開放的互惠互利。對於合作不積極的資料主管的單位建議由市局上一級單位協助推進和協調。 

5. 內部資料採集所涉及到的工具和技術應建立培訓體系 

1) 內部資料採集所涉及到的資料驗證、工具使用和相應的技術使用應該建立培訓體系, 定期召集相應的各市局和屬下資訊中心資料維護人員進行培訓,培訓的方向不僅僅要包括上述的技術相關的內容,還應該包括對資料質量的認知、資料思維方面來提升對資料管理控制的重視程度。 

2) 可以從一個單位的應用系統來切入,待整個流程成熟和成型之後再擴大到整個市局體系。同時可以考慮完善相關文件、視訊課程的方式來節約人力和時間成本。 

以上所提到的一些方案需要與市局共同探討,明確可行的思路和方案,問題處理的優先 級。可以由點及面,找出最容易實現和推進的方案點進行驗證,如果驗證成果則證明以上方案具備一定的可行性,再推進其它相關方案的執行和驗證。 

在相關資源協調上,市局需要牽頭切入與協調,供應商作為資料建設方配合方案的執行、與資料標準規範的定義和推進。 

(調研分析報告完)

大資料專案落地的第一步核心在資料來源頭,所有的資料專案從資料最終的出口來看,本質上來講都是要將不規範、非格式化的或者規範的不可分析的資料變成規範的、格式化的可分析的資料。還有一點特別要注意的是,大資料並不是片面追求資料越多越好、越全越好,最重要的是資料質量,業務場景。大資料的業務場景在哪些地方,需要補充到哪些資料,質量如何都是需要特別考慮的。我們在國內看到的幾乎所有大資料公司從來不會聲稱自己的大資料業務能夠跨全行業,大資料有大資料落地的業務場景,這是它的特殊性。每個大資料公司都有自己的行業重心,在某一個細分或者多個細分領域裡面深耕細作比如金融、電信、政務、公安、製造業等等。

政府大資料面臨的問題和阻力

除了在案例中提到的基礎資料治理之外,還有以下幾個問題直接或者間接的形成了無形的阻力。

1. 政府部門、特別是一些職權部門的資料意識、資料開放的意識。意識這個詞可能會比較虛、看不見抓不著,但是實際上在很多專案規劃和落地、協作和推進的過程中,具備資料意識的職權部門會積極引導大資料專案的規劃和推進是朝著一個合理的、正確的方向上前進。該開放的開放,該聽取專家建議的就聽取專家建議。相反,不具備良好資料意識的決策者和推進者,也有可能好心辦壞事,拍腦袋決策,將大資料專案引入歧途,最終以失敗而告終。  

2. 政府部門應該看重長期利益、長期規劃,避免為做大資料而做大資料。政府大資料有別於企業大資料專案,政府大資料的資料種類繁多、跨行業、跨部門。業務資料質量層次不齊,很多資料是需要從源頭重塑,涉及到很多舊業務系統的資料治理、新業務系統的規範化,這個註定是需要很長的一段時間通過制度來健全資訊化建設。為了短期上大資料專案,只能是根基不穩,資料質量無法驗證和參考,也就無法產生真正有價值的結果。同時,決策部門決策者的變化不應該影響大資料專案的規劃,只要經過驗證的方案,就應該繼續持續的堅持下去。臨時換方向、換技術方案、換想法,大資料專案經不起折騰。

3. 政府大資料應該遵循大資料發展的規律,不應片面求全求大,可以整體規劃,但要階段性的劃分專案邊界,階段性的出成果。在筆者上面提到的這個案例中,決策者的想法和意識都是非常正確的,但是基層部門在執行上就違背了這種規律,片面的求全求大,導致資料量上有增,但是資料質量上卻無法保證。同時,政府大資料涉及到的行業方方面面,應該明確確定階段性的目標,在哪個階段追求哪些社會資源資料,解決什麼問題,業務場景是什麼需要確定下來。

4. 政府大資料應該認真對待各個服務商和合作夥伴。

第一,政府大資料涉及到政府多部門配合、跨行業配合,作為政府外包出去的專案服務商和合作夥伴,他們是沒有這種資源能力在各個部門和行業之間協調和溝通,這種跨行業跨部門的合作需要相關決策部門進行引導和協調。

第二,按市場規則和合作流程該結算就結算。大資料專案週期長,投入大,這對各個服務商和合作夥伴的人力、物力的投入也是很大的壓力。與政府部門的合作有別於傳統市場合作,本質上不管我們承認還是不承認,政府與第三方合作伙伴雙方地位是不對等的。這些情況在如今已經有了很大的改善,但是實際上在很多地方依然存在,最終導致專案交付進度和質量無法保障、專案交接上給下家留坑埋雷都會導致專案越做越差麻煩不斷。

諸如此類的問題很多,不在此一一總結。

政府大資料是不是一個偽命題? 

最後再來談這個問題,政府大資料是不是一個偽命題? 坦率來講,從文章最開始的《綱要》內容和上面的案例中可以看出一些政府是完全具備資料開放思維意識的,從實際的專案規劃和實際的落地過程中也做出了很多的努力。但是大資料專案的落地不是一蹴而就的,由於歷史原因資料來源頭的梳理困難重重,政府各部門之間的資料打通需要政府高層站在大的格局下來積極引導和推進,新業務新資料的規範化運作尚需時間和很強的執行力,知易行難。

從長遠來看,政府大資料不應該是一個偽命題。但是在實際的操作過程中如果只是流於形式、各部門資料各自為政、協同合作效率低下、過於追求部門利益個人利益而忽略公共利益,所謂的政府大資料就是一個偽命題。

政府作為施政的決策者和領導者,無論從財力、人力、物力、資源協調能力、政策執行和推動能力上來說,在大資料專案的規劃和落地過程中本應該擁有得天獨厚的優勢,也可以很強勢。但關鍵在於怎麼利用好這種優勢和強勢,利用的好,對大資料專案是一種保障。利用的不好,對大資料專案也會起到非常負面的作用,多走彎路或者徹底失敗。

總之,政府大資料不會一蹴而就,也一定會總結很多經驗和教訓。但無論如何,只要開始就好,現在就是最好的時機。

(全文完)