關於結構化、半結構化、非結構化資料的理解
記得在課上,老師說,結構化資料就是我們關係資料庫裡的表,剩下的都是半結構化和非結構化資料,好比XML文件就是半結構化資料,WORD文件就是非結構化資料,大資料就是半結構化和非結構化資料。心中一直有一個疑問?難道大資料不應該包含結構化資料嗎?實在學習資料庫這門課時,就對這幾個概念有所混淆,所幸今天在書中發現了比較清晰的解釋,記錄下來,方便以後參考。
1.結構化資料
定義:業界指關係模型資料,即以關係資料庫表形式管理的資料
簡析:雖然專業角度上看,結構化就是關係模型的說法並不準確,但針對目前業內現狀,還是定義為關係模型最為妥善,因為它準確的代表了我們傳統上最熟悉的企業業務資料。
2.半結構化資料
定義:非關係模型的、有基本固定結構模式的資料,例如日誌檔案、XML文件、JSON文件、Email等。
3.非結構化資料
定義:沒有固定模式的資料,如WORD、PDF、PPT、EXL,各種格式的圖片、視訊等。
簡析:區分半結構化與非結構化的意義在於,對兩者的處理方法是不同的,非結構化資料大多采用內容管理方法,而半結構化資料基本沒有有效的管理方法。
總結
(1)結構化、半結構化、非結構化其實是按照資料格式分類。
(2)嚴格講,結構化與半結構化資料都是有基本固定結構模式的資料
(3)半結構與非結構化資料與目前流行的大資料之間只是有領域重疊的關係,本質講兩者並無必然聯絡。
(4)業界有將大資料認同為半結構/非結構化資料,是因為大資料技術最初是在半結構化資料領域發揮作用,其本質是將資料處理技術與資料格式混淆,是不正確的。
參考文獻:
何小朝. 縱橫大資料[M]. 電子工業出版社, 2014.
相關推薦
關於無人機的自穩、半自穩、手動模式的區別
strong ron 打了 控制 繼續 區別 關於 可能 就是 手動模式:在此模式下,飛行器不會隨著Roll、Pitch、Yaw的搖桿後回中的時候自動恢復中間位置。例如打了Roll搖桿向左後,再把Roll搖桿回中,而飛行器還是繼續向左橫滾而不會恢復水平,只有把Roll搖桿打
資料傳輸方式(並行/序列通訊;同步/非同步;單工、半雙工、全雙工)
資料傳輸主要有三種不同的劃分方式。 並行/序列通訊; 同步/非同步傳輸; 按資料的不同傳輸方向可分為單工、半雙工、全雙工。 1.並行通訊和序列通訊 (1)並行通訊 並行通訊是同時傳送資料的各個位進行傳送or接收的通訊方式。 傳輸率比序列介面快8倍,理論值為1Mbits/s. 傳輸的資訊不
單工、半雙工和全雙工的理解
前言 根據資料資訊在傳輸線上的傳送方向,資料通訊方式分為單工通訊、半雙工通訊和全雙工通訊。 單工通訊 只能向一個方向傳輸資料。例如,電臺只能發射訊號,電視機只能接收訊號,不能反方向傳輸。 半雙工通訊
一文讀懂監督學習、無監督學習、半監督學習、強化學習這四種深度學習方式
一般說來,訓練深度學習網路的方式主要有四種:監督、無監督、半監督和強化學習。在接下來的文章中,計算機視覺戰隊將逐個解釋這些方法背後所蘊含的理論知識。除此之外,計算機視覺戰隊將分享文獻中經常碰到的術語,並提供與數學相關的更多資源。 監督學習(Supervised
配置mysql5.5主從複製、半同步複製、主主複製
mysql主伺服器 192.168.8.40 mysql從伺服器 192.168.8.41 全新配置過程(主和從資料庫都沒有資料): 主從複製主伺服器設定: 1.改server-id 2.啟用二進位制日誌 # mkdir /data/b
MySQL複製(非同步方式、半同步方式、GTID)總結
這是之前做的筆記,整體有些凌亂,後續有時間再整理一下格式!!!! 非同步複製:在主節點寫入日誌即返回成功,預設情況下MySQL5.5/5.6/5.7和mariaDB10.0/10.1的複製功能是非
通訊傳輸,全雙工、半雙工、單向
CAN匯流排是半雙工通訊方式,CAN是控制器區域網絡(Controller Area NetWork)。目的是位了節省接線的工作量。CAN協議也遵循ISO/OSI模型,採用了其中的物理層、資料鏈路層與應用層。CAN採用多主工作方式,節點之間不分主從,但節點之間有優先順序之分,通訊方式靈活,可實現點對點、一點
mysql主從複製,基於GTID的主從、半同步複製、並行複製
環境: 實驗環境: rhel6.5 , selinux和iptables均為disabled狀態,mysql均為5.7.17,或者slave比master版本高 實驗主機: 172.25.254.2 server2:master 172.25.254.3 server3:s
Mysql主從複製、半同步複製、並行複製
一、主從複製 1.主從複製原理 MySQL之間資料複製的基礎是二進位制日誌檔案(binary log file)。一臺MySQL資料庫一旦啟用二進位制日誌後,其作為master,它的資料庫中所有操作都會以“事件”的方式記錄在二進位制日誌中,其他資料庫作為
結構化、半結構化和非結構化數據
tracking 數據庫 能夠 二維 表示 結構化數據 媒體 acl 面向 在實際應用中,我們會遇到各式各樣的數據庫如nosql非關系數據庫(memcached,redis。mangodb)。RDBMS關系數據庫(oracle,mysql等),另一些其他的數據庫如hba
[轉]概念:結構化數據、半結構化數據、非結構數據
圖片 app pretty 第一個 art 元素 class 我希望 屬性 原:http://blog.csdn.net/liangyihuai/article/details/54864952 結構化數據、半結構化數據和非結構化數據 結構化數據 結
結構化資料、半結構化資料和非結構化資料
結構化資料 結構化的資料是指可以使用關係型資料庫表示和儲存,表現為二維形式的資料。一般特點是:資料以行為單位,一行資料表示一個實體的資訊,每一行資料的屬性是相同的。舉一個例子: id name age gender 1 lyh 12 male
結構化資料、非結構化資料、半結構化資料
結構化資料、非結構化資料以及半結構化資料是對儲存形式的一種資料型別分析,有助於企業細分行業案例,幫助儲存合作伙伴更好地解決應用實施方案。 定義 結構化資料,即行資料,儲存在資料庫裡,可以用二維表結構來邏輯表達實現的資料; 非結構化資料,不方便用資料庫二維邏
結構化、半結構化和非結構化資料
一、結構化資料 結構化的資料是指可以使用關係型資料庫表示和儲存,表現為二維形式的資料。一般特點是:資料以行為單位,一行資料表示一個實體的資訊,每一行資料的屬性是相同的。舉一個例子: id name age gend
Hive結構化資料、半結構化資料和非結構化資料
所謂半結構化資料,就是介於完全結構化資料(如關係型資料庫、面向物件資料庫中的資料)和完全無結構的資料(如聲音、影象檔案等)之間的資料,XML、HTML文件就屬於半結構化資料。它一般是自描述的,資料的結構和內容混在一起,沒有明顯的區分。
半結構化、結構化以及非結構化資料
結構化資料:即行資料,儲存在資料庫裡,可以用二維表結構來邏輯表達實現的資料。 非結構化資料:包括所有格式的辦公文件、文字、圖片、XML、HTML、各類報表、影象和音訊/視訊資訊等等。 半結構化資料:就是介於完全結構化資料(如關係型資料庫、面向物件資料庫中的資料)和完全
關於結構化、半結構化、非結構化資料的理解
記得在課上,老師說,結構化資料就是我們關係資料庫裡的表,剩下的都是半結構化和非結構化資料,好比XML文件就是半結構化資料,WORD文件就是非結構化資料,大資料就是半結構化和非結構化資料。心中一直有一個疑問?難道大資料不應該包含結構化資料嗎?實在學習資料庫這門課時,就對這幾個概
Python爬蟲新手進階版:怎樣讀取非結構化、圖像、視頻、語音數據
image clas 訓練 在線的 功能 方式 base64編碼 contain width 通過open讀取之後會返回一個圖像文件對象,後續所有的圖像處理都基於該對象進行。上述代碼執行後,通過 img.show() 會調用系統默認的圖像瀏覽器查看打
流式資料、批式資料、實時資料、歷史資料、結構化資料、非結構化資料
大資料處理系統可分為批式(batch)大資料和流式(streaming)大資料兩類。其中,批式大資料又被稱為歷史大資料,流式大資料又被稱為實時大資料。 流資料是一組順序、大量、快速、連續到達的資料序列,一般情況下,資料流可被視為一個隨時間延續而無限增長的動態資料集合。應用於網路
solr,lucene全文索引原理、結構/非結構化資料、反向索引等詳細描述
這篇博文寫的太好了,首先十分感謝博主,這裡請允許我轉載。 先說下讀音,solr發音同 solar ['səulə]----餿了;: lucene:[lu:sən]魯森 Solr是一個獨立的企業級搜尋應用伺服器,它對外提供類似於Web-service的API介面。使