深度學習筆記——理論與推導之Structured Learning【NLP】（十二）

阿新 • • 發佈：2019-01-02

Language Technology

Meaning of Word（一個vector表示一個word）

Predicting the next word

給一串sequence of words，預測下一個單詞
這裡寫圖片描述

我們現在要做的就是將wi-1和wi-2描述成一個feature vector，1- of -N encoding：
假設只要對著幾個詞彙做word2vec：lexicon = {apple,bag,cat,dog,elephant}
那麼，apple=[1 0 0 0 0]，The vector is lexicon size，每一個dimension對於一個word。
接下來我們要通過wi-2和wi-1來預測wi，這個NN的input是wi-2和wi-1，output是下一個單詞wi的可能是某個word的機率。
接下來如何訓練這個NN呢？
首先通過爬蟲下載一些博文，通過如下方法設定NN，（如輸入“這裡”“是”，輸出為“八”，即Minimizing cross entropy）
Word Vector：
1. input一個word：有關係的詞彙的hidden layer的output會是非常相近的，這樣最後輸出的結果才會相近：
2. input兩個word：
  下面input到hidden layer中，顏色一樣的箭頭，代表它們的weight是一樣的：
  
  像下圖那樣，減少引數量，令W1=W2=W，帶來的好處是，我們不用再擔心要考慮幾個word，因為即使我們考慮10個word，在這個方法上也只是10個word相加，並不會導致weight的數量增加10倍。
  
  那麼我們應該如何update weights呢？
這種找Word Vector的方法除了Predict next word還有Various Architectures方法（如Continuous bad of word(CBOW) model或者Skip-gram）。
但如果詞彙難以窮舉呢？
- 加上“other”的dimension，但這樣就不能把不同的word分開。
- 在英文中字母是可以窮舉的，所以把26x26x26作為一個dimension。
Word Vector：
word和word之間的差，可以代表兩個word之間的關係：

這個發現可以用來做推理，即：

Meaning of Word Sequence（一個vector表示一個word Sequence）

用一個固定長度的vector表示不同長度的word sequences，這個word sequence可能指的是一個文章或者是一個段落：
Outline：
- Deep Structured Semantic Model(DSSM)：Application——Information Retrieval(IR)
- Recursive Deep Model：Application——Sentiment Analysis
- Paragraph Vector：Unsupervised

Information Retrieval(IR-DSSM)

Vector Space Model：我們把document都變成space上面的點，query也是一個點，在搜尋的時候，我們就計算query和其他document之間的夾角，如果夾角很小，說明他們的關聯性是很高的，這可能就是我們搜尋出來的內容。那麼我們如何將，一個query、一個document如何用一個vector來表示它。
最常用的方法就是Bag of word（這個方法無視word前後順序的問題，所以Bag of word有一個問題，就是如果出現的詞一樣，那麼即使對應順序不一樣，也會是同一個vector）：我們有一個vector，這個vector的一個dimension就對應一個word，如下：

每一個word都會乘以一個IDF（每一個word的重要性）
Vector Space Model + Bag-of-word：
缺點：Bag-of-word中每一個dimension都是沒有關係的，所以Bag-of-word其本質上就是在看query和document中有多少詞重合，選擇詞重合數最多的，沒有考慮到query和document的背後是在講什麼

IR-Semantic Embedding

Bag-of-word feature通過進一步處理，用一個DNN，將Bag-of-word feature變成一個low dimension的feature，而這個feature就是用來表達document or query的語義。
下面不同顏色的點，代表不同主題的新聞：

然而，現在的問題就是我們不知道input bag-of-word後的target是什麼。
DSSM：
- 通過在網頁搜尋中，記下點選了哪個網頁，如下，比如輸入query q1時document d1被點選了，那麼，document d1和query q1之間的夾角就會更相近，而document d2和query q1之間的夾角就會差別更大，如下（下面六個都是同一種模型）：
- Typical DNN vs DSSM：
  Typical DNN是有一個確切的target。
  DSSM沒有指定document和query的output要長什麼樣子，只要query和所要的document方向一樣就好。
- 有了Click data後，我們就可以learn一個DNN出來，首先，我們將document都通過DNN變成一個low dimension的vector，然後輸入一個query，將query通過DNN一樣得到一個vector，然後計算它和document之間的夾角，把夾角小的輸出來。
- 卷積的DSSM：

Sentiment Analysis(Recursive Deep Model)詞彙順序問題

詞彙順序問題很重要（而僅僅使用Bag-of word並不能解決這個問題）：
首先要知道word sequence背後的文法結構，very+good是一個偏移，not good就是一個更大的偏移
所以現在給我們一個word sequence，我們可以輕易知道它的文法結構。接下來每一個word，我們都可以用vector來描述它。我們怎麼知道”very”和”good”的vector長什麼樣呢？我們現在可以將它經過一個NN，這個NN輸入是2倍的Z，輸出是一倍的Z（vector的大小是|Z|）。

那麼為什麼不直接把very的vector和good的vector直接相加呢？因為V(wA,wB) ≠V(wA) + V(wB)。因為”not”是中性詞，”good”是正向詞，而”not good”確實負向詞。說明這vector之間是不能疊加的。

灰色代表的是中性詞，藍色代表的是正向詞，橙色代表的是負向詞。我們可以做到not的時候，reverse another input。

深藍色是在強化這個正向詞，深紅色是在強化這個負向詞。我們可以做到very的時候，emphasize another input。

今天我們可以用V(“good”)和V(“very”)作為NN的input，而output是V(“very good”)，我們又可以用V(“not”)和V(“very good”)做為input得到V(“not very good”)。這樣詞序就被考慮進去了，因此但詞序改變的時候，所代表的序列也會改變。

那我們應該如何learn這些NN呢？
這裡是為了看看這篇文章是正向還是負向的，我們發現不同長度的句子中，Negative，Neutral，Positive，Very Negative，Very Positive等的分佈。我們看到當句子比較短的時候，是比較不容易判斷句子表達正向還是負向的，所以當句子比較短的時候，Neutral的數量比較多。

Paragraph Vector(Unsupervised)

不需要任何的Training Data
這裡，我們以填詞做為例子，通過xi-1和xi-2判斷下面的xi：我們的輸入是兩個值xi-1和xi-2，輸出就是next word xi，因此：
我們發現上面的模型有一個問題，如果xi-2是魔君而xi-1是名叫，如：針對魔戒的魔君應該是Sauron，而仙劍5的魔君應該是姜世離，而由於xi-1和xi-2的值一樣，所以xi得到的也會是一樣的：
針對上面問題，我們在word的基礎上新增一個paragraph，我們把paragraph變成一個給定維度的vector，比如有10萬個段落，那麼就有10萬維：

那麼關於這個“魔君名叫__”就會變成：

深度學習筆記——理論與推導之Structured Learning【NLP】（十二）

Language Technology Meaning of Word（一個vector表示一個word） Predicting the next word 給一串sequence of words，預測下一個單詞我們現在要做的就是將wi

深度學習筆記——理論與推導之Structured Learning【Structured SVM】（七）

Separable case 1. 定義： 2. 用來計算weight的Structured Perceptron演演算法：那麼面對很多個y，是否可以順利在有限次內找到weight呢？答案是可以的，況且只需要(R/δ)^2次，R是同一個x

深度學習筆記——理論與推導之Structured Learning【Learning with Hidden Information】（九）

引言： Different Kinds of Learning： 1. Supervised Learning： Data： 2. Semi-supervised Learning Data： 3. Unsupervis

深度學習筆記——理論與推導之Structured Learning【Markov Random Field】（十）

Graphical Model & Gibbs Sampling(Sturctured Learning) Graphical Model是Structured Learning中的一種。 Structured Learning複習

深度學習筆記——理論與推導之Structured Learning【Sequence Labeling Problem】（八）

Sequence Labeling（序列標註問題），可以用RNN解決，也可以用Structured Learning（two steps，three problems）解決常見問題： - POS tagging（標記句子中每個詞的詞性）：

深度學習筆記——理論與推導之Reinforcement Learning（十三）

Reinforcement Learning（強化學習） Reinforcement Learning 機器學習的分支：有監督學習是機器學習任務的一種，它從有標記的訓練資料中推匯出預測函式。有標記的訓練資料是指每個訓練例項都包括輸入和期望的輸出。即

深度學習筆記——理論與推導之概念，成本函式與梯度下降演算法初識（一）

前情提要一、神經網路介紹概念：Learning ≈ Looking for a Function 框架（Framework）： What is Deep Learning? 深度學習其實就是一個定義方法、判斷方法優劣、挑選最佳的方法的過程：

深度學習筆記——理論與推導之Backpropagation（二）

Backpropagation（反向傳播）：背景——Cost Function與Gradient Descent Cost Function： Gradient Descent： backpropagation是一種高效計算網路中gr

深度學習筆記——理論與推導之DNN（三）

DNN 目錄激勵函式（ReLU以及ReLU的變形，梯度消失問題）成本函式資料處理優化一般化激勵函式： Rectified Linear Unit(ReLU) 選擇Relu的原因：計算速度快生物原因類似於具有不同偏

【原創】（十二）Linux記憶體管理之vmap與vmalloc

背景 Read the fucking source code! --By 魯迅 A picture is worth a thousand words. --By 高爾基說明： Kernel版本：4.14 ARM64處理器，Contex-A53，雙核使用工具：Source Insight 3.5，

【GANs學習筆記】（十二）SAGAN

3.1 SAGAN解決的問題前篇我們說到用深度卷積網路能夠提升GANs生成高解析度圖片的細節，但是由於卷積網路的區域性感受野的限制，如果要生成大範圍相關（Long-range dependency）的區域，卷積網路就會出現問題。譬如說在生成人臉圖片時，是非常

C之接續符和轉義符（十二）

C語言轉義符接續符我們今天來介紹下 C 語言中比較少見的兩種符號，接續符和轉義符。其實也不少見啦，只是我們平時不太註意罷了，下來我們就介紹下這兩種。我們首先來介紹下接續符(\)。那麽接續符到底是什麽呢？它是C 語言中指示編譯器行為的利器。我們如何來使用接續符呢

程式設計菜鳥到大佬之路：C語言程式（十二）

第十二天學習精要遞迴初步遞迴一個函式，自己呼叫自己，就是遞迴。 # include <iostream> using namespace std; int factorial(int n) // 函式返回n的階乘 { if (n ==

【原創】（十四）Linux記憶體管理之page fault處理

【原創】（十五）Linux記憶體管理之RMAP

【原創】（十六）Linux記憶體管理之CMA

深度學習核心理論與應用實戰”高階培訓班的通知

培訓目標：在深度學習的基本概念和技術方法的基礎上闡述深度學習的基本思想和解決問題的基本思維模式，從理論到實踐逐步提升對深度學習技術方法的理解;從模型表達能力到計算複雜度兩個層次幫助學員理解從資料推知資料蘊含的結構、解決問題的技巧。結合應用案例和開發框架構建學員從所學理論到實踐解決問題的理論和工程相結合的

“深度學習核心理論與應用實戰”高階培訓班的通知

機器學習、深度學習的理論與實戰入門建議整理(二)

階段二.深度學習入門在對機器學習有了一定的掌握後，就可以開始在深度學習方面的學習了。剛開始要注意對神經網路的一些基本概念的掌握，如什麼是感知機、什麼是多層感知機（前饋神經網路）、BP演算法的原理與推導等。個人覺得一個比較好的學習方式是，以視訊教程為主

python基礎學習筆記——生成器與推導式

生成器首先我們來看看什麼是個生成器,生成器本質就是迭代器在python中有三種方式來獲取生成器　　1.通過生成器函式　　2.通過各種推到式來實現生成器　　3.通過資料的轉換也可以獲取生成器首先,我們先看一個很簡單的函式:

深度學習筆記——理論與推導之Structured Learning【NLP】（十二）

Language Technology

Meaning of Word（一個vector表示一個word）

Predicting the next word

Meaning of Word Sequence（一個vector表示一個word Sequence）

Information Retrieval(IR-DSSM)

IR-Semantic Embedding

Sentiment Analysis(Recursive Deep Model)詞彙順序問題

Paragraph Vector(Unsupervised)

相關推薦