1. 程式人生 > 其它 >論文閱讀:The Role of “Condition”: A Novel Scientific Knowledge Graph Representation and Construction Model

論文閱讀:The Role of “Condition”: A Novel Scientific Knowledge Graph Representation and Construction Model

“條件”的作用:一種新的科學知識圖表示與構建模型

Abstract

  條件關係在科學觀測、假設和陳述中起著重要作用,但是現有的科學知識圖譜(SicKgs)與一般領域的知識圖譜(KGs)一樣,沒有考慮事實有效的條件,僅將事實知識表示為一個平面的概念關係網路,從而喪失了推理和探索的重要上下文。

In this work, we propose a novel representation of SciKG, which has three layers. The first layer has concept nodes, attribute nodes, as well as the attaching links from attribute to concept. The second layer represents both fact tuples and condition tuples. Each tuple is a node of the relation name, connecting to the subject and object that are concept or attribute nodes in the first layer. The third layer has nodes of statement sentences traceable to the original paper and authors. Each statement node connects to a set of fact tuples and/or condition tuples in the second layer.

  論文提出了一種新的SicKG表示,共有三層。第一層有概念節點、屬性節點以及從屬性到概念的附加連線。第二層表示事實元組和條件元組。每個元組都是關係名稱的節點,連線到第一層的概念和或屬性節點主語和賓語。第三層為語句節點,可溯源到原文和作者。每個語句節點連線到第二層的一組事實或條件元組。

We design a semi-supervised Multi-Input Multi-Output sequence labeling model that learns complex dependencies between the sequence tags from multiple signals and generates output sequences for fact and condition tuples. It has a self-training module of multiple strategies to leverage the massive scientific data for better performance when manual annotation is limited.

  設計了一個半監督的多輸入多輸出的序列標記模型,該模型從多個訊號中學習序列標記之間的複雜依賴關係,並生成事實元組和條件元組的輸出序列。該模型有一個多種策略的自我訓練模組,可以在人工註釋有限的情況下,利用大量的科學資料來獲得更好的效能。

stmt6: 發現T細胞中細胞外酸性PH降低通道活性,而鹼性PH增加通道活性。

stmt1:一種酶參加調節T細胞中一種化合物的合成

Introduction

  由於搜尋引擎無法滿足科學家對文獻的搜尋需求,構建 SciKGs 的想法引起了人們的關注。KG構建模型從語料庫中提取(實體,關係,實體)的三元組,並將其轉換為用於推理的連線。

“During T lymphocyte activation as well as production of cytokines, ... ”

“在T淋巴細胞啟用和產生細胞因子的過程中,……”

  現有的SciKGs從文字構造時忽略了條件,例如上句,構建模型專注於主句,而忽略了描述具體、重要條件的從句。因此一個好的SicKGs不僅應該有實體元組,還應該有條件元組。

“We observed that ... alkaline pH increases the activity of TRPV5/V6 channels in Jurkat T cells. ”

  現有的資訊抽取會提取出 (alkaline pH, increases, activity of TRPV5/V6 channels in Jurkat T cells) 三元組作為SicKG中的事實知識單位。但這並不讓人滿意,因為:

  • 缺少TRPV5/V6 channels 的屬性 activity
  • 條件 TRPV5/V6 channels in Jurkat T cells 沒有從文字中結構化體現

  為了儘可能保留句子中的資訊,每個語句都用格式化的 {concept: attribute} (屬性可以為空)一組實體元組表示。對於條件元組,如果主語描述的是觀測的均值或環境,而不是實體中某些概念/屬性的特定設定,則主語可以為空;物件可以是元組中的具體值,例如 (temperature, is, 63) 、(pH, is, 3.4)。按照這種規則,我們從上個例子中期望提取出


  論文為任務構建了一個標籤模式:

  • Definition 1 (Tag Schema ):對於一個句子,每個 token 會被分配一個 tag ,來表示它在元組中的角色。non-“O(outside)” 標籤被格式化為“B/I-XYZ”,其中
  • Definition 2 (Fact Tuple and Condition Tuple): 一個(subject, relation, object)元組用來描述主語和賓語之間的關係。
  • Definition 3 (Structured Statement):一個科學陳述句(例如,觀察,假設)是由事實元組和/或條件元組組成的,它們形成語義依賴,只有當條件存在時,事實才是有效的(由源宣告)。

  有三個問題:

  1. 一個 token 在不同的元組中可能有不同的標記,就比如 “TRPV5/V6” 這個詞被標記為: (1) 事實元組中的賓語; (2)條件元組中的主語;
  2. 註釋是代價是昂貴的,在科學領域,專家手工註釋科學文獻需要很長時間;
  3. 序列標籤在轉換為元組結構時存在噪聲,缺少訓練示例,學習模型難確保序列標籤正確定位到複合元組單元,因此降噪很重要;

  為了解決這些問題,首先該模型採用多工方案,同時為事實元組和條件元組生成標記序列,這些子任務共享相同的編碼-解碼器,但是使用不同的線性softmax層預測。

  其次,由於註釋有限,只能多尋求有效特徵。而語言模型LM,詞性標註POS、概念檢測、屬性提取、短語挖掘CAP等基礎NLP任務效率高,將其和原始句子一起作為輸入序列,這些資訊互補來學習標籤間複雜的依賴關係。

  最後模型具有迭代的自訓練模組,每次迭代訓練和預測時,都將高置信的預測標籤新增到訓練集中,對模型進行重新訓練,以修正常見錯誤。

  多輸入模型:由多個基本NLP任務的結果提供。

    WE: 通過聚合的全域性詞-詞共現統計量的訓練,將 token 的語義編碼為分散式表示

    LM:採用 Transformers(BERT)

    POS: 為每個token分配一個label來指示語法類別

    CAP:各種分配label

  編碼解碼模型採用雙向LSTM。

  多輸出模型:事實標記和條件標記使用相同的編碼器-解碼器模型,在共享上下文中相互增強。他們使用不同的線性-softmax層來分別預測事實和條件的具體標籤。

  採用迭代自訓練半監督學習方案,對於每次迭代,通過在未標記的句子上新增預測標籤來擴充套件訓練集。由於新標記的句子上的噪聲,自訓練容易產生錯誤傳播。為了修正這些錯誤,採用如下方法:

  • 基於關聯規則的校正(AR):使用關聯規則挖掘從訓練集中獲得高支援度和置信度的規則。如圖4 (a);
  • 標籤一致性校正(TC)和刪除(TCDEL),如圖4(b);
  • 儘可能選擇短句,因為短句比長句有更好的訓練結果;
  • 刪除不完整的序列,因為可能會錯過資訊;

Experiments

  Daraset: MEDLINE (一個生命科學和生物醫學文獻資料庫) 的1550萬篇文章的摘要, 領域內專家在31個隨機文件中人工註釋事實和條件標籤。

  與現有的方法比較 ALLENNLP OpenIE(有監督的提取命題列表模型,每個命題由謂詞和引數組成)、Stanford OpenIE(切分句子)、Structured SVM(可處理數百萬單詞特徵的註釋問題)、CRF(條件隨機場)。

為了驗證多輸入的效果,也進行了驗證。

  最終效果:

提供了一個帶條件的知識圖譜

  人生不如意的時候,是上帝給的長假,這個時候應該好好享受假期。
  突然有一天假期結束,時來運轉,人生才是真正開始了。