1. 程式人生 > 資訊 >3 分鐘看完一篇論文,AI 文字生成模型把今年 NeurIPS 2300+ 篇總結了個遍

3 分鐘看完一篇論文,AI 文字生成模型把今年 NeurIPS 2300+ 篇總結了個遍

今年 NeurIPS 大會論文已經放榜,終於可以學習一下大佬們的研究了。

不過,開啟電腦,隨便點開一篇,就是一大段密密麻麻的文字糊臉…… 只是摘要就有這麼長,還有 2300 多篇,這工作量實在勸退。

能不能讓論文們都做一道經典的語文題:“用一句話概括全文內容”?還真可以。

最近 Reddit 上的一位博主釋出了一篇今年的 NeurIPS 大會論文彙總,其中的每篇論文下方(紅框中)都有一句由 AI 生成的高度凝練的總結

而這款 AI 文字分析軟體,其實就是東京工業大學團隊開發的 Paper Digest

它號稱能幫你把論文閱讀時間減少到 3 分鐘

除了總結論文內容以外,它還可以篩選出已經發布程式碼的論文

同樣,這次 NeurIPS 大會上的 200 多篇已釋出程式碼的文章也被彙總了出來(可能會有疏漏)。

點選“code”,就可以直接跳轉到相應的 GitHub 頁面。

AI 如何做好概括題

那這個 AI 文字分析神器應該怎麼用呢?

很簡單,先開啟 Paper Digest 的官網。完成一些註冊工作後,滑到一個搜尋框的介面:

在這個搜尋框裡填上你要總結概括的論文的 DOI 號。

DOI 號就像論文的身份證號,是獨一無二的。以隨便開啟的一篇論文為例,它長這樣(紅框中即為 DOI 號):

填完之後,點選“Digest”就開始總結了:

只需幾秒鐘,就會有一句話的總結輸出,你也可以選擇一個最合適反饋給 Paper Digest,幫他們豐富資料庫。

除了輸入 DOI 號,如果你有本地的論文 PDF 檔案,也可以直接匯入。

是不是很方便?其實這樣方便好用的模型還不止一種。

比如,在一款免費學術搜尋引擎 Semantic Scholar 裡,也加入了一個類似的高度概括 AI:TLDR。

TLDR(Too Long,Don’t Read),其實就是太長不看的意思……

在 Semantic Scholar 上搜索論文時,帶有 TLDR(紅框)標誌的就是 AI 生成的一句話總結。

具體到方法原理上,我們不妨以 TLDR 為例一起來看看。

舉個例子,下圖中上邊的格子中是摘要,簡介,結論中相對重要的段落和句子。TLDR 會標記出突出的部分,然後組合成一個新的句子。

它的訓練邏輯也很容易理解。簡單來說,就是先確定一個標準答案,然後把標準答案打亂,再讓 TLDR 嘗試復原。

這和人類提煉概括的過程也很像。概括本身也需要忽視一些干擾,然後提取出最重要的部分。

所以在訓練之前要準備兩個資料庫,也就是標準答案:一個是 SciTLDR,它包含接近 2000 篇電腦科學相關論文,每篇論文都有一個最好的總結。

另一個是論文-標題對資料庫。由於標題中一般有很多重要的語句,對生成 TLDR 來說很有幫助。

將這兩個資料庫分別加上控制碼“<TITLE>”和“<TLDR>”之後進行混合,送入 BART 模型。

最後的 BART 模型是一個基於 Transformer 的預訓練 sequence-to-sequence 去噪自編碼器,它的訓練步驟主要有兩步:

首先用任意噪聲破壞函式文字,相當於把標準答案打亂。然後讓模型學習重建原來的文字。這整個學習策略就是 CATTS。

來看看效果如何。

下圖中 TLDR-Auth 是論文作者本人寫的總結,TLDR-PR 是本科學生讀完論文寫的總結。

BART 和 CATTS 分別是原有模型和 CATTS 模型給出的總結。

從重合度看起來效果還是不錯的。

相關推薦還需下功夫

不過,不論是 TLDR 還是 Paper Digest,都有不完善的地方。

TLDR 只針對電腦科學的論文進行了總結。

而對於 Paper Digest,網友表示它雖然概括做得很好,但是相關推薦實在是不行,今後仍需改進。

而且 Paper Digest 並不適用於所有論文

目前,它只對來源於開放獲取期刊的論文或者本地 PDF 檔案匯入的論文有效。

但是不論哪種文字分析 AI,都可以快速獲取論文高度凝練的概括資訊。

如果大家想快速瞭解今年 NeurIPS 大會的論文情況,可以從文末連結中找到這次的彙總。

參考連結

[1]https://www.reddit.com/r/MachineLearning/comments/r0gnej/r_one_sentence_highlight_for_every_neurips2021/

[2]https://aclanthology.org/2020.findings-emnlp.428.pdf

[3]https://www.paperdigest.org/2021/11/neurips-2021-highlights/

[4]https://www.paper-digest.com/