3 分鐘看完一篇論文,AI 文字生成模型把今年 NeurIPS 2300+ 篇總結了個遍
今年 NeurIPS 大會論文已經放榜,終於可以學習一下大佬們的研究了。
不過,開啟電腦,隨便點開一篇,就是一大段密密麻麻的文字糊臉…… 只是摘要就有這麼長,還有 2300 多篇,這工作量實在勸退。
能不能讓論文們都做一道經典的語文題:“用一句話概括全文內容”?還真可以。
最近 Reddit 上的一位博主釋出了一篇今年的 NeurIPS 大會論文彙總,其中的每篇論文下方(紅框中)都有一句由 AI 生成的高度凝練的總結。
而這款 AI 文字分析軟體,其實就是東京工業大學團隊開發的 Paper Digest。
它號稱能幫你把論文閱讀時間減少到 3 分鐘。
除了總結論文內容以外,它還可以篩選出已經發布程式碼的論文。
同樣,這次 NeurIPS 大會上的 200 多篇已釋出程式碼的文章也被彙總了出來(可能會有疏漏)。
點選“code”,就可以直接跳轉到相應的 GitHub 頁面。
AI 如何做好概括題
那這個 AI 文字分析神器應該怎麼用呢?
很簡單,先開啟 Paper Digest 的官網。完成一些註冊工作後,滑到一個搜尋框的介面:
在這個搜尋框裡填上你要總結概括的論文的 DOI 號。
DOI 號就像論文的身份證號,是獨一無二的。以隨便開啟的一篇論文為例,它長這樣(紅框中即為 DOI 號):
填完之後,點選“Digest”就開始總結了:
只需幾秒鐘,就會有一句話的總結輸出,你也可以選擇一個最合適反饋給 Paper Digest,幫他們豐富資料庫。
除了輸入 DOI 號,如果你有本地的論文 PDF 檔案,也可以直接匯入。
是不是很方便?其實這樣方便好用的模型還不止一種。
比如,在一款免費學術搜尋引擎 Semantic Scholar 裡,也加入了一個類似的高度概括 AI:TLDR。
TLDR(Too Long,Don’t Read),其實就是太長不看的意思……
在 Semantic Scholar 上搜索論文時,帶有 TLDR(紅框)標誌的就是 AI 生成的一句話總結。
具體到方法原理上,我們不妨以 TLDR 為例一起來看看。
舉個例子,下圖中上邊的格子中是摘要,簡介,結論中相對重要的段落和句子。TLDR 會標記出突出的部分,然後組合成一個新的句子。
它的訓練邏輯也很容易理解。簡單來說,就是先確定一個標準答案,然後把標準答案打亂,再讓 TLDR 嘗試復原。
這和人類提煉概括的過程也很像。概括本身也需要忽視一些干擾,然後提取出最重要的部分。
所以在訓練之前要準備兩個資料庫,也就是標準答案:一個是 SciTLDR,它包含接近 2000 篇電腦科學相關論文,每篇論文都有一個最好的總結。
另一個是論文-標題對資料庫。由於標題中一般有很多重要的語句,對生成 TLDR 來說很有幫助。
將這兩個資料庫分別加上控制碼“<TITLE>”和“<TLDR>”之後進行混合,送入 BART 模型。
最後的 BART 模型是一個基於 Transformer 的預訓練 sequence-to-sequence 去噪自編碼器,它的訓練步驟主要有兩步:
首先用任意噪聲破壞函式文字,相當於把標準答案打亂。然後讓模型學習重建原來的文字。這整個學習策略就是 CATTS。
來看看效果如何。
下圖中 TLDR-Auth 是論文作者本人寫的總結,TLDR-PR 是本科學生讀完論文寫的總結。
BART 和 CATTS 分別是原有模型和 CATTS 模型給出的總結。
從重合度看起來效果還是不錯的。
相關推薦還需下功夫
不過,不論是 TLDR 還是 Paper Digest,都有不完善的地方。
TLDR 只針對電腦科學的論文進行了總結。
而對於 Paper Digest,網友表示它雖然概括做得很好,但是相關推薦實在是不行,今後仍需改進。
而且 Paper Digest 並不適用於所有論文。
目前,它只對來源於開放獲取期刊的論文或者本地 PDF 檔案匯入的論文有效。
但是不論哪種文字分析 AI,都可以快速獲取論文高度凝練的概括資訊。
如果大家想快速瞭解今年 NeurIPS 大會的論文情況,可以從文末連結中找到這次的彙總。
參考連結:
[1]https://www.reddit.com/r/MachineLearning/comments/r0gnej/r_one_sentence_highlight_for_every_neurips2021/
[2]https://aclanthology.org/2020.findings-emnlp.428.pdf
[3]https://www.paperdigest.org/2021/11/neurips-2021-highlights/
[4]https://www.paper-digest.com/