3 分鐘看完一篇論文，AI 文字生成模型把今年 NeurIPS 2300+ 篇總結了個遍

阿新 • • 發佈：2021-11-26

今年 NeurIPS 大會論文已經放榜，終於可以學習一下大佬們的研究了。

不過，開啟電腦，隨便點開一篇，就是一大段密密麻麻的文字糊臉…… 只是摘要就有這麼長，還有 2300 多篇，這工作量實在勸退。

能不能讓論文們都做一道經典的語文題：“用一句話概括全文內容”？還真可以。

最近 Reddit 上的一位博主釋出了一篇今年的 NeurIPS 大會論文彙總，其中的每篇論文下方（紅框中）都有一句由 AI 生成的高度凝練的總結。

而這款 AI 文字分析軟體，其實就是東京工業大學團隊開發的 Paper Digest。

它號稱能幫你把論文閱讀時間減少到 3 分鐘。

除了總結論文內容以外，它還可以篩選出已經發布程式碼的論文。

同樣，這次 NeurIPS 大會上的 200 多篇已釋出程式碼的文章也被彙總了出來（可能會有疏漏）。

點選“code”，就可以直接跳轉到相應的 GitHub 頁面。

AI 如何做好概括題

那這個 AI 文字分析神器應該怎麼用呢？

很簡單，先開啟 Paper Digest 的官網。完成一些註冊工作後，滑到一個搜尋框的介面：

在這個搜尋框裡填上你要總結概括的論文的 DOI 號。

DOI 號就像論文的身份證號，是獨一無二的。以隨便開啟的一篇論文為例，它長這樣（紅框中即為 DOI 號）：

填完之後，點選“Digest”就開始總結了：

只需幾秒鐘，就會有一句話的總結輸出，你也可以選擇一個最合適反饋給 Paper Digest，幫他們豐富資料庫。

除了輸入 DOI 號，如果你有本地的論文 PDF 檔案，也可以直接匯入。

是不是很方便？其實這樣方便好用的模型還不止一種。

比如，在一款免費學術搜尋引擎 Semantic Scholar 裡，也加入了一個類似的高度概括 AI：TLDR。

TLDR（Too Long，Don’t Read），其實就是太長不看的意思……

在 Semantic Scholar 上搜索論文時，帶有 TLDR（紅框）標誌的就是 AI 生成的一句話總結。

具體到方法原理上，我們不妨以 TLDR 為例一起來看看。

舉個例子，下圖中上邊的格子中是摘要，簡介，結論中相對重要的段落和句子。TLDR 會標記出突出的部分，然後組合成一個新的句子。

它的訓練邏輯也很容易理解。簡單來說，就是先確定一個標準答案，然後把標準答案打亂，再讓 TLDR 嘗試復原。

這和人類提煉概括的過程也很像。概括本身也需要忽視一些干擾，然後提取出最重要的部分。

所以在訓練之前要準備兩個資料庫，也就是標準答案：一個是 SciTLDR，它包含接近 2000 篇電腦科學相關論文，每篇論文都有一個最好的總結。

另一個是論文-標題對資料庫。由於標題中一般有很多重要的語句，對生成 TLDR 來說很有幫助。

將這兩個資料庫分別加上控制碼“<TITLE>”和“<TLDR>”之後進行混合，送入 BART 模型。

最後的 BART 模型是一個基於 Transformer 的預訓練 sequence-to-sequence 去噪自編碼器，它的訓練步驟主要有兩步：

首先用任意噪聲破壞函式文字，相當於把標準答案打亂。然後讓模型學習重建原來的文字。這整個學習策略就是 CATTS。

來看看效果如何。

下圖中 TLDR-Auth 是論文作者本人寫的總結，TLDR-PR 是本科學生讀完論文寫的總結。

BART 和 CATTS 分別是原有模型和 CATTS 模型給出的總結。

從重合度看起來效果還是不錯的。

相關推薦還需下功夫

不過，不論是 TLDR 還是 Paper Digest，都有不完善的地方。

TLDR 只針對電腦科學的論文進行了總結。

而對於 Paper Digest，網友表示它雖然概括做得很好，但是相關推薦實在是不行，今後仍需改進。

而且 Paper Digest 並不適用於所有論文。

目前，它只對來源於開放獲取期刊的論文或者本地 PDF 檔案匯入的論文有效。

但是不論哪種文字分析 AI，都可以快速獲取論文高度凝練的概括資訊。

如果大家想快速瞭解今年 NeurIPS 大會的論文情況，可以從文末連結中找到這次的彙總。

參考連結：

[1]https://www.reddit.com/r/MachineLearning/comments/r0gnej/r_one_sentence_highlight_for_every_neurips2021/

[2]https://aclanthology.org/2020.findings-emnlp.428.pdf

[3]https://www.paperdigest.org/2021/11/neurips-2021-highlights/

[4]https://www.paper-digest.com/

3 分鐘看完一篇論文，AI 文字生成模型把今年 NeurIPS 2300+ 篇總結了個遍

今年 NeurIPS 大會論文已經放榜，終於可以學習一下大佬們的研究了。不過，開啟電腦，隨便點開一篇，就是一大段密密麻麻的文字糊臉…… 只是摘要就有這麼長，還有 2300 多篇，這工作量實在勸退。能不能讓論文們都做一

Android面試超詳細知識點！花三分鐘看完這篇文章你就懂了！附帶學習經驗

前言最近我一直在面試高階工程師，不管初級，高階，程式設計師，我想面試前，大家刷題一定是是少不了吧。

4 分鐘看完 Apple 秋季新品釋出會，iPhone 13 Pro 全系支援 120Hz 高刷

Hello，大家好！我是的水水。今年的秋季釋出會，蘋果一口氣連發 5 款新品，iPhone 13 Pro 或成最大贏家，因為全系支援 120Hz 高刷，加量還減價。iPad mini 6 換殼 + 漲價，頂配 6199 元錢不捨得花。那具體還有哪些升

DDD領域驅動設計落地實踐（十分鐘看完，半小時落地）

一、引子不知今年吹了什麼風，忽然DDD領域驅動設計進入大家視野。該思想源於2003年 Eric Evans編寫的“Domain-Driven Design領域驅動設計”簡稱DDD，Evans DDD是一套綜合軟體系統分析和設計的面向物件建模方法。剛

3分鐘看懂Python後端必須知道的Django的訊號機制

概念 django自帶一套訊號機制來幫助我們在框架的不同位置之間傳遞資訊。也就是說，當某一事件發生時，訊號系統可以允許一個或多個傳送者（senders）將通知或訊號（signals）傳送給一組接受者（receivers）。

看完 Pixel 5 釋出會，感覺谷歌智慧手機業務要棄療了

美國時間 9 月 30 日，Google 一年一度的硬體釋出會正式舉行。對於普通消費者來說，這場釋出會最大的看點，是 Pixel 5 和 Pixel 4a（5G）兩款手機——儘管在 Google 官方的話術中，它們已經不是核心。

3分鐘短文：Laravel的“南天門”，過濾掉七七八八的資料

引言上一章我們教會大家如何從使用者表單內正確地獲取資料，可是沒有講，獲取到的資料到底有啥用，或者說，有的使用者提交的資料壓根兒就沒正經填，那些錯亂無效的資料，如果直接放到資料庫，純粹是對資料庫的汙染。

看完這個String類，保證你不敢在吹牛了！！！

一、String類想要了解一個類，最好的辦法就是看這個類的實現原始碼，來看一下String類的原始碼：

用Python寫幾行程式碼，一分鐘搞定一天工作量，同事直呼：好傢伙！

前幾天有一個讀者說最近要整理幾千份檔案，頭都要整禿了，不知道能不能用Python解決，我們來看一下，你也可以思考一下。

看完 315 晚會後，我不要 “臉”了 ......

昨天 315 晚會上，央視曝光了人臉識別濫用、線上簡歷洩露、大資料殺熟 ... 等等眾多問題。

iOS 15 都更新了啥？四分鐘看完蘋果 WWDC21

6 月 8 日訊息今日凌晨，蘋果召開 WWDC21 全球開發者大會。我們將其濃縮至 4 分鐘短視訊，一起來了解一下吧：

【視訊】三分鐘看完微軟 Windows 11 釋出會

昨晚微軟正式釋出 Windows 11 作業系統，雖然釋出會也有 40 多分鐘，但釋出的特性還真不算多。一起來了解一下吧：

為何外太空看起來一片漆黑，跟缺乏光線沒有關係

北京時間 7 月 1 日訊息，無論是仰望夜空，還是驚歎於網路上絢麗的宇宙照片，你會發現兩者並沒有太大的區別：都是漆黑深邃的太空，點綴著明亮的星星、行星或宇宙飛船。那你有沒有想過，為什麼宇宙漆黑一片？為什麼宇

何愷明時隔兩年再發一作論文：為視覺大模型開路，“CVPR 2022 最佳論文候選預定”

大神話不多，但每一次一作論文，必定引發江湖震動。這不，距離上一篇一作論文 2 年之後，何愷明再次以一作身份，帶來最新研究。依然是視覺領域的研究，依然是何愷明式的大道至簡。甚至在業內紛紛追求“大力出奇跡”、

你玩的音遊可能真是 AI 生成的：Love Live! 工作室發了篇論文，用 AI 節省 50% 作譜時間

現在，你打的音遊曲譜，還真有可能是 AI 生成的！像下面這些根據節拍生成音符的操作，也就是譜面（chart），現在 AI 也能搞出來了：這是發生在著名偶像音遊 Love Live! 系列上的真事兒。開發它的音遊工作室 KLab 聯合

發起科研衝鋒令：看完兩會科技 KPI，我感受到了大國潛力

3 月 5 日上午，在十三屆全國人大五次會議上，2022 年政府工作報告內容公佈。政府工作報告指出，我國在 2021 年國內生產總值達到 114 萬億元，增長 8.1%。在經濟保持恢復發展的同時，科技創新和數字經濟的發展也取得

魔獸TBC：元素薩準備3W金幣消費，看完P5牌子裝，打算排骨吃到底

雖然胖哥在魔獸世界TBC懷舊服中是著名的“非酋”，60級版本沒見過風臉，70級版本沒見過鳳凰和蛋刀，但是從P3階段開放到現在，薩滿號也陸陸續續存了一部分金幣。扣除購買T6套裝和武器的開銷之後，目前揹包內還有3W金幣

魔獸TBC：誰才是P5階段唯一MT？看完熊德屬性，防戰玩家沉默了

魔獸世界TBC懷舊服P3階段開放以來，防戰在副本中的地位直線下降，除了阿克蒙德和伊利丹之外，絕大部分情況下都在扮演醬油T的角色。雖然依然有一部分情懷玩家認為P5階段的防戰並不弱，完全可以勝任MT的角色，但是當這

3.5 億元一張票，馬斯克的 SpaceX 將三位富商送上國際空間站，年齡最長者 71 歲

4 月 9 日訊息，當地 4 月 8 日（週五），美國佛羅里達州卡納維拉爾角，馬斯克創辦的 SpaceX 公司的一艘火箭飛船發射升空，載有第一個全私人宇航員團進入國際空間站（ISS，International Space Station）。剛剛，Sp

10分鐘看懂Docker和K8S，docker k8s 區別

10分鐘看懂Docker和K8S，docker k8s 區別 2010年，幾個搞IT的年輕人，在美國舊金山成立了一家名叫“dotCloud”的公司。