論文解讀：A Focused Dynamic Attention Model for Visual Question Answering

阿新 • • 發佈：2018-12-09

這是關於VQA問題的第四篇系列文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：A Focused Dynamic Attention Model for Visual Question Answering。

1，主要思想：

Focused Dynamic Attention (FDA)模型： 通過問題的關鍵詞，識別影象中重要的物件；並通過LSTM單元融合來自區域和全域性特徵的資訊。然後將這種問題驅動的表示與問題表示相結合，並將其輸入到用於生成答案的推理單元中。

2，模型

在這裡插入圖片描述

a.問題特徵：

採用LSTM對問題文字提取問題表達資訊。

b.影象特徵

採用預訓練的Deep Residual Networks model獲取影象資訊。

c.Focused Dynamic Attention Mechanism（重要部分）

在訓練期間，我們使用真實物件邊界框和標籤。在測試時，預先計算的邊界框，並用對它們進行分類，以獲得物件標籤。
首先： 對於每個影象物件，它使用word2vec單詞嵌入來測量問題單詞和物件標籤之間的相似性。
其次： 它選擇相似度得分大於0.5的物件，並用預先訓練的ResNet模型提取物件邊界框的特徵向量。
再次： 按照問題單詞順序，把這些影象特徵送入LSTM網路。
最後：

向LSTM網路提供整個影象的特徵向量，並使用得到的LSTM狀態作為視覺特徵表示

d.產生預測

採用element-wise multiplication融合兩個向量，用全連線加softmax輸出。

3，主要貢獻：

提出了FDA模型，用於vqa問題；
將區域性和全域性上下文視覺特徵與文字特徵融合在一起
在過個模型上對比了開放域和多項選擇兩個資料集
FDA可以減少噪聲的影響：只考慮了重要的物件，其他沒有物件的部分都丟掉了。並採用attention機制，找到與問題相關的物件。

論文解讀：A Focused Dynamic Attention Model for Visual Question Answering

這是關於VQA問題的第四篇系列文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：A Focused Dynamic Attention Model for Visual Question Answering。 1，主要思想： Focused Dynami

論文解讀：Where To Look: Focus Regions for Visual Question Answering

可能要很久時間開始關注vqa問題，vqa問題就是影象的問答問題，即對影象提問，併產生答案。關於影象問答綜述性文章推薦：Visual Question Answering: Datasets, Algorithms, and Future Challenges。今天開始可能要跟大家分析關於

Attention Model in Visual Question Answering

注意力機制常常用於Visual Question Answering和Image Caption中，此篇主要介紹VQA中的注意力機制。《Recurrent Models of Visual Attention》使用強化學習的方法。模擬人類看東西的方式，從上到下

論文解讀：Stacked Attention Networks for Image Question Answering

這是關於VQA問題的第二篇系列文章，這篇文章在vqa領域是一篇比較有影響的文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：Stacked Attention Networks for Image Question Answering。原論文中附有作者原始碼。

論文筆記 Learning Visual Knowledge Memory Networks for Visual Question Answering （CVPR2018)

這篇文章的一個出發點也是希望VQA裡面的視覺內容與人的結構化知識相聯絡起來，提出了一種visual knowledge memory network (VKMN)來將結構化知識與視覺特徵融合進端對端的學習框架。在經典VQA 資料集VQA v1.0與v2.0上在與知識推理相關的問題

論文筆記 Multiomdal Learning and Reasoning for Visual Question Answering (NIPS 2017)

文章的主要貢獻點如下：值得學習的是，文章的寫作挺好的。文章的一個主要思想就是modular neural network，通過學習關於question與image的多模態(multimodal)與多方面(multifaceted)的表徵，在VQA1.與VQA2.0上取得不錯效果。

論文解讀：Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for VQA

這是關於VQA問題的第五篇系列文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Ans

論文解讀：Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

這是關於VQA問題的第三篇系列文章，這篇文章是一篇比較經典的文章，所以跟大家分享。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：Ask Your Neurons: A Neural-based Approach to Answering Questions abo

論文閱讀：A Primer on Neural Network Models for Natural Language Processing（1）

選擇 works embed 負責距離 feature 結構 tran put 前言 2017.10.2博客園的第一篇文章，Mark。由於實驗室做的是NLP和醫療相關的內容，因此開始啃NLP這個硬骨頭，希望能學有所成。後續將關註知識圖譜，深度強化學習等內

Person Re-identification 系列論文筆記（二）：A Discriminatively Learned CNN Embedding for Person Re-identification

triplet put ali com multi 深度學習 native alt 出現　　A Discriminatively Learned CNN Embedding for Person Re-identification Zheng Z, Zheng L, Ya

論文閱讀 | A Deep Relevance Matching Model for Ad-hoc Retrieval

A Deep Relevance Matching Model for Ad-hoc Retrieval （2016 CIKM）模型細節 1.對於query中的每個詞建立mapping直方圖輸入：query中的每個詞和doc所有詞產生term pair，

論文解讀：記憶網路（Memory Network）

在瞭解vqa問題的論文時，發現有很多論文采用了記憶網路的思路，模擬推理過程，這篇文章主要總結關於記憶網路的三篇經典論文，目的是對記憶網路有個認識。分別是： MEMORY NETWORKS，End-To-End Memory Networks，Ask Me Anything: Dynami

論文解讀：DeLiGAN: Generative Adversarial Networks for Diverse and Limited Data

前言：DeLiGAN是計算機視覺頂會CVPR2017發表的一篇論文，本文將結合Python原始碼學習DeLiGAN中的核心內容。DeLiGAN最大的貢獻就是將生成對抗網路（GANs）的輸入潛空間編碼為混合模型（高斯混合模型），從而使得生成對抗網路（GANs）在數量有限但具有多樣性的訓練資料上表現出較

【論文閱讀】A Neural Probabilistic Language Model

《A Neural Probabilistic Language Model》 Yoshua Bengio 2003 Abstract 統計語言模型建模（Statistical Language Modeling）目標是學習一種語言中單詞序列的聯合概率函式。維度限制會導致：模

哈佛NLP組論文解讀：基於隱變數的注意力模型 | 附開原始碼

作者丨鄧雲天學校丨哈佛大學NLP組博士生研究方向丨自然語言處理摘要Attention 注意力模型

論文翻譯：A Tutorial on Energy-Based Learning

文章地址LeCun經典論文 Abstract 基於能量的模型（EBM）通過將標量能量與變數的每個配置相關聯來捕獲變數之間的依賴關係。推論包括鉗制觀測變數的值，並找出使能量最小的其餘變數的配置。學習包括找到一個能量函式，其中變數的觀察結構的能量比不可觀測的能量要低

CVPR 2017論文解讀：特徵金字塔網路FPN

這裡介紹的文章是來自 Facebook 的特徵金字塔網路 Feature Pyramid Networks(FPN)。FPN 主要解決的是物體檢測中的多尺度問題，通過簡單的網路連線改變，在基本不增加原有模型計算量情況下，大幅度提升了小物體檢測的效能。我們將從論文背景，論

【轉】CVPR 2017論文解讀：用於單目影象車輛3D檢測的多工網路

轉自：https://baijiahao.baidu.com/s?id=1573792022850309&wfr=spider&for=pc 昨日，CVPR 2017獲獎論文公佈，引起了業內極大的關注。但除了這些獲獎論文，還有眾多精彩的論文值得一讀。因此在

阿里NIPS 2017論文解讀：如何降低TensorFlow訓練的視訊記憶體消耗？

阿里妹導讀：被譽為國際頂級的機器學習和神經網路學術會議NIPS 2017於12月4日-9日在美國加州長灘市舉行。在本屆會議上，阿里巴巴除有兩篇論文入選Workshop並進行Oral和Poster形式報告外，三大技術事業部連續3天在阿里展區舉行多場技術研討會，向5000餘名參會人員介紹阿里在機器學習、人工智

論文閱讀：A Survey on Transfer Learning

本文主要內容為論文《A Survey on Transfer Learning》的閱讀筆記，內容和圖片主要參考該論文。其中部分內容引用與部落格《遷移學習綜述a survey on transfer learning的整理下載》，感謝博主xf__ma

論文解讀：A Focused Dynamic Attention Model for Visual Question Answering

1，主要思想：

2，模型

a.問題特徵：

b.影象特徵

c.Focused Dynamic Attention Mechanism（重要部分）

d.產生預測

3，主要貢獻：

相關推薦