論文解讀：Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

阿新 • • 發佈：2018-12-09

這是關於VQA問題的第三篇系列文章，這篇文章是一篇比較經典的文章，所以跟大家分享。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：Ask Your Neurons: A Neural-based Approach to Answering Questions about Images。

1，想法

模型以CNN和LSTM為基礎，以一種新的使用方式，設計了一個預測結果長度可變的模型。該模型將視覺問答任務視為結合影象資訊作為輔助的sequence to sequence任務。

2，模型

模型：首先由一個預訓練好的深度CNN模型抽取出要回答的圖片特徵

，然後將圖片特徵和轉化為詞向量的問題詞一起送入LSTM網路，在每次送入一個問題詞的同時將圖片特徵送入網路，直到所有的問題特徵資訊抽取完畢。接下來用同一個LSTM網路產生答案，直至產生結束符($)為止。該模型的訓練過程是結合影象特徵的LSTM網路的訓練以及詞向量的生成器的訓練。
在這裡插入圖片描述在這裡插入圖片描述

a.影象特徵：

用一個訓練好的cnn提取影象特徵，然後把這個影象特徵送入每一個LSTM網路的輸入中。

b.文字特徵，以及LSTM網路的輸入

在這裡插入圖片描述
文字採用詞向量的輸入，即每個詞的詞向量。訓練時，文字特徵包括問題和答案：

測試時，文字特徵包括，問題和前一個詞的預測答案：

c.採用概率最大的方式預測答案

在這裡插入圖片描述
損失函式：只考慮了答案預測部分的損失函式，即問好前面的部分不考慮損失函式。

3.論文的貢獻

論文提出了seq2seq的方式，長生變長的的答案
論文提出了兩個新的評估指標，相親見原論文

論文解讀：Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

這是關於VQA問題的第三篇系列文章，這篇文章是一篇比較經典的文章，所以跟大家分享。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：Ask Your Neurons: A Neural-based Approach to Answering Questions abo

論文解讀：Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for VQA

這是關於VQA問題的第五篇系列文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Ans

論文解讀：A Focused Dynamic Attention Model for Visual Question Answering

這是關於VQA問題的第四篇系列文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：A Focused Dynamic Attention Model for Visual Question Answering。 1，主要思想： Focused Dynami

論文解讀：記憶網路（Memory Network）

在瞭解vqa問題的論文時，發現有很多論文采用了記憶網路的思路，模擬推理過程，這篇文章主要總結關於記憶網路的三篇經典論文，目的是對記憶網路有個認識。分別是： MEMORY NETWORKS，End-To-End Memory Networks，Ask Me Anything: Dynami

論文解讀：Stacked Attention Networks for Image Question Answering

這是關於VQA問題的第二篇系列文章，這篇文章在vqa領域是一篇比較有影響的文章。本篇文章將介紹論文：主要思想；模型方法；主要貢獻。有興趣可以檢視原文：Stacked Attention Networks for Image Question Answering。原論文中附有作者原始碼。

論文解讀：Where To Look: Focus Regions for Visual Question Answering

可能要很久時間開始關注vqa問題，vqa問題就是影象的問答問題，即對影象提問，併產生答案。關於影象問答綜述性文章推薦：Visual Question Answering: Datasets, Algorithms, and Future Challenges。今天開始可能要跟大家分析關於

論文解讀：DeLiGAN: Generative Adversarial Networks for Diverse and Limited Data

前言：DeLiGAN是計算機視覺頂會CVPR2017發表的一篇論文，本文將結合Python原始碼學習DeLiGAN中的核心內容。DeLiGAN最大的貢獻就是將生成對抗網路（GANs）的輸入潛空間編碼為混合模型（高斯混合模型），從而使得生成對抗網路（GANs）在數量有限但具有多樣性的訓練資料上表現出較

哈佛NLP組論文解讀：基於隱變數的注意力模型 | 附開原始碼

作者丨鄧雲天學校丨哈佛大學NLP組博士生研究方向丨自然語言處理摘要Attention 注意力模型

CVPR 2017論文解讀：特徵金字塔網路FPN

這裡介紹的文章是來自 Facebook 的特徵金字塔網路 Feature Pyramid Networks(FPN)。FPN 主要解決的是物體檢測中的多尺度問題，通過簡單的網路連線改變，在基本不增加原有模型計算量情況下，大幅度提升了小物體檢測的效能。我們將從論文背景，論

I3D論文解讀(Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset)

論文：Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset 期刊：CVPR2017 papar:https://arxiv.org/pdf/1705.07750v1.pdf 相關工作：相關工作就是

【轉】CVPR 2017論文解讀：用於單目影象車輛3D檢測的多工網路

轉自：https://baijiahao.baidu.com/s?id=1573792022850309&wfr=spider&for=pc 昨日，CVPR 2017獲獎論文公佈，引起了業內極大的關注。但除了這些獲獎論文，還有眾多精彩的論文值得一讀。因此在

論文總結： 2009-Pedestrian Detection: A Benchmark

參考文獻：Dollar P, Wojek C, Schiele B, et al. Pedestrian detection: A benchmark[J]. Proc Cvpr, 2009:304-311. 論文的主要貢獻： 1. 介紹了Calte

阿里NIPS 2017論文解讀：如何降低TensorFlow訓練的視訊記憶體消耗？

阿里妹導讀：被譽為國際頂級的機器學習和神經網路學術會議NIPS 2017於12月4日-9日在美國加州長灘市舉行。在本屆會議上，阿里巴巴除有兩篇論文入選Workshop並進行Oral和Poster形式報告外，三大技術事業部連續3天在阿里展區舉行多場技術研討會，向5000餘名參會人員介紹阿里在機器學習、人工智

前沿 | VLDB論文解讀：阿里雲超大規模實時分析型資料庫AnalyticDB

前言一年一度的資料庫領域頂級會議VLDB 2019於美國當地時間8月26日-8月30日在洛杉磯召開。在本屆大會上，阿里

Ask HN: Verifying a web app pointing to a specific deployment/commit

I've looked at ways to verify whether a specific deployment is signed and associated with a specific commit hash/deployment, but how do you verify (as a cl

學習摘要：convolutional-lstm-network-a-machine-learning-approach-for-precipitation-nowcasting

原文： convolutional-lstm-network-a-machine-learning-approach-for-precipitation-nowcasting 部落格內容：關於該文章的學習摘要將論文的關鍵內容進行了翻譯、配圖說明，配合原文閱讀，應該

論文閱讀 | DeepDrawing: A Deep Learning Approach to Graph Drawing

作者：Yong Wang, Zhihua Jin, Qianwen Wang, Weiwei Cui, Tengfei Ma and Huamin Qu 本文發表於VIS2019, 來自於香港科技大學的視覺化小組(屈華民教授領導)的研究 1. 簡介圖資料廣泛用於各個領域，例如生物資訊學，金融和社交網路分析。

A Deep Neural Network Approach To Speech Bandwidth Expansion

題名：一種用於語音頻寬擴充套件的深度神經網路方法作者：Kehuang Li；Chin-Hui Lee 2015年出來的摘要　　本文提出了一種基於深度神經網路(DNN)的語音頻寬擴充套件(BWE)方法。利用對數譜功率作為輸入輸出特徵進行所需的非線性變換，訓練神經網路來實現這種高維對映函式。在10小

A Language Modeling Approach to Predicting Reading Difficulty-paer

統計 nor use 難度 lex ken desc 語義 nta Volume:Proceedings of the Human Language Technology Conference of the North American Chapter of the Ass

Accelerate Watson model development with a rule-based approach

In this Building with Watson webinar, Watson Knowledge Studio Offering Manager Stefan Tzanev and Watson and Cloud Adoption Leader Randy Haven outline the

論文解讀：Ask Your Neurons: A Neural-based Approach to Answering Questions about Images

1，想法

2，模型

a.影象特徵：

b.文字特徵，以及LSTM網路的輸入

c.採用概率最大的方式預測答案

3.論文的貢獻

相關推薦