What You Get Is What You See: A Visual Markup Decompiler

关于

论文:What You Get Is What You See: A Visual Markup Decompiler

导言

OCR用来识别并提取结构信息:不仅仅要识别文字,还要提取语义。
数学表达式OCR系统:INFTY系统。
需要联合处理图片和文字信息。

文章使用的模型是对模型 attention-based encoder-decoder model (Bahdanau, Cho, and Bengio 2014) 的简单扩展。

The use of attention addi- tionally provides an alignment from the generated markup to the original source image

数据集:IM2LATEX-100K

在线效果演示:http://lstm.seas.harvard.edu/latex/

Problem: Image-to-Markup Generation

模型 WYGIWYS

编码器使用RNN(LSTM)。隐层 feature grid $(\tilde{V}_{h,w} = \text{RNN}(\tilde{V}_{h,w-1}, V_{h, w}))$,
即按行顺序编码,对每一行的初始状态$(\tilde{V}_{h,0})$,也是通过学习得到(怎么训练?作为一个参数一起学?),叫做 position embedding,可以表达图像所在位置信息。

$$

$$