神奇的文本编辑，惊人的移花接木 | ACM MM 2019 论文赏析-白红宇

神奇的文本编辑，惊人的移花接木 | ACM MM 2019 论文赏析

阅读量：574 次

发布时间：2019-03-09

本文共 3669 字，大约阅读时间需要 12 分钟。

点击我爱计算机视觉标星，更快获取CVML新技术

本文简要介绍 ACM Multimedia 2019录用论文“EditingText in the Wild”的主要工作。该论文主要针对自然场景图片文字编辑问题，提出了一种风格保持网络，可以做到在保留场景文字风格的情况下替换文字内容，替换后的文字与背景无缝融合，在视觉上达到了十分逼真的效果。

图1 本文方法效果图

一、研究背景

自然场景文字编辑相对来说是一个较新的研究方向，但在生活中应用较为广泛，例如广告图片编辑，文字纠错，AR翻译等场景，都需要在保持图片整体视觉效果情况下对图片中的文字进行替换。

对自然场景中的文字进行编辑是一个具有挑战性的课题，一是因为自然场景中文字变化极大，字体、颜色、大小、透明度等有很大差异；二是因为自然场景中背景复杂、纹理细节较多、局部不均匀等因素，导致现有风格迁移方法[1][2][3]很难做到既完成文字风格的迁移，又做到文字与背景的完美融合。

图2 自然场景文字复杂多样

二、方法原理简述

图3 网络整体框架图

图3是这篇文章提出的SRNet（风格保持网络）的整体结构，由于场景文字复杂多样，本文方法采取模块分解的思路将前景和背景分开进行处理。

网络主要可以分为3个部分，分别是Text conversion module，Background inpainting module和Fusion module。

Text conversion module由Encoder-decoder结构组成，负责完成与文字有关的特征的迁移，如文字字体、颜色、形变等信息，目标是生成具有指定文字内容、同时包含风格图片中文字风格特征的前景图像。

在实践中发现，生成过程中经常会出现文字结构不完整、笔划断裂等情况，导致文字语义信息模糊难辨。为了解决这一问题，本文在解码时同时生成了文字骨架并引入监督，从而使得生成图片中的文字笔画结构更具有完整性。

Text conversion module主要负责将输入风格图片中的文字进行擦除，同时修复纹理信息，保证生成的背景图片无瑕疵、自然清晰。

在该模块中还将编码器和解码器的特征图使用跳跃连接[4]进行信息传递，同时将解码器的特征输入到随后的融合模块解码阶段，辅助融合过程，有效改善背景模糊和虚影的情况。

Background inpainting module负责将生成好的前景和背景进行有机融合，产生最终结果。在这个部分本文将前景图片编码后的特征结合背景修复模块解码阶段的特征，使得前景和背景能适宜、渐进地进行无缝结合。

整个网络是端到端训练的，本文在三个子模块中都采用了GAN[5]结构来帮助生成更真实合理的结果。本文的方法不仅可以完成同语种的编辑任务，还可以完成跨语种编辑以及文字擦除任务。

由于真实图片中不存在成对的数据集，本文采用合成数据进行训练，在真实场景图片中进行测试。

三、主要实验结果及可视化结果

图4 英文短词转换效果图

图5 英文长词转换效果图

图6 变长英文单词转换效果图

图7 其他方法视觉对比图

图8 文字擦除效果图

图9 英-中翻译效果图

表1 定量评价结果

本文在ICDAR2013真实场景数据集上测试了方法的效果。图4图5图6分别展示了源文字目标文字都是英文情况下，都为短词、都为长词、前后单词长度不一的编辑效果。图7展示了本文的方法与经典图片翻译算法pix2pix的效果对比。

图8展示了本文提出方法的词条级文字擦除能力。图9展示了源文字为英文，目标文字为中文的跨语种翻译效果。表1通过在l2 error、PSNR、SSIM、seq_acc（编辑后识别准确率）等指标上定量分析对比，证明了本文提出方法的优越性。

四、总结及讨论

本文提出了一种用于自然场景文本编辑任务的端到端网络，它可以在保持场景文本图像原有风格的同时，替换其中的文字内容，并与原图片达到一致的可视化效果。

实现这一功能主要分为三个步骤：

（1）在骨架的帮助下，提取前景文字风格特征，并将其转换到输入文本上；

（2）擦除风格图片中的文字并用合适的纹理修复，得到背景图像；

（3）将被转换的文本与已擦除的背景合并。

本文的方法在主观视觉真实性和客观定量评分方面取得了优异的结果。同时，该网络还具有文本擦除和跨语言编辑的能力，本文通过全面的ablation study验证了提出网络SRNet的有效性。

五、相关资源

Editing Text in the Wild 论文地址:https://arxiv.org/pdf/1908.03047.pdf

Multi-Content GAN for Few-Shot Font Style Transfer 论文地址: https://arxiv.org/pdf/1712.00516.pdf

Image-to-Image Translationwith Conditional Adversarial Networks 论文地址:https://arxiv.org/pdf/1611.07004.pdf

EnsNet: Ensconce Text in the Wild 论文地址:https://arxiv.org/pdf/1812.00723.pdf

参考文献

[1] Samaneh Azadi,Matthew Fisher, Vladimir Kim, Zhaowen Wang, Eli Shechtman, and Trevor Darrell. 2018. Multi-content gan for few-shot font style transfer.In CVPR. 7564–7573.

[2] Shuai Yang, Jiaying Liu, Wenjing Wang, and Zongming Guo, 2019. Tet-gan: Text effectstransfer via stylization and destylization. In AAAI, Vol. 33. 1238–1245.

[3] Shuai Yang, Jiaying Liu, Wenhan Yang, and Zongming Guo. 2018. Context-AwareUnsupervised Text Stylization. In ACM Multimedia. ACM, 1688–1696.

[4] Olaf Ronneberger, Philipp Fischer, and Thomas Brox, 2015. U-net:Convolutional networks for biomedical image segmentation. In MICCAI. Springer,234–241.

[5] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014. Generative adversarial nets. InNeurIPS. 2672–2680.

[6] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros, 2017. Image-to- imagetranslation with conditional adversarial networks. In CVPR. 1125–1134.

[7] Shuaitao Zhang, Yuliang Liu, Lianwen Jin, Yaoxiong Huang,and Songxuan Lai, 2019. EnsNet: Ensconce text in the wild. In AAAI, Vol. 33. 801–808.

原文作者：Liang Wu, Chengquan Zhang, Jiaming Liu, Junyu Han, Jingtuo Liu, Errui Ding, Xiang Bai

撰稿：吴亮，章成全

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

OCR交流群

OCR交流群是52CV最活跃的技术交流群之一，关注文本检测、识别、风格化、文本编辑相关技术，聚集了大量学术界和产业界的朋友，扫码添加CV君拉你入群，（如已为CV君其他账号好友请直接私信）

（请务必注明：OCR）