《Learning to Warp for Style Transfer》

Posted on 2022-06-09 Edited on 2022-06-11 In paper review

任务
出发点
创新点
相关工作
- Texture NST
- Geometric NST
做法

paper: Learning To Warp for Style Transfer (thecvf.com)

code: https://github.com/xch-liu/learning-warp-st

任务

NST（neural style transfer）

出发点

大多数风格迁移只考虑了迁移纹理信息，而为关注在艺术层面的几何扭曲。

本文考虑使用深度神经网络进行图像样式化的问题，特别关注艺术扭曲。

创新点

在CycleGAN上加入了感知损失（perceptual loss）,能更好的关注面部的语义信息（眼睛、鼻子）;

使生成模型和识别模型相互优化，生成模型迭代生成更好的图像，Triplet Loss训识别模型；

与其他扭曲迁移模型的区别：

不同于The face of art: Landmark detection and geometric style in portraits和WarpGAN，其不限于单个语义类别；

不同于Deformable style transfer依赖前向和后向优化，其专门设计了前馈网络，以输出给定内容和几何图像的扭曲字段；

比Deformable style transfer快；

与Geometric style transfer仅限于参数化扭曲字段不同，其生成的是非参数化扭曲；

与Geometric style transfer以外的其他NST算法不同，其支持使用两幅图像来指定样式，这为图像创建增加了其他NST算法所没有的多功能性。

做法

输入要求：

1）一张要被迁移的content图像Ic

2）一张指导几何迁移的图像Ig

3）一张指导纹理迁移的图像It

Ig和It可以是同一张

total pipeline如下（一个warper 一个styler）

Geometric Style（Warper）

其关键思想是训练一个能够推断二维扭曲场w的神经网络，并创建一个衡量特征相似性的四维标量函数M。

有三个主要组成部分：

1）特征提取：分别获取 Fg 和 Fc

2）特征融合：来衡量特征相似度 M(Fc,Fg)

3）训练warp网络输出函数 f 使得 w = f(M)，一旦训完，网络 f 可以在新输入上使用，无需修改，（即得到了一个通用的Warp Field Estimation用来估计warp degree）本文所有输出都是单个warper生成的。

定义warp field的w是非参数化的，不对分布做假设，就是一些统计量，不用网络进行分布的约束。

Feature Extraction

使用VGG，提取pool4出来的特征，接一个L2 normalization。输出的 F 是 W * H 的特征图，本文中是16 * 16，文中说是平衡了计算效率和扭曲质量得出的结果。

Feature Correlation

此模块计算feature map在每个pixel上的特征关联分数，结果存储在四维标量函数 M 中,M∈R W×H×W×H，其中的每个元素的计算规则如下：

Fc 是content图像提取的feature；

Fg是geometric图像提取的feature；

i，j 对应Fc中的pix坐标

k，l 对应Fg中pix的坐标

分母为遍历Fg上的每个pix与Fc( i , j ) 做内积求平方开根；

分子为Fc（i，j）与Fg（k，l）做内积。

个人理解：这个统计量表示了每个两个feature间的关联性特征量。

Warp Network: Training and Using

本文在技术上的贡献为其训练了一个 f 来输出非参数化的warp field（w）。

输入feature correlation（M），该步骤可以表示为 w = f (M)，形式化定义这层mapping：

W1 , H1是图像尺寸，最终warp module输出根据Ig的几何形变warp后的Ic。

原则上不需要进行训练，因为如下的优化问题对于任何的图像对的数据都足够解决：

h是一个度量函数。

此基于优化的方式来自于DST，但与直接从经过训练的网络计算扭曲场相比，单实例优化速度较慢。（本文没采用基于优化的方式，而是单独训练了一个网络）

本文网络使用一组语义相关或具有几何相似部分的图像对进行训练。图像对涵盖了广泛的语义内容：人脸、动物等。为了提高模型在艺术领域的泛化能力，我们使用艺术增强来创建每个训练图像的纹理增强副本。经过训练后，变形网络可以应用于任何图像，无论其语义内容如何。

其基本思想是局部移动内容图像中的像素，并重新计算新扭曲图像中的特征，直到loss收敛

定义Fm来表示受像素m影响的

这个最终的softmax归一化输出代表每个content图像的pixel在每个扭曲图像中的search window中的关联程度

个人最终理解：

输入扭曲图像和内容图像（待扭曲图像），使用VGG提取feature map，warp field矩阵扭曲Fc矩阵，与Fg矩阵进行feature matching计算一个关联度四维统计量，输入warp field estimator（神经网络），最小化每个pixel和其扭曲图像相应search window的关联度统计量来使得内容图像尽可能扭曲成目标扭曲样式；神经网络更新参数，输出更好的warp field，循环优化网络，直至达到良好的扭曲效果。

前半部分机器学习，后半部分深度学习，这样warp field可以直接通过网络inference出来，速度提升。

Texture Style（Styler）

最小化content loss 和 texture loss，二者依赖于用于目标检测而训练的模型，本文唯一不同在于采取多尺度策略，优先将纹理随着细节的增加转移到输出图像的不同区域。几十年来，这种策略一直用于规定性纹理合成，最近用于仅纹理的NST，有助于改善风格转换结果。在本文工作中，利用它来解决由于几何扭曲而产生的模糊和其他瑕疵。

此部分不做详解

实现细节

warper在PF-PASCAL和MS COCO数据集上训练，可训练网络结构不大，单卡训了2小时

《Learning to Warp for Style Transfer》

任务

出发点

创新点

相关工作

Texture NST

在线优化的形式

离线优化的形式

其他变式

Geometric NST

做法