Added Sum-of-Squares Polynomial Flow bijection

Rob Cornish · Rob Cornish · commit 0f449b36259c · 2019-11-06T14:05:10.000Z
Our implementation simply wraps the existing flow inside Pyro.
diff --git a/Pipfile b/Pipfile
@@ -14,6 +14,7 @@ matplotlib = "*"
 tensorboardx = {editable = true,git = "git://github.com/lanpa/tensorboardX.git"}
 pandas = "*"
 pytorch-ignite = "*"
+pyro-ppl = "*"
 
 [requires]
 python_version = "3.7"
diff --git a/Pipfile.lock b/Pipfile.lock
diff --git a/config.py b/config.py
@@ -1,3 +1,4 @@
+import warnings
 import copy
 
 
@@ -10,7 +11,7 @@ def get_config(dataset, model, use_baseline):
 
 
 def get_config_base(dataset, model, use_baseline):
-    if dataset in ["2uniforms", "8gaussians", "checkerboard", "2spirals"]:
+    if dataset in ["2uniforms", "8gaussians", "checkerboard", "2spirals", "rings"]:
         return get_2d_config(dataset, model, use_baseline)
 
     elif dataset in ["power", "gas", "hepmass", "miniboone"]:
@@ -24,7 +25,7 @@ def get_config_base(dataset, model, use_baseline):
 
 
 def get_2d_config(dataset, model, use_baseline):
-    assert model in ["flat-realnvp", "maf"], f"Invalid model {model} for dataset {dataset}"
+    assert model in ["flat-realnvp", "maf", "sos"], f"Invalid model {model} for dataset {dataset}"
 
     if dataset == "2uniforms":
         if use_baseline:
@@ -90,6 +91,16 @@ def get_2d_config(dataset, model, use_baseline):
         "num_test_elbo_samples": 100
     }
 
+    if model == "sos":
+        warnings.warn("Overriding `num_density_layers`")
+        config["num_density_layers"] = 3 if use_baseline else 2
+        config["num_polynomials_per_layer"] = 2
+        config["polynomial_degree"] = 4
+
+        config["st_nets"] = [10] * 2
+        config["p_nets"] = [30] * 4
+        config["q_nets"] =  [30] * 4
+
     return config
 
 
diff --git a/lgf/models/components/bijections/__init__.py b/lgf/models/components/bijections/__init__.py
@@ -35,3 +35,5 @@
     BruteForceInvertible1x1ConvBijection,
     LUInvertible1x1ConvBijection
 )
+
+from .sos import SumOfSquaresPolynomialBijection
diff --git a/lgf/models/components/bijections/made.py b/lgf/models/components/bijections/made.py
@@ -2,29 +2,11 @@
 
 import torch
 import torch.nn as nn
-import torch.nn.functional as F
 
 from .bijection import Bijection
 
 from ..couplers import SharedCoupler
-
-
-class MaskedLinear(nn.Module):
-    def __init__(self, input_degrees, output_degrees):
-        super().__init__()
-
-        assert len(input_degrees.shape) == len(output_degrees.shape) == 1
-
-        num_input_channels = input_degrees.shape[0]
-        num_output_channels = output_degrees.shape[0]
-
-        self.linear = nn.Linear(num_input_channels, num_output_channels)
-
-        mask = output_degrees.view(-1, 1) >= input_degrees
-        self.register_buffer("mask", mask.to(self.linear.weight.dtype))
-
-    def forward(self, inputs):
-        return F.linear(inputs, self.mask*self.linear.weight, self.linear.bias)
+from ..networks import get_ar_mlp
 
 
 class MADEBijection(Bijection):
@@ -36,7 +18,7 @@ def __init__(
     ):
         super().__init__(x_shape=(num_input_channels,), z_shape=(num_input_channels,))
 
-        self.ar_map = self._get_ar_map(
+        self.ar_coupler = self._get_ar_coupler(
             num_input_channels=num_input_channels,
             hidden_channels=hidden_channels,
             activation=activation
@@ -48,7 +30,7 @@ def _z_to_x(self, z, **kwargs):
         x = torch.zeros_like(z)
 
         for dim in range(z.size(1)):
-            result = self.ar_map(x)
+            result = self.ar_coupler(x)
             means = result["shift"]
             log_stds = result["log-scale"]
 
@@ -57,7 +39,7 @@ def _z_to_x(self, z, **kwargs):
         return {"x": x, "log-jac": self._log_jac_z_to_x(log_stds)}
 
     def _x_to_z(self, x, **kwargs):
-        result = self.ar_map(x)
+        result = self.ar_coupler(x)
         means = result["shift"]
         log_stds = result["log-scale"]
 
@@ -71,43 +53,17 @@ def _log_jac_x_to_z(self, log_stds):
     def _log_jac_z_to_x(self, log_stds):
         return -self._log_jac_x_to_z(log_stds)
 
-    def _get_ar_map(
+    def _get_ar_coupler(
             self,
             num_input_channels,
             hidden_channels,
             activation
     ):
         return SharedCoupler(
-            shift_log_scale_net=self._get_ar_mlp(
+            shift_log_scale_net=get_ar_mlp(
                 num_input_channels=num_input_channels,
                 hidden_channels=hidden_channels,
                 num_outputs_per_input=2,
                 activation=activation
             )
         )
-
-    def _get_ar_mlp(
-            self,
-            num_input_channels,
-            hidden_channels,
-            num_outputs_per_input,
-            activation
-    ):
-        assert num_input_channels >= 2
-        assert all([num_input_channels <= d for d in hidden_channels]), "Random initialisation not yet implemented"
-
-        prev_degrees = torch.arange(1, num_input_channels + 1, dtype=torch.int64)
-        layers = []
-
-        for hidden_channels in hidden_channels:
-            degrees = torch.arange(hidden_channels, dtype=torch.int64) % (num_input_channels - 1) + 1
-
-            layers.append(MaskedLinear(prev_degrees, degrees))
-            layers.append(activation())
-
-            prev_degrees = degrees
-
-        degrees = torch.arange(num_input_channels, dtype=torch.int64).repeat(num_outputs_per_input)
-        layers.append(MaskedLinear(prev_degrees, degrees))
-
-        return nn.Sequential(*layers)
diff --git a/lgf/models/components/bijections/sos.py b/lgf/models/components/bijections/sos.py
@@ -0,0 +1,42 @@
+import numpy as np
+
+import torch
+import torch.nn as nn
+
+from pyro.distributions.transforms.polynomial import PolynomialFlow
+from pyro.nn import AutoRegressiveNN
+
+from .bijection import Bijection
+
+
+class SumOfSquaresPolynomialBijection(Bijection):
+    def __init__(
+            self,
+            num_input_channels,
+            hidden_channels,
+            activation,
+            num_polynomials,
+            polynomial_degree,
+    ):
+        super().__init__(x_shape=(num_input_channels,), z_shape=(num_input_channels,))
+
+        arn = AutoRegressiveNN(
+            input_dim=int(num_input_channels),
+            hidden_dims=hidden_channels,
+            param_dims=[(polynomial_degree + 1)*num_polynomials]
+        )
+
+        self.flow = PolynomialFlow(
+            autoregressive_nn=arn,
+            input_dim=int(num_input_channels),
+            count_degree=polynomial_degree,
+            count_sum=num_polynomials
+        )
+
+    def _x_to_z(self, x):
+        z = self.flow._call(x)
+        log_jac = self.flow.log_abs_det_jacobian(None, None).view(x.shape[0], 1)
+        return {
+            "z": z,
+            "log-jac": log_jac
+        }
diff --git a/lgf/models/components/networks.py b/lgf/models/components/networks.py
@@ -1,5 +1,6 @@
 import torch
 import torch.nn as nn
+import torch.nn.functional as F
 
 
 class ConstantNetwork(nn.Module):
@@ -96,27 +97,6 @@ def get_resnet(
     )
 
 
-def get_mlp(
-        num_input_channels,
-        hidden_channels,
-        num_output_channels,
-        activation,
-        log_softmax_outputs=False
-):
-    layers = []
-    prev_num_hidden_channels = num_input_channels
-    for num_hidden_channels in hidden_channels:
-        layers.append(nn.Linear(prev_num_hidden_channels, num_hidden_channels))
-        layers.append(activation())
-        prev_num_hidden_channels = num_hidden_channels
-    layers.append(nn.Linear(prev_num_hidden_channels, num_output_channels))
-
-    if log_softmax_outputs:
-        layers.append(nn.LogSoftmax(dim=1))
-
-    return nn.Sequential(*layers)
-
-
 def get_glow_cnn(num_input_channels, num_hidden_channels, num_output_channels):
     conv1 = nn.Conv2d(
         in_channels=num_input_channels,
@@ -149,3 +129,68 @@ def get_glow_cnn(num_input_channels, num_hidden_channels, num_output_channels):
     relu = nn.ReLU()
 
     return nn.Sequential(conv1, bn1, relu, conv2, bn2, relu, conv3)
+
+
+def get_mlp(
+        num_input_channels,
+        hidden_channels,
+        num_output_channels,
+        activation,
+        log_softmax_outputs=False
+):
+    layers = []
+    prev_num_hidden_channels = num_input_channels
+    for num_hidden_channels in hidden_channels:
+        layers.append(nn.Linear(prev_num_hidden_channels, num_hidden_channels))
+        layers.append(activation())
+        prev_num_hidden_channels = num_hidden_channels
+    layers.append(nn.Linear(prev_num_hidden_channels, num_output_channels))
+
+    if log_softmax_outputs:
+        layers.append(nn.LogSoftmax(dim=1))
+
+    return nn.Sequential(*layers)
+
+
+class MaskedLinear(nn.Module):
+    def __init__(self, input_degrees, output_degrees):
+        super().__init__()
+
+        assert len(input_degrees.shape) == len(output_degrees.shape) == 1
+
+        num_input_channels = input_degrees.shape[0]
+        num_output_channels = output_degrees.shape[0]
+
+        self.linear = nn.Linear(num_input_channels, num_output_channels)
+
+        mask = output_degrees.view(-1, 1) >= input_degrees
+        self.register_buffer("mask", mask.to(self.linear.weight.dtype))
+
+    def forward(self, inputs):
+        return F.linear(inputs, self.mask*self.linear.weight, self.linear.bias)
+
+
+def get_ar_mlp(
+        num_input_channels,
+        hidden_channels,
+        num_outputs_per_input,
+        activation
+):
+    assert num_input_channels >= 2
+    assert all([num_input_channels <= d for d in hidden_channels]), "Random initialisation not yet implemented"
+
+    prev_degrees = torch.arange(1, num_input_channels + 1, dtype=torch.int64)
+    layers = []
+
+    for hidden_channels in hidden_channels:
+        degrees = torch.arange(hidden_channels, dtype=torch.int64) % (num_input_channels - 1) + 1
+
+        layers.append(MaskedLinear(prev_degrees, degrees))
+        layers.append(activation())
+
+        prev_degrees = degrees
+
+    degrees = torch.arange(num_input_channels, dtype=torch.int64).repeat(num_outputs_per_input)
+    layers.append(MaskedLinear(prev_degrees, degrees))
+
+    return nn.Sequential(*layers)
diff --git a/lgf/models/factory.py b/lgf/models/factory.py
@@ -18,7 +18,8 @@
     ViewBijection,
     ConditionalAffineBijection,
     BruteForceInvertible1x1ConvBijection,
-    LUInvertible1x1ConvBijection
+    LUInvertible1x1ConvBijection,
+    SumOfSquaresPolynomialBijection
 )
 from .components.densities import (
     DiagonalGaussianDensity,
@@ -157,6 +158,16 @@ def get_bijection(
         else:
             return BruteForceInvertible1x1ConvBijection(x_shape=x_shape)
 
+    elif layer_config["type"] == "sos":
+        assert len(x_shape) == 1
+        return SumOfSquaresPolynomialBijection(
+            num_input_channels=x_shape[0],
+            hidden_channels=layer_config["hidden_channels"],
+            activation=get_activation(layer_config["activation"]),
+            num_polynomials=layer_config["num_polynomials"],
+            polynomial_degree=layer_config["polynomial_degree"],
+        )
+
     else:
         assert False, f"Invalid layer type {layer_config['type']}"
 
diff --git a/lgf/models/schemas.py b/lgf/models/schemas.py
@@ -1,6 +1,6 @@
 def get_schema(config):
     model = config["model"] 
-    if model in ["glow", "multiscale-realnvp", "flat-realnvp", "maf"]:
+    if model in ["glow", "multiscale-realnvp", "flat-realnvp", "maf", "sos"]:
         return get_schema_from_base(config)
 
     elif model == "pure-cond-affine-mlp":
@@ -85,6 +85,14 @@ def get_base_schema(config):
             hidden_channels=config["g_hidden_channels"]
         )
 
+    elif model == "sos":
+        return get_sos_schema(
+            num_density_layers=config["num_density_layers"],
+            hidden_channels=config["g_hidden_channels"],
+            num_polynomials_per_layer=config["num_polynomials_per_layer"],
+            polynomial_degree=config["polynomial_degree"],
+        )
+
     elif model == "glow":
         return get_glow_schema(
             num_scales=config["num_scales"],
@@ -163,7 +171,7 @@ def get_coupler_net_config(net_spec, model):
                 "hidden_channels": net_spec
             }
 
-        elif model in ["pure-cond-affine-mlp", "maf", "flat-realnvp"]:
+        elif model in ["pure-cond-affine-mlp", "maf", "flat-realnvp", "sos"]:
             return {
                 "type": "mlp",
                 "activation": "tanh",
@@ -330,3 +338,26 @@ def get_maf_schema(
         ]
 
     return result
+
+
+# TODO: Batch norm?
+# TODO: Flip after each layer?
+def get_sos_schema(
+        num_density_layers,
+        hidden_channels,
+        num_polynomials_per_layer,
+        polynomial_degree
+):
+    return [{"type": "flatten"}] + [
+        {
+            "type": "sos",
+            "hidden_channels": hidden_channels,
+            "activation": "tanh",
+            "num_polynomials": num_polynomials_per_layer,
+            "polynomial_degree": polynomial_degree
+        },
+        {
+            "type": "batch-norm",
+            "per_channel": False # Irrelevant here since we flatten anyway
+        }
+    ] * num_density_layers
diff --git a/main.py b/main.py
@@ -10,7 +10,7 @@
 
 
 parser = argparse.ArgumentParser()
-parser.add_argument("--model", choices=["maf", "flat-realnvp", "multiscale-realnvp", "glow"])
+parser.add_argument("--model", choices=["sos", "maf", "flat-realnvp", "multiscale-realnvp", "glow"])
 parser.add_argument("--dataset", choices=[
     "2uniforms", "8gaussians", "checkerboard", "2spirals",
     "power", "gas", "hepmass", "miniboone",
diff --git a/tests/test_bijection.py b/tests/test_bijection.py
diff --git a/tests/test_neural_nets.py b/tests/test_neural_nets.py

Original file line number	Diff line number	Diff line change
`@@ -35,3 +35,5 @@`
`35`	`35`	`BruteForceInvertible1x1ConvBijection,`
`36`	`36`	`LUInvertible1x1ConvBijection`
`37`	`37`	`)`
	`38`	`+`
	`39`	`+from .sos import SumOfSquaresPolynomialBijection`