DeepGraphLearning
diff --git a/‎torchdrug/layers/__init__.py‎
Lines changed: 11 additions & 5 deletions b/‎torchdrug/layers/__init__.py‎
Lines changed: 11 additions & 5 deletions
diff --git a/‎torchdrug/layers/block.py‎
Lines changed: 167 additions & 0 deletions b/‎torchdrug/layers/block.py‎
Lines changed: 167 additions & 0 deletions
diff --git a/‎torchdrug/layers/common.py‎
Lines changed: 16 additions & 2 deletions b/‎torchdrug/layers/common.py‎
Lines changed: 16 additions & 2 deletions
diff --git a/‎torchdrug/layers/conv.py‎
Lines changed: 53 additions & 0 deletions b/‎torchdrug/layers/conv.py‎
Lines changed: 53 additions & 0 deletions
diff --git a/‎torchdrug/layers/functional/functional.py‎
Lines changed: 6 additions & 3 deletions b/‎torchdrug/layers/functional/functional.py‎
Lines changed: 6 additions & 3 deletions
diff --git a/‎torchdrug/layers/geometry/__init__.py‎
Lines changed: 9 additions & 0 deletions b/‎torchdrug/layers/geometry/__init__.py‎
Lines changed: 9 additions & 0 deletions
@@ -1,11 +1,14 @@
-from .common import MultiLayerPerceptron, GaussianSmearing, MutualInformation, PairNorm, InstanceNorm, Sequential
+from .common import MultiLayerPerceptron, GaussianSmearing, MutualInformation, PairNorm, InstanceNorm, Sequential, \
+    SinusoidalPositionEmbedding
 
+from .block import ProteinResNetBlock, SelfAttentionBlock, ProteinBERTBlock
 from .conv import MessagePassingBase, GraphConv, GraphAttentionConv, RelationalGraphConv, GraphIsomorphismConv, \
-    NeuralFingerprintConv, ContinuousFilterConv, MessagePassing, ChebyshevConv
+    NeuralFingerprintConv, ContinuousFilterConv, MessagePassing, ChebyshevConv, GeometricRelationalGraphConv
 from .pool import DiffPool, MinCutPool
-from .readout import MeanReadout, SumReadout, MaxReadout, Softmax, Set2Set, Sort
+from .readout import MeanReadout, SumReadout, MaxReadout, AttentionReadout, Softmax, Set2Set, Sort
 from .flow import ConditionalFlow
 from .sampler import NodeSampler, EdgeSampler
+from .geometry import GraphConstruction, SpatialLineGraph
 from . import distribution, functional
 
 # alias
@@ -20,12 +23,15 @@
 
 __all__ = [
     "MultiLayerPerceptron", "GaussianSmearing", "MutualInformation", "PairNorm", "InstanceNorm", "Sequential",
+    "SinusoidalPositionEmbedding",
     "MessagePassingBase", "GraphConv", "GraphAttentionConv", "RelationalGraphConv", "GraphIsomorphismConv",
-    "NeuralFingerprintConv", "ContinuousFilterConv", "MessagePassing", "ChebyshevConv",
+    "NeuralFingerprintConv", "ContinuousFilterConv", "MessagePassing", "ChebyshevConv", "GeometricRelationalGraphConv",
     "DiffPool", "MinCutPool",
-    "MeanReadout", "SumReadout", "MaxReadout", "Softmax", "Set2Set", "Sort",
+    "MeanReadout", "SumReadout", "MaxReadout", "AttentionReadout", "Softmax", "Set2Set", "Sort",
     "ConditionalFlow",
     "NodeSampler", "EdgeSampler",
+    "GraphConstruction", "SpatialLineGraph",
     "distribution", "functional",
     "MLP", "RBF", "GCNConv", "RGCNConv", "GINConv", "NFPConv", "CFConv", "MPConv",
+    "ProteinResNetBlock", "SelfAttentionBlock", "ProteinBERTBlock",
 ]
@@ -0,0 +1,167 @@
+from torch import nn
+from torch.nn import functional as F
+
+from torchdrug import layers
+
+
+class ProteinResNetBlock(nn.Module):
+    """
+    Convolutional block with residual connection from `Deep Residual Learning for Image Recognition`_.
+
+    .. _Deep Residual Learning for Image Recognition:
+        https://arxiv.org/pdf/1512.03385.pdf
+
+    Parameters:
+        input_dim (int): input dimension
+        output_dim (int): output dimension
+        kernel_size (int, optional): size of convolutional kernel
+        stride (int, optional): stride of convolution
+        padding (int, optional): padding added to both sides of the input
+        activation (str or function, optional): activation function
+    """
+
+    def __init__(self, input_dim, output_dim, kernel_size=3, stride=1, padding=1, activation="gelu"):
+        super(ProteinResNetBlock, self).__init__()
+        self.input_dim = input_dim
+        self.output_dim = output_dim
+
+        if isinstance(activation, str):
+            self.activation = getattr(F, activation)
+        else:
+            self.activation = activation
+
+        self.conv1 = nn.Conv1d(input_dim, output_dim, kernel_size, stride, padding, bias=False)
+        self.layer_norm1 = nn.LayerNorm(output_dim)
+        self.conv2 = nn.Conv1d(output_dim, output_dim, kernel_size, stride, padding, bias=False)
+        self.layer_norm2 = nn.LayerNorm(output_dim)
+
+    def forward(self, input, mask):
+        """
+        Perform 1D convolutions over the input.
+
+        Parameters:
+            input (Tensor): input representations of shape `(..., length, dim)`
+            mask (Tensor): bool mask of shape `(..., length, dim)`
+        """
+        identity = input
+
+        input = input * mask    # (B, L, d)
+        out = self.conv1(input.transpose(1, 2)).transpose(1, 2)
+        out = self.layer_norm1(out)
+        out = self.activation(out)
+
+        out = out * mask
+        out = self.conv2(out.transpose(1, 2)).transpose(1, 2)
+        out = self.layer_norm2(out)
+
+        out += identity
+        out = self.activation(out)
+
+        return out
+
+
+class SelfAttentionBlock(nn.Module):
+    """
+    Multi-head self-attention block from
+    `Attention Is All You Need`_.
+
+    .. _Attention Is All You Need:
+        https://arxiv.org/pdf/1706.03762.pdf
+
+    Parameters:
+        hidden_dim (int): hidden dimension
+        num_heads (int): number of attention heads
+        dropout (float, optional): dropout ratio of attention maps
+    """
+
+    def __init__(self, hidden_dim, num_heads, dropout=0.0):
+        super(SelfAttentionBlock, self).__init__()
+        if hidden_dim % num_heads != 0:
+            raise ValueError(
+                "The hidden size (%d) is not a multiple of the number of attention "
+                "heads (%d)" % (hidden_dim, num_heads))
+        self.hidden_dim = hidden_dim
+        self.num_heads = num_heads
+        self.head_size = hidden_dim // num_heads
+
+        self.query = nn.Linear(hidden_dim, hidden_dim)
+        self.key = nn.Linear(hidden_dim, hidden_dim)
+        self.value = nn.Linear(hidden_dim, hidden_dim)
+
+        self.attn = nn.MultiheadAttention(hidden_dim, num_heads, dropout=dropout)
+
+    def forward(self, input, mask):
+        """
+        Perform self attention over the input.
+
+        Parameters:
+            input (Tensor): input representations of shape `(..., length, dim)`
+            mask (Tensor): bool mask of shape `(..., length)`
+        """
+        query = self.query(input).transpose(0, 1)
+        key = self.key(input).transpose(0, 1)
+        value = self.value(input).transpose(0, 1)
+
+        mask = (~mask.bool()).squeeze(-1)
+        output = self.attn(query, key, value, key_padding_mask=mask)[0].transpose(0, 1)
+
+        return output
+
+
+class ProteinBERTBlock(nn.Module):
+    """
+    Transformer encoding block from
+    `Attention Is All You Need`_.
+
+    .. _Attention Is All You Need:
+        https://arxiv.org/pdf/1706.03762.pdf
+
+    Parameters:
+        input_dim (int): input dimension
+        hidden_dim (int): hidden dimension
+        num_heads (int): number of attention heads
+        attention_dropout (float, optional): dropout ratio of attention maps
+        hidden_dropout (float, optional): dropout ratio of hidden features
+        activation (str or function, optional): activation function
+    """
+
+    def __init__(self, input_dim, hidden_dim, num_heads, attention_dropout=0,
+                 hidden_dropout=0, activation="relu"):
+        super(ProteinBERTBlock, self).__init__()
+        self.input_dim = input_dim
+        self.num_heads = num_heads
+        self.attention_dropout = attention_dropout
+        self.hidden_dropout = hidden_dropout
+        self.hidden_dim = hidden_dim
+        
+        self.attention = SelfAttentionBlock(input_dim, num_heads, attention_dropout)
+        self.linear1 = nn.Linear(input_dim, input_dim)
+        self.dropout1 = nn.Dropout(hidden_dropout)
+        self.layer_norm1 = nn.LayerNorm(input_dim)
+
+        self.intermediate = layers.MultiLayerPerceptron(input_dim, hidden_dim, activation=activation)
+
+        self.linear2 = nn.Linear(hidden_dim, input_dim)
+        self.dropout2 = nn.Dropout(hidden_dropout)
+        self.layer_norm2 = nn.LayerNorm(input_dim)
+            
+    def forward(self, input, mask):
+        """
+        Perform a BERT-block transformation over the input.
+
+        Parameters:
+            input (Tensor): input representations of shape `(..., length, dim)`
+            mask (Tensor): bool mask of shape `(..., length)`
+        """
+        x = self.attention(input, mask)
+        x = self.linear1(x)
+        x = self.dropout1(x)
+        x = self.layer_norm1(x + input)
+
+        hidden = self.intermediate(x)
+
+        hidden = self.linear2(hidden)
+        hidden = self.dropout2(hidden)
+        output = self.layer_norm2(hidden + x)
+
+        return output
@@ -13,7 +13,6 @@
 class MultiLayerPerceptron(nn.Module):
     """
     Multi-layer Perceptron.
-
     Note there is no batch normalization, activation or dropout in the last layer.
 
     Parameters:
@@ -322,4 +321,19 @@ def forward(self, *args, **kwargs):
             else:
                 args.append(output)
 
-        return output
+        return output
+
+
+class SinusoidalPositionEmbedding(nn.Module):
+
+    def __init__(self, output_dim):
+        super(SinusoidalPositionEmbedding, self).__init__()
+        inverse_frequency = 1 / (10000 ** (torch.arange(0.0, output_dim, 2.0) / output_dim))
+        self.register_buffer("inverse_frequency", inverse_frequency)
+
+    def forward(self, input):
+        # input: [B, L, ...]
+        positions = torch.arange(input.shape[1] - 1, -1, -1.0, dtype=input.dtype, device=input.device)
+        sinusoidal_input = torch.outer(positions, self.inverse_frequency)
+        position_embedding = torch.cat([sinusoidal_input.sin(), sinusoidal_input.cos()], -1)
+        return position_embedding
@@ -779,3 +779,56 @@ def forward(self, graph, input):
     def combine(self, input, update):
         output = input + update
         return output
+
+
+class GeometricRelationalGraphConv(RelationalGraphConv):
+    """
+    Geometry-aware relational graph convolution operator from
+    `Protein Representation Learning by Geometric Structure Pretraining`_.
+
+    .. _Protein Representation Learning by Geometric Structure Pretraining:
+        https://arxiv.org/pdf/2203.06125.pdf
+
+    Parameters:
+        input_dim (int): input dimension
+        output_dim (int): output dimension
+        num_relation (int): number of relations
+        edge_input_dim (int, optional): dimension of edge features
+        batch_norm (bool, optional): apply batch normalization on nodes or not
+        activation (str or function, optional): activation function
+    """
+
+    def __init__(self, input_dim, output_dim, num_relation, edge_input_dim=None, batch_norm=False, activation="relu"):
+        super(GeometricRelationalGraphConv, self).__init__(input_dim, output_dim, num_relation, edge_input_dim,
+                                                           batch_norm, activation)
+
+    def aggregate(self, graph, message):
+        assert graph.num_relation == self.num_relation
+
+        node_out = graph.edge_list[:, 1] * self.num_relation + graph.edge_list[:, 2]
+        edge_weight = graph.edge_weight.unsqueeze(-1)
+        update = scatter_add(message * edge_weight, node_out, dim=0, dim_size=graph.num_node * self.num_relation)
+        update = update.view(graph.num_node, self.num_relation * self.input_dim)
+
+        return update
+
+    def message_and_aggregate(self, graph, input):
+        assert graph.num_relation == self.num_relation
+
+        node_in, node_out, relation = graph.edge_list.t()
+        node_out = node_out * self.num_relation + relation
+        adjacency = utils.sparse_coo_tensor(torch.stack([node_in, node_out]), graph.edge_weight,
+                                            (graph.num_node, graph.num_node * graph.num_relation))
+        update = torch.sparse.mm(adjacency.t(), input)
+        if self.edge_linear:
+            edge_input = graph.edge_feature.float()
+            if self.edge_linear.in_features > self.edge_linear.out_features:
+                edge_input = self.edge_linear(edge_input)
+            edge_weight = graph.edge_weight.unsqueeze(-1)
+            edge_update = scatter_add(edge_input * edge_weight, node_out, dim=0,
+                                      dim_size=graph.num_node * graph.num_relation)
+            if self.edge_linear.in_features <= self.edge_linear.out_features:
+                edge_update = self.edge_linear(edge_update)
+            update += edge_update
+
+        return update.view(graph.num_node, self.num_relation * self.input_dim)
@@ -375,7 +375,7 @@ def variadic_sort(input, size, descending=False):
         input (Tensor): input of shape :math:`(B, ...)`
         size (LongTensor): size of sets of shape :math:`(N,)`
         descending (bool, optional): return ascending or descending order
-
+    
     Returns
         (Tensor, LongTensor): sorted values and indexes
     """
@@ -385,8 +385,11 @@ def variadic_sort(input, size, descending=False):
     mask = ~torch.isinf(input)
     max = input[mask].max().item()
     min = input[mask].min().item()
-    safe_input = input.clamp(2 * min - max, 2 * max - min)
-    offset = (max - min) * 4
+    abs_max = input[mask].abs().max().item()
+    # special case: max = min
+    gap = max - min + abs_max * 1e-6
+    safe_input = input.clamp(min - gap, max + gap)
+    offset = gap * 4
     if descending:
         offset = -offset
     input_ext = safe_input + offset * index2sample
 
@@ -0,0 +1,9 @@
+from .graph import GraphConstruction, SpatialLineGraph
+from .function import BondEdge, KNNEdge, SpatialEdge, SequentialEdge, AlphaCarbonNode, \
+    IdentityNode, RandomEdgeMask, SubsequenceNode, SubspaceNode
+
+__all__ = [
+    "GraphConstruction", "SpatialLineGraph",
+    "BondEdge", "KNNEdge", "SpatialEdge", "SequentialEdge", "AlphaCarbonNode",
+    "IdentityNode", "RandomEdgeMask", "SubsequenceNode", "SubspaceNode"
+]