fastnlp
diff --git a/‎.Jenkinsfile‎
Lines changed: 1 addition & 1 deletion b/‎.Jenkinsfile‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎.travis.yml‎
Lines changed: 1 addition & 1 deletion b/‎.travis.yml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎MANIFEST.in‎
Lines changed: 1 addition & 1 deletion b/‎MANIFEST.in‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎fastNLP/embeddings/bert_embedding.py‎
Lines changed: 18 additions & 6 deletions b/‎fastNLP/embeddings/bert_embedding.py‎
Lines changed: 18 additions & 6 deletions
diff --git a/‎fastNLP/embeddings/roberta_embedding.py‎
Lines changed: 17 additions & 7 deletions b/‎fastNLP/embeddings/roberta_embedding.py‎
Lines changed: 17 additions & 7 deletions
diff --git a/‎fastNLP/modules/encoder/bert.py‎
Lines changed: 15 additions & 3 deletions b/‎fastNLP/modules/encoder/bert.py‎
Lines changed: 15 additions & 3 deletions
diff --git a/‎fastNLP/modules/encoder/roberta.py‎
Lines changed: 2 additions & 2 deletions b/‎fastNLP/modules/encoder/roberta.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎fastNLP/modules/encoder/seq2seq_encoder.py‎
Lines changed: 1 addition & 1 deletion b/‎fastNLP/modules/encoder/seq2seq_encoder.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎test/__init__.py‎ renamed to ‎tests/__init__.py‎ b/‎test/__init__.py‎ renamed to ‎tests/__init__.py‎
diff --git a/‎test/core/__init__.py‎ renamed to ‎tests/core/__init__.py‎ b/‎test/core/__init__.py‎ renamed to ‎tests/core/__init__.py‎
@@ -29,7 +29,7 @@ pipeline {
                     steps {
                         sh 'python -m spacy download en'
                         sh 'pip install fitlog'
-                        sh 'pytest ./test --html=test_results.html --self-contained-html'
+                        sh 'pytest ./tests --html=test_results.html --self-contained-html'
                     }
                 }
             }
 
@@ -14,7 +14,7 @@ install:
 # command to run tests
 script:
   - python -m spacy download en
-  - pytest --cov=fastNLP test/
+  - pytest --cov=fastNLP tests/
 
 after_success:
   - bash <(curl -s https://codecov.io/bash)
 
@@ -1,7 +1,7 @@
 include requirements.txt
 include LICENSE
 include README.md
-prune test/
+prune tests/
 prune reproduction/
 prune fastNLP/api
 prune fastNLP/automl
@@ -93,7 +93,7 @@ def __init__(self, vocab: Vocabulary, model_dir_or_name: str = 'en-base-uncased'
         """
         super(BertEmbedding, self).__init__(vocab, word_dropout=word_dropout, dropout=dropout)
 
-        if word_dropout>0:
+        if word_dropout > 0:
             assert vocab.unknown != None, "When word_drop>0, Vocabulary must contain the unknown token."
 
         if model_dir_or_name.lower() in PRETRAINED_BERT_MODEL_DIR:
@@ -370,17 +370,29 @@ def __init__(self, model_dir_or_name: str, vocab: Vocabulary, layers: str = '-1'
                  include_cls_sep: bool = False, pooled_cls: bool = False, auto_truncate: bool = False, min_freq=2):
         super().__init__()
 
-        self.tokenzier = BertTokenizer.from_pretrained(model_dir_or_name)
-        self.encoder = BertModel.from_pretrained(model_dir_or_name)
-        self._max_position_embeddings = self.encoder.config.max_position_embeddings
-        #  检查encoder_layer_number是否合理
-        encoder_layer_number = len(self.encoder.encoder.layer)
         if isinstance(layers, list):
             self.layers = [int(l) for l in layers]
         elif isinstance(layers, str):
             self.layers = list(map(int, layers.split(',')))
         else:
             raise TypeError("`layers` only supports str or list[int]")
+        assert len(self.layers) > 0, "There is no layer selected!"
+
+        neg_num_output_layer = -16384
+        pos_num_output_layer = 0
+        for layer in self.layers:
+            if layer < 0:
+                neg_num_output_layer = max(layer, neg_num_output_layer)
+            else:
+                pos_num_output_layer = max(layer, pos_num_output_layer)
+
+        self.tokenzier = BertTokenizer.from_pretrained(model_dir_or_name)
+        self.encoder = BertModel.from_pretrained(model_dir_or_name,
+                                                 neg_num_output_layer=neg_num_output_layer,
+                                                 pos_num_output_layer=pos_num_output_layer)
+        self._max_position_embeddings = self.encoder.config.max_position_embeddings
+        #  检查encoder_layer_number是否合理
+        encoder_layer_number = len(self.encoder.encoder.layer)
         for layer in self.layers:
             if layer < 0:
                 assert -layer <= encoder_layer_number, f"The layer index:{layer} is out of scope for " \
 
@@ -196,20 +196,30 @@ def __init__(self, model_dir_or_name: str, vocab: Vocabulary, layers: str = '-1'
                  include_cls_sep: bool = False, pooled_cls: bool = False, auto_truncate: bool = False, min_freq=2):
         super().__init__()
 
-        self.tokenizer = RobertaTokenizer.from_pretrained(model_dir_or_name)
-        self.encoder = RobertaModel.from_pretrained(model_dir_or_name)
-        # 由于RobertaEmbedding中设置了padding_idx为1, 且使用了非常神奇的position计算方式，所以-2
-        self._max_position_embeddings = self.encoder.config.max_position_embeddings - 2
-        #  检查encoder_layer_number是否合理
-        encoder_layer_number = len(self.encoder.encoder.layer)
-
         if isinstance(layers, list):
             self.layers = [int(l) for l in layers]
         elif isinstance(layers, str):
             self.layers = list(map(int, layers.split(',')))
         else:
             raise TypeError("`layers` only supports str or list[int]")
+        assert len(self.layers) > 0, "There is no layer selected!"
+
+        neg_num_output_layer = -16384
+        pos_num_output_layer = 0
+        for layer in self.layers:
+            if layer < 0:
+                neg_num_output_layer = max(layer, neg_num_output_layer)
+            else:
+                pos_num_output_layer = max(layer, pos_num_output_layer)
 
+        self.tokenizer = RobertaTokenizer.from_pretrained(model_dir_or_name)
+        self.encoder = RobertaModel.from_pretrained(model_dir_or_name,
+                                                    neg_num_output_layer=neg_num_output_layer,
+                                                    pos_num_output_layer=pos_num_output_layer)
+        # 由于RobertaEmbedding中设置了padding_idx为1, 且使用了非常神奇的position计算方式，所以-2
+        self._max_position_embeddings = self.encoder.config.max_position_embeddings - 2
+        #  检查encoder_layer_number是否合理
+        encoder_layer_number = len(self.encoder.encoder.layer)
         for layer in self.layers:
             if layer < 0:
                 assert -layer <= encoder_layer_number, f"The layer index:{layer} is out of scope for " \
 
@@ -366,19 +366,28 @@ def forward(self, hidden_states, attention_mask):
 
 
 class BertEncoder(nn.Module):
-    def __init__(self, config):
+    def __init__(self, config, num_output_layer=-1):
         super(BertEncoder, self).__init__()
         layer = BertLayer(config)
         self.layer = nn.ModuleList([copy.deepcopy(layer) for _ in range(config.num_hidden_layers)])
+        num_output_layer = num_output_layer if num_output_layer >= 0 else (len(self.layer) + num_output_layer)
+        self.num_output_layer = max(min(num_output_layer, len(self.layer)), 0)
+        if self.num_output_layer + 1 < len(self.layer):
+            logger.info(f'The transformer encoder will early exit after layer-{self.num_output_layer} '
+                        f'(start from 0)!')
 
     def forward(self, hidden_states, attention_mask, output_all_encoded_layers=True):
         all_encoder_layers = []
-        for layer_module in self.layer:
+        for idx, layer_module in enumerate(self.layer):
+            if idx > self.num_output_layer:
+                break
             hidden_states = layer_module(hidden_states, attention_mask)
             if output_all_encoded_layers:
                 all_encoder_layers.append(hidden_states)
         if not output_all_encoded_layers:
             all_encoder_layers.append(hidden_states)
+        if len(all_encoder_layers) == 0:
+            all_encoder_layers.append(hidden_states)
         return all_encoder_layers
 
 
@@ -435,6 +444,9 @@ def __init__(self, config, *inputs, **kwargs):
         self.config = config
         self.hidden_size = self.config.hidden_size
         self.model_type = 'bert'
+        neg_num_output_layer = kwargs.get('neg_num_output_layer', -1)
+        pos_num_output_layer = kwargs.get('pos_num_output_layer', self.config.num_hidden_layers - 1)
+        self.num_output_layer = max(neg_num_output_layer + self.config.num_hidden_layers, pos_num_output_layer)
         if hasattr(config, 'sinusoidal_pos_embds'):
             self.model_type = 'distilbert'
         elif 'model_type' in kwargs:
@@ -445,7 +457,7 @@ def __init__(self, config, *inputs, **kwargs):
         else:
             self.embeddings = BertEmbeddings(config)
 
-        self.encoder = BertEncoder(config)
+        self.encoder = BertEncoder(config, num_output_layer=self.num_output_layer)
         if self.model_type != 'distilbert':
             self.pooler = BertPooler(config)
         else:
 
@@ -64,8 +64,8 @@ class RobertaModel(BertModel):
     undocumented
     """
 
-    def __init__(self, config):
-        super().__init__(config)
+    def __init__(self, config, *inputs, **kwargs):
+        super().__init__(config, *inputs, **kwargs)
 
         self.embeddings = RobertaEmbeddings(config)
         self.apply(self.init_bert_weights)
 
@@ -132,7 +132,7 @@ def forward(self, tokens, seq_len):
         x = self.input_fc(x)
         x = F.dropout(x, p=self.dropout, training=self.training)
 
-        encoder_mask = seq_len_to_mask(seq_len)
+        encoder_mask = seq_len_to_mask(seq_len, max_len=max_src_len)
         encoder_mask = encoder_mask.to(device)
 
         for layer in self.layer_stacks:
Original file line number	Diff line number	Diff line change
`@@ -29,7 +29,7 @@ pipeline {`
`29`	`29`	`steps {`
`30`	`30`	`sh 'python -m spacy download en'`
`31`	`31`	`sh 'pip install fitlog'`
`32`		`- sh 'pytest ./test --html=test_results.html --self-contained-html'`
	`32`	`+ sh 'pytest ./tests --html=test_results.html --self-contained-html'`
`33`	`33`	`}`
`34`	`34`	`}`
`35`	`35`	`}`