facebookresearch
diff --git a/‎configs/captioning/coco/butd.yaml
-37 b/‎configs/captioning/coco/butd.yaml
-37
diff --git a/‎configs/captioning/m4c_textcaps/butd.yaml
+1-37 b/‎configs/captioning/m4c_textcaps/butd.yaml
+1-37
diff --git a/‎configs/captioning/m4c_textcaps/m4c_captioner.yaml
+1-32 b/‎configs/captioning/m4c_textcaps/m4c_captioner.yaml
+1-32
diff --git a/‎configs/captioning/m4c_textcaps/m4c_captioner_coco.yaml
-2 b/‎configs/captioning/m4c_textcaps/m4c_captioner_coco.yaml
-2
diff --git a/‎configs/captioning/m4c_textcaps/m4c_captioner_coco_eval_on_textcaps.yaml
-2 b/‎configs/captioning/m4c_textcaps/m4c_captioner_coco_eval_on_textcaps.yaml
-2
diff --git a/‎configs/captioning/m4c_textcaps/m4c_captioner_coco_textcaps_joint.yaml
-2 b/‎configs/captioning/m4c_textcaps/m4c_captioner_coco_textcaps_joint.yaml
-2
diff --git a/‎configs/captioning/m4c_textcaps/m4c_captioner_without_ocr.yaml
-2 b/‎configs/captioning/m4c_textcaps/m4c_captioner_without_ocr.yaml
-2
diff --git a/‎configs/pythia_bert/cc_pretrain.yaml
-55 b/‎configs/pythia_bert/cc_pretrain.yaml
-55
diff --git a/‎configs/pythia_bert/coco_pretrain.yaml
-57 b/‎configs/pythia_bert/coco_pretrain.yaml
-57
diff --git a/‎configs/pythia_bert/masked_vqa2_pretrain.yaml
-1 b/‎configs/pythia_bert/masked_vqa2_pretrain.yaml
-1
diff --git a/‎configs/pythia_bert/visual_entailment.yaml
-1 b/‎configs/pythia_bert/visual_entailment.yaml
-1
diff --git a/‎configs/pythia_bert/vizwiz.yaml
-1 b/‎configs/pythia_bert/vizwiz.yaml
-1
diff --git a/‎configs/pythia_bert/vqa2.yaml
-1 b/‎configs/pythia_bert/vqa2.yaml
-1
diff --git a/‎configs/vilbert/cc_pretrain.yaml
-4 b/‎configs/vilbert/cc_pretrain.yaml
-4
diff --git a/‎configs/vilbert/coco_pretrain.yaml
-4 b/‎configs/vilbert/coco_pretrain.yaml
-4
diff --git a/‎configs/vilbert/coco_pretrain_train_val.yaml
-4 b/‎configs/vilbert/coco_pretrain_train_val.yaml
-4
diff --git a/‎configs/vilbert/masked_vqa2_pretrain.yaml
-4 b/‎configs/vilbert/masked_vqa2_pretrain.yaml
-4
diff --git a/‎configs/vilbert/masked_vqa2_pretrain_train_val.yaml
-4 b/‎configs/vilbert/masked_vqa2_pretrain_train_val.yaml
-4
diff --git a/‎configs/vilbert/mmimdb.yaml
-4 b/‎configs/vilbert/mmimdb.yaml
-4
diff --git a/‎configs/vilbert/nlvr2.yaml
-4 b/‎configs/vilbert/nlvr2.yaml
-4
diff --git a/‎configs/vilbert/visual_entailment.yaml
-4 b/‎configs/vilbert/visual_entailment.yaml
-4
diff --git a/‎configs/vilbert/vizwiz.yaml
-4 b/‎configs/vilbert/vizwiz.yaml
-4
diff --git a/‎configs/vilbert/vqa2.yaml
-4 b/‎configs/vilbert/vqa2.yaml
-4
diff --git a/‎configs/vilbert/vqa2_train_val.yaml
-4 b/‎configs/vilbert/vqa2_train_val.yaml
-4
diff --git a/‎configs/visual_bert/cc_pretrain.yaml
-3 b/‎configs/visual_bert/cc_pretrain.yaml
-3
@@ -1,40 +1,3 @@
-includes:
-- common/defaults/configs/datasets/captioning/coco.yaml
-model_config:
-  butd: &butd
-    model_data_dir: ../data/
-    metrics:
-    - type: caption_bleu4
-    losses:
-    - type: caption_cross_entropy
-    classifier:
-      type: language_decoder
-      params:
-        dropout: 0.5
-        hidden_dim: 1024
-        feature_dim: 2048
-        fc_bias_init: 0
-    image_feature_embeddings:
-    - modal_combine:
-        type: top_down_attention_lstm
-        params:
-          dropout: 0.5
-          hidden_dim: 1024
-          attention_dim: 1024
-      normalization: softmax
-      transform:
-        type: linear
-        params:
-          out_dim: 1
-    image_feature_dim: 2048
-    embedding_dim: 300
-    image_feature_encodings:
-    - type: finetune_faster_rcnn_fpn_fc7
-      params:
-        bias_file: detectron/fc6/fc7_b.pkl
-        weights_file: detectron/fc6/fc7_w.pkl
-    inference:
-      type: greedy
 optimizer:
   type: Adamax
   params:
 
@@ -1,5 +1,3 @@
-includes:
-- common/defaults/configs/datasets/captioning/coco.yaml
 dataset_config:
   coco:
     image_features:
@@ -43,41 +41,7 @@ dataset_config:
     use_ocr: false
     # Return spatial information of OCR tokens if present
     use_ocr_info: false
-model_config:
-  butd: &butd
-    model_data_dir: ../data/
-    metrics:
-    - type: caption_bleu4
-    losses:
-    - type: caption_cross_entropy
-    classifier:
-      type: language_decoder
-      params:
-        dropout: 0.5
-        hidden_dim: 1024
-        feature_dim: 2048
-        fc_bias_init: 0
-    image_feature_embeddings:
-    - modal_combine:
-        type: top_down_attention_lstm
-        params:
-          dropout: 0.5
-          hidden_dim: 1024
-          attention_dim: 1024
-      normalization: softmax
-      transform:
-        type: linear
-        params:
-          out_dim: 1
-    image_feature_dim: 2048
-    embedding_dim: 300
-    image_feature_encodings:
-    - type: finetune_faster_rcnn_fpn_fc7
-      params:
-        bias_file: detectron/fc6/fc7_b.pkl
-        weights_file: detectron/fc6/fc7_w.pkl
-    inference:
-      type: greedy
+
 optimizer:
   type: Adamax
   params:
 
@@ -1,5 +1,3 @@
-includes:
-- common/defaults/configs/datasets/captioning/m4c_textcaps.yaml
 # Use soft copy
 dataset_config:
   m4c_textcaps:
@@ -43,36 +41,7 @@ dataset_config:
         type: phoc
         params:
           max_length: 50
-model_config:
-  m4c_captioner:
-    lr_scale_frcn: 0.1
-    lr_scale_text_bert: 0.1
-    lr_scale_mmt: 1.0  # no scaling
-    text_bert_init_from_bert_base: true
-    text_bert:
-      num_hidden_layers: 3
-    obj:
-      mmt_in_dim: 2048
-      dropout_prob: 0.1
-    ocr:
-      mmt_in_dim: 3002  # 300 (FastText) + 604 (PHOC) + 2048 (Faster R-CNN) + 50 (all zeros; legacy)
-      dropout_prob: 0.1
-    mmt:
-      hidden_size: 768
-      num_hidden_layers: 4
-    classifier:
-      type: linear
-      ocr_max_num: 50
-      ocr_ptr_net:
-        hidden_size: 768
-        query_key_size: 768
-      params: {}
-    model_data_dir: ../data
-    metrics:
-    - type: textcaps_bleu4
-    losses:
-    - type: m4c_decoding_bce_with_mask
-    remove_unk_in_pred: true
+
 optimizer:
   params:
     eps: 1.0e-08
 
@@ -1,5 +1,3 @@
-includes:
-- common/defaults/configs/datasets/captioning/m4c_textcaps.yaml
 # Use soft copy
 dataset_config:
   m4c_textcaps:
 
@@ -1,5 +1,3 @@
-includes:
-- ../configs/captioning/m4c_textcaps/m4c_captioner_coco.yaml
 dataset_config:
   m4c_textcaps:
     image_features:
 
@@ -1,5 +1,3 @@
-includes:
-- common/defaults/configs/datasets/captioning/m4c_textcaps.yaml
 # Use soft copy
 dataset_config:
   m4c_textcaps:
 
@@ -1,5 +1,3 @@
-includes:
-- common/defaults/configs/datasets/captioning/m4c_textcaps.yaml
 # Use soft copy
 dataset_config:
   m4c_textcaps:
 
@@ -1,60 +1,5 @@
 includes:
 - ../configs/pythia_bert/coco_pretrain.yaml
-- common/defaults/configs/datasets/captioning/masked_cc.yaml
-
-model_config:
-  pythia_bert:
-    combine_embeddings: true
-    model_data_dir: ../data/
-    bert_model_name: bert-base-uncased
-    training_head_type: pretraining
-    visual_embedding_dim: 2048
-    special_visual_initialize: true
-    hard_cap_seq_len: null
-    cut_first: text
-    embedding_strategy: plain
-    bypass_transformer: false
-    output_attentions: false
-    output_hidden_states: false
-    text_only: false
-    random_initialize: false
-    pretrained_bert: true
-    image_intra_attention: true
-    freeze_base: false
-    finetune_lr_multiplier: 1
-    image_feature_embeddings:
-    - embed_dim: 768
-      kdim: 768
-      vdim: 768
-      num_heads: 8
-      dropout: 0.1
-    image_feature_dim: 2048
-    image_feature_projection:
-      module: linear
-      in_dim: 2048
-      out_dim: 768
-    image_feature_encodings:
-    - type: finetune_faster_rcnn_fpn_fc7
-      params:
-        bias_file: /private/home/vedanuj/pythia/data/detectron/resnext152_fc6/fc7_b.pkl
-        weights_file: /private/home/vedanuj/pythia/data/detectron/resnext152_fc6/fc7_w.pkl
-    image_text_modal_combine:
-      type: non_linear_element_multiply
-      params:
-        dropout: 0
-        hidden_dim: 768
-    image_feature_attentions:
-    - embed_dim: 768
-      kdim: 768
-      vdim: 768
-      num_heads: 8
-      dropout: 0.1
-    text_embeddings:
-    - embed_dim: 768
-      kdim: 768
-      vdim: 768
-      num_heads: 8
-      dropout: 0.1
 
 dataset_config:
   masked_cc:
 
@@ -1,60 +1,3 @@
-includes:
-- common/defaults/configs/datasets/captioning/masked_coco.yaml
-
-model_config:
-  pythia_bert:
-    combine_embeddings: true
-    model_data_dir: ../data/
-    bert_model_name: bert-base-uncased
-    training_head_type: pretraining
-    visual_embedding_dim: 2048
-    special_visual_initialize: true
-    hard_cap_seq_len: null
-    cut_first: text
-    embedding_strategy: plain
-    bypass_transformer: false
-    output_attentions: false
-    output_hidden_states: false
-    text_only: false
-    random_initialize: false
-    pretrained_bert: true
-    image_intra_attention: true
-    freeze_base: false
-    finetune_lr_multiplier: 1
-    image_feature_embeddings:
-    - embed_dim: 768
-      kdim: 768
-      vdim: 768
-      num_heads: 8
-      dropout: 0.1
-    image_feature_dim: 2048
-    image_feature_projection:
-      module: linear
-      in_dim: 2048
-      out_dim: 768
-    image_feature_encodings:
-    - type: finetune_faster_rcnn_fpn_fc7
-      params:
-        bias_file: /private/home/vedanuj/pythia/data/detectron/resnext152_fc6/fc7_b.pkl
-        weights_file: /private/home/vedanuj/pythia/data/detectron/resnext152_fc6/fc7_w.pkl
-    image_text_modal_combine:
-      type: non_linear_element_multiply
-      params:
-        dropout: 0
-        hidden_dim: 768
-    image_feature_attentions:
-    - embed_dim: 768
-      kdim: 768
-      vdim: 768
-      num_heads: 8
-      dropout: 0.1
-    text_embeddings:
-    - embed_dim: 768
-      kdim: 768
-      vdim: 768
-      num_heads: 8
-      dropout: 0.1
-
 dataset_config:
   masked_coco:
     return_info: true
 
@@ -1,5 +1,4 @@
 includes:
-- common/defaults/configs/datasets/vqa/masked_vqa2.yaml
 - ../configs/pythia_bert/coco_pretrain.yaml
 
 dataset_config:
 
@@ -1,5 +1,4 @@
 includes:
-- common/defaults/configs/datasets/reasoning/visual_entailment.yaml
 - ../configs/pythia_bert/vqa2.yaml
 
 model_config:
 
@@ -1,5 +1,4 @@
 includes:
-- common/defaults/configs/datasets/vqa/vizwiz.yaml
 - ../configs/pythia_bert/vqa2.yaml
 
 model_config:
 
@@ -1,5 +1,4 @@
 includes:
-- common/defaults/configs/datasets/vqa/vqa2.yaml
 - ../configs/pythia_bert/coco_pretrain.yaml
 
 dataset_config:
 
@@ -1,7 +1,3 @@
-includes:
-- common/defaults/configs/datasets/captioning/masked_cc.yaml
-- common/defaults/configs/models/vilbert.yaml
-
 model_config:
   vilbert:
     training_head_type: pretraining
 
@@ -1,7 +1,3 @@
-includes:
-- common/defaults/configs/datasets/captioning/masked_coco.yaml
-- common/defaults/configs/models/vilbert.yaml
-
 model_config:
   vilbert:
     training_head_type: pretraining
 
@@ -1,7 +1,3 @@
-includes:
-- common/defaults/configs/datasets/captioning/masked_coco.yaml
-- common/defaults/configs/models/vilbert.yaml
-
 dataset_config:
   masked_coco:
     return_info: true
 
@@ -1,7 +1,3 @@
-includes:
-- common/defaults/configs/datasets/vqa/masked_vqa2.yaml
-- common/defaults/configs/models/vilbert.yaml
-
 model_config:
   vilbert:
     training_head_type: pretraining
 
@@ -1,7 +1,3 @@
-includes:
-- common/defaults/configs/datasets/vqa/masked_vqa2.yaml
-- common/defaults/configs/models/vilbert.yaml
-
 model_config:
   vilbert:
     training_head_type: pretraining
 
@@ -1,7 +1,3 @@
-includes:
-- common/defaults/configs/datasets/reasoning/mmimdb.yaml
-- common/defaults/configs/models/vilbert.yaml
-
 model_config:
   vilbert:
     training_head_type: mmimdb
 
@@ -1,7 +1,3 @@
-includes:
-- common/defaults/configs/datasets/reasoning/nlvr2.yaml
-- common/defaults/configs/models/vilbert.yaml
-
 model_config:
   vilbert:
     training_head_type: nlvr2
 
@@ -1,7 +1,3 @@
-includes:
-- common/defaults/configs/datasets/reasoning/visual_entailment.yaml
-- common/defaults/configs/models/vilbert.yaml
-
 model_config:
   vilbert:
     training_head_type: visual_entailment
 
@@ -1,7 +1,3 @@
-includes:
-- common/defaults/configs/datasets/vqa/vizwiz.yaml
-- common/defaults/configs/models/vilbert.yaml
-
 model_config:
   vilbert:
     training_head_type: vizwiz
 
@@ -1,7 +1,3 @@
-includes:
-- common/defaults/configs/datasets/vqa/vqa2.yaml
-- common/defaults/configs/models/vilbert.yaml
-
 model_config:
   vilbert:
     training_head_type: vqa
 
@@ -1,7 +1,3 @@
-includes:
-- common/defaults/configs/datasets/vqa/vqa2.yaml
-- common/defaults/configs/models/vilbert.yaml
-
 model_config:
   vilbert:
     training_head_type: vqa
 
@@ -1,6 +1,3 @@
-includes:
-- common/defaults/configs/datasets/captioning/masked_cc.yaml
-
 model_config:
   visual_bert:
     bert_model_name: bert-base-uncased
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,3 @@`
`1`		`-includes:`
`2`		`-- common/defaults/configs/datasets/captioning/m4c_textcaps.yaml`
`3`	`1`	`# Use soft copy`
`4`	`2`	`dataset_config:`
`5`	`3`	`m4c_textcaps:`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,3 @@`
`1`		`-includes:`
`2`		`-- ../configs/captioning/m4c_textcaps/m4c_captioner_coco.yaml`
`3`	`1`	`dataset_config:`
`4`	`2`	`m4c_textcaps:`
`5`	`3`	`image_features:`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,4 @@`
`1`	`1`	`includes:`
`2`		`-- common/defaults/configs/datasets/vqa/masked_vqa2.yaml`
`3`	`2`	`- ../configs/pythia_bert/coco_pretrain.yaml`
`4`	`3`
`5`	`4`	`dataset_config:`
Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,4 @@`
`1`	`1`	`includes:`
`2`		`-- common/defaults/configs/datasets/reasoning/visual_entailment.yaml`
`3`	`2`	`- ../configs/pythia_bert/vqa2.yaml`
`4`	`3`
`5`	`4`	`model_config:`