update readme

= · = · commit 7fc516ba4ea9 · 2024-10-31T10:02:26.000+08:00
diff --git a/configs/ESAM_CA/ESAM_online_scenenn_CA_test.py b/configs/ESAM_CA/ESAM_online_scenenn_CA_test.py
@@ -24,14 +24,13 @@
             conv1_kernel_size=5,
             bn_momentum=0.02)),
     memory=dict(type='MultilevelMemory', in_channels=[32, 64, 128, 256], queue=-1, vmp_layer=(0,1,2,3)),
-    # memory=dict(type='MultilevelMemory', in_channels=[32, 64, 128, 256], queue=-1, vmp_layer=(2,3)),
     pool=dict(type='GeoAwarePooling', channel_proj=96),
     decoder=dict(
         type='ScanNetMixQueryDecoder',
         num_layers=3,
         share_attn_mlp=False, 
         share_mask_mlp=False,
-        temporal_attn=False, # TODO: to be extended
+        temporal_attn=False,
         # the last mp_mode should be "P"
         cross_attn_mode=["", "SP", "SP", "SP"], 
         mask_pred_mode=["SP", "SP", "P", "P"],
@@ -51,7 +50,7 @@
         fix_attention=True,
         objectness_flag=False,
         bbox_flag=use_bbox),
-    merge_head=dict(type='MergeHead', in_channels=256, out_channels=256),
+    merge_head=dict(type='MergeHead', in_channels=256, out_channels=256, norm='layer'),
     merge_criterion=dict(type='ScanNetMergeCriterion_Fast', tmp=True, p2s=False),
     criterion=dict(
         type='ScanNetMixedCriterion',
@@ -76,7 +75,7 @@
             fix_dice_loss_weight=True,
             iter_matcher=True,
             fix_mean_loss=True)),
-    train_cfg=dict(),
+    train_cfg=None,
     test_cfg=dict(
         # TODO: a larger topK may be better
         topk_insts=20,
@@ -91,7 +90,6 @@
         stuff_classes=[0, 1],
         merge_type='learnable_online'))
 
-# TODO: complete the dataset
 dataset_type = 'ScanNet200SegMVDataset_'
 data_root = 'data/scenenn-mv/'
 
@@ -163,8 +161,7 @@
         with_seg_3d=True,
         with_sp_mask_3d=True,
         with_rec=True,
-        dataset_type = 'scenenn'),
-    # dict(type='SwapChairAndFloorWithRec'),
+        dataset_type='scenenn'),
     dict(type='PointSegClassMappingWithRec'),
     dict(
         type='MultiScaleFlipAug3D',
@@ -186,6 +183,8 @@
     dict(type='Pack3DDetInputs_Online', keys=['points', 'sp_pts_mask'])
 ]
 
+train_dataloader = None
+
 val_dataloader = dict(
     # persistent_workers=False,
     # num_workers=0,
@@ -233,7 +232,6 @@
     metric_meta=metric_meta)
 test_evaluator = val_evaluator
 
-
 custom_hooks = [dict(type='EmptyCacheHook', after_iter=True)]
 default_hooks = dict(
     checkpoint=dict(
@@ -242,7 +240,5 @@
         save_best=['all_ap_50%'],
         rule='greater'))
 
-
-# training schedule for 1x
 val_cfg = dict(type='ValLoop')
 test_cfg = dict(type='TestLoop')
diff --git a/docs/demo.md b/docs/demo.md
@@ -6,4 +6,6 @@ You can run the visualization demo by running the following command:
 CUDA_VISIBLE_DEVICES=0 python vis_demo/online_demo.py --scene_idx <scene_idx> --config <config_file> --checkpoint <checkpoint_file>
 ```
 
+For `ScanNet` or `ScanNet200`, the `<scene_idx>` should be in the format of `scenexxxx_xx`, like `scene0000_00`. For `SceneNN` or `3RScan`, the `<scene_idx>` should be in the format of `xxx`, like `000`.
+
 It will process the specified scene and visualize the results. The visualization includes the input RGB sequence and the segmentation results in the form of a 3D point cloud colored by the predicted instance labels.
diff --git a/vis_demo/online_demo.py b/vis_demo/online_demo.py
@@ -86,7 +86,7 @@ def inference_detector(model, scene_idx):
         
 def main():
     parser = ArgumentParser()
-    parser.add_argument('--scene-idx', default='scene0011_00', type=str, help='single scene index')
+    parser.add_argument('--scene_idx', default='scene0011_00', type=str, help='single scene index')
     parser.add_argument('--config', type=str, help='Config file')
     parser.add_argument('--checkpoint', type=str, help='Checkpoint file')
     parser.add_argument('--device', default='cuda:0', help='Device used for inference')