configs/avsync/vggss_sync_contrast.yaml

exp:
  output_dir: "exps/avsync/vggss_sync_contrast"
  log_file: "exps/avsync/vggss_sync_contrast/train.log"
  log_with: "wandb"
  seed: 123

model:
  audio_encoder:
    name: AudioConv2DNet
    pretrained: True
  video_encoder:
    name: VideoR2Plus1DNet
    pretrained: True
  head:
    name: FCHead
    dim: 512
    out_dim: 1
    dropout: 0.0
  tau: 0.1

train:
  batch_size: 4
  log_steps: 10
  dataset:
    data_root: "./datasets/VGGSS/videos"
    example_list_path: "./datasets/VGGSS/train.txt"
    mode: "train"
    image_size: 224
    video_fps: 6
    video_num_frames: 12
    audio_sample_rate: 16000
    randflip: True
    shift_time: 0.2
    num_clips: 21
    sampling_type: "random-compact"

test:
  batch_size: 8
  test_steps: 2500
  dataset:
    data_root: "./datasets/VGGSS/videos"
    example_list_path: "./datasets/VGGSS/test.txt"
    mode: "test"
    image_size: 224
    video_fps: 6
    video_num_frames: 12
    audio_sample_rate: 16000
    randflip: False
    shift_time: 0.2
    num_clips: 21
    sampling_type: "uniform"

# optimizer
optim:
  max_train_steps: 350000
  learning_rate: 2e-4
  scale_lr: False
  lr_scheduler: "constant_with_warmup"
  lr_warmup_steps: 100
  adam_beta1: 0.9
  adam_beta2: 0.999
  adam_weight_decay: 1e-2
  adam_epsilon: 1e-08
  max_grad_norm: 1.0
  gradient_accumulation_steps: 1
  checkpointing_steps: 2500
  checkpointing_milestones: 40000
  resume_from_checkpoint: "latest"
  mixed_precision: "fp16"
  use_8bit_adam: False