refactor: 🚩 merge split info to meta csv files

chaofengc · chaofengc · commit e66dee76e9f6 · 2024-10-14T23:07:53.000+08:00
diff --git a/options/default_dataset_opt.yml b/options/default_dataset_opt.yml
@@ -54,7 +54,7 @@ koniq10k:
   type: GeneralNRDataset
   dataroot_target: './datasets/koniq10k/512x384'
   meta_info_file: './datasets/meta_info/meta_info_KonIQ10kDataset.csv'
-  split_file: './datasets/meta_info/koniq10k_official.pkl'
+  split_index: 'official_split'
   phase: 'test'
   mos_range: [0, 100]
   lower_better: false 
@@ -64,7 +64,7 @@ koniq10k-1024:
   type: GeneralNRDataset
   dataroot_target: './datasets/koniq10k/1024x768'
   meta_info_file: './datasets/meta_info/meta_info_KonIQ10kDataset.csv'
-  split_file: './datasets/meta_info/koniq10k_official.pkl'
+  split_index: 'official_split'
   phase: 'test'
   mos_range: [0, 100]
   lower_better: false 
@@ -74,7 +74,7 @@ koniq10k++:
   type: GeneralNRDataset
   dataroot_target: './datasets/koniq10k/512x384'
   meta_info_file: './datasets/meta_info/meta_info_KonIQ10k++Dataset.csv'
-  split_file: './datasets/meta_info/koniq10k_official.pkl'
+  split_index: 'official_split'
   phase: 'test'
   mos_range: [1, 5]
   lower_better: false
@@ -102,8 +102,7 @@ ava:
   type: AVADataset
   dataroot_target: './datasets/AVA_dataset/ava_images/'
   meta_info_file: './datasets/meta_info/meta_info_AVADataset.csv'
-  split_file: './datasets/meta_info/ava_official_ilgnet.pkl'
-  split_index: 1 # use official split
+  split_index: 'official_split'
   mos_range: [1, 10]
   lower_better: false
 
@@ -113,7 +112,7 @@ pipal:
   dataroot_target: './datasets/PIPAL/Dist_Imgs'
   dataroot_ref: './datasets/PIPAL/Train_Ref'
   meta_info_file: './datasets/meta_info/meta_info_PIPALDataset.csv'
-  split_file: './datasets/meta_info/pipal_official.pkl'
+  split_index: 'official_split'
   mos_range: [0, 1]
   lower_better: false 
 
@@ -122,7 +121,7 @@ flive:
   type: GeneralNRDataset 
   dataroot_target: './datasets/FLIVE_Database/database'
   meta_info_file: './datasets/meta_info/meta_info_FLIVEDataset.csv'
-  split_file: './datasets/meta_info/flive_official.pkl'
+  split_index: 'official_split'
   phase: test
   mos_range: [0, 100]
   lower_better: false
@@ -132,7 +131,7 @@ pieapp:
   type: PieAPPDataset 
   dataroot_target: './datasets/PieAPP_dataset_CVPR_2018/'
   meta_info_file: './datasets/meta_info/meta_info_PieAPPDataset.csv'
-  split_file: './datasets/meta_info/pieapp_official.pkl'
+  split_index: 'official_split'
 
 bapps:
   name: BAPPS
@@ -152,4 +151,4 @@ gfiqa:
   type: GeneralNRDataset
   dataroot_target: ./datasets/GFIQA/image
   meta_info_file: ./datasets/meta_info/meta_info_GFIQADataset.csv
-  split_file: ./datasets/meta_info/gfiqa_seed123.pkl
+  split_index: 1
diff --git a/pyiqa/data/ava_dataset.py b/pyiqa/data/ava_dataset.py
@@ -29,30 +29,48 @@ class AVADataset(BaseIQADataset):
     """
 
     def init_path_mos(self, opt):
+        super().init_path_mos(opt)
         target_img_folder = opt['dataroot_target']
         self.dataroot = target_img_folder
-        self.paths_mos = pd.read_csv(opt['meta_info_file']).values.tolist()
     
     def get_split(self, opt):
-        # read train/val/test splits
-        split_file_path = opt.get('split_file', None)
-        if split_file_path:
-            split_index = opt.get('split_index', 1)
-            with open(opt['split_file'], 'rb') as f:
-                split_dict = pickle.load(f)
-            
+        split_index = opt.get('split_index', None)
+
+        # compatible with previous version using split file
+        # when using split file, previous version will use official_split or split_index=1
+        if opt.get('split_file', None) is not None:
+            split_index = 'official_split'
+        
+        if split_index is not None:
             # use val_num for validation 
             val_num = opt.get('val_num', 2000)
-            train_split = split_dict[split_index]['train'] 
-            val_split = split_dict[split_index]['val'] 
-            train_split = train_split + val_split[:-val_num]
-            val_split = val_split[-val_num:]
-            split_dict[split_index]['train'] = train_split
-            split_dict[split_index]['val'] = val_split 
 
-            splits = split_dict[split_index][self.phase]
-            self.paths_mos = [self.paths_mos[i] for i in splits] 
+            train_split_paths_mos = []
+            val_split_paths_mos = []
+            test_split_paths_mos = []
+            for i in range(len(self.paths_mos)):
+                if self.meta_info[split_index][i] == 0:   # 0 for train
+                    train_split_paths_mos.append(self.paths_mos[i])
+                elif self.meta_info[split_index][i] == 1:   # 1 for val
+                    val_split_paths_mos.append(self.paths_mos[i])
+                elif self.meta_info[split_index][i] == 2:   # 2 for test
+                    test_split_paths_mos.append(self.paths_mos[i])
 
+            if len(val_split_paths_mos) < val_num:
+                val_num = val_num - len(val_split_paths_mos)
+                val_split_paths_mos = val_split_paths_mos + train_split_paths_mos[-val_num:]
+                train_split_paths_mos = train_split_paths_mos[:-val_num]
+            else:
+                train_split_paths_mos = train_split_paths_mos + val_split_paths_mos[:-val_num]
+                val_split_paths_mos = val_split_paths_mos[-val_num:] 
+
+            if self.phase == 'train':
+                self.paths_mos = train_split_paths_mos
+            elif self.phase == 'val':
+                self.paths_mos = val_split_paths_mos
+            elif self.phase == 'test':
+                self.paths_mos = test_split_paths_mos
+            
         self.mean_mos = np.array([item[1] for item in self.paths_mos]).mean()
 
     def __getitem__(self, index):
diff --git a/pyiqa/data/bapps_dataset.py b/pyiqa/data/bapps_dataset.py
@@ -42,16 +42,10 @@ def init_path_mos(self, opt):
         self.paths_mos = pd.read_csv(opt['meta_info_file']).values.tolist()
     
     def get_split(self, opt):
-        val_types = opt.get('val_types', None)
-        # read train/val/test splits
-        split_file_path = opt.get('split_file', None)
-        if split_file_path:
-            split_index = opt.get('split_index', 1)
-            with open(opt['split_file'], 'rb') as f:
-                split_dict = pickle.load(f)
-                splits = split_dict[split_index][self.phase]
-            self.paths_mos = [self.paths_mos[i] for i in splits] 
+        super().get_split(opt)
 
+        val_types = opt.get('val_types', None)
+        
         if self.dataset_mode == '2afc':
             self.paths_mos = [x for x in self.paths_mos if x[0] != 'jnd']
         elif self.dataset_mode == 'jnd':
diff --git a/pyiqa/data/base_iqa_dataset.py b/pyiqa/data/base_iqa_dataset.py
@@ -1,9 +1,9 @@
+import pandas as pd
 import pickle
 
 from torch.utils import data as data
 import torchvision.transforms as tf
 
-from pyiqa.data.data_util import read_meta_info_file
 from pyiqa.data.transforms import transform_mapping, PairedToTensor
 from pyiqa.utils import get_root_logger
 
@@ -24,6 +24,7 @@ def __init__(self, opt):
             self.phase = opt['phase']
         else:
             self.phase = opt['override_phase']
+        assert self.phase in ['train', 'val', 'test'], f'phase should be in [train, val, test], got {self.phase}'
 
         # initialize datasets
         self.init_path_mos(opt)
@@ -38,10 +39,10 @@ def __init__(self, opt):
         self.get_transforms(opt)
             
     def init_path_mos(self, opt):
-        target_img_folder = opt['dataroot_target']
-        self.paths_mos = read_meta_info_file(target_img_folder, opt['meta_info_file']) 
-
-    def get_split(self, opt):
+        self.meta_info = pd.read_csv(opt['meta_info_file'])
+        self.paths_mos = self.meta_info.values.tolist() 
+    
+    def get_split_with_file(self, opt):
         # read train/val/test splits
         split_file_path = opt.get('split_file', None)
         if split_file_path:
@@ -50,7 +51,35 @@ def get_split(self, opt):
                 split_dict = pickle.load(f)
                 splits = split_dict[split_index][self.phase]
             self.paths_mos = [self.paths_mos[i] for i in splits] 
-    
+
+    def get_split(self, opt):
+        """Read train/val/test splits
+        """
+        # compatible with previous version using split file
+        if opt.get('split_file', None) is not None:
+            self.get_split_with_file(opt)
+            return
+
+        # get all split column names
+        all_split_lists = [x for x in self.meta_info.columns.tolist() if 'split' in x]
+
+        split_index = opt.get('split_index', None)
+
+        if split_index is not None:
+            if isinstance(split_index, str):
+                split_name = split_index
+            elif isinstance(split_index, int):
+                split_ratio = opt.get('split_ratio', '802')
+                split_name = f'ratio{split_ratio}_seed123_split_{split_index:02d}'
+            
+            assert split_name in all_split_lists, f'The given split [{split_name}] is not available in {all_split_lists}'
+
+            split_paths_mos = []
+            for i in range(len(self.paths_mos)):
+                if self.meta_info[split_name][i] == self.phase:
+                    split_paths_mos.append(self.paths_mos[i])
+            self.paths_mos = split_paths_mos
+            
     def mos_normalize(self, opt):
         mos_range = opt.get('mos_range', None)
         mos_lower_better = opt.get('lower_better', None)
diff --git a/pyiqa/data/general_fr_dataset.py b/pyiqa/data/general_fr_dataset.py
@@ -1,10 +1,10 @@
 from PIL import Image
+from os import path as osp
 
 import torch
 from torch.utils import data as data
 import torchvision.transforms as tf
 
-from pyiqa.data.data_util import read_meta_info_file 
 from pyiqa.data.transforms import transform_mapping, PairedToTensor
 from pyiqa.utils.registry import DATASET_REGISTRY
 
@@ -16,9 +16,19 @@ class GeneralFRDataset(BaseIQADataset):
     """
     
     def init_path_mos(self, opt):
+        super().init_path_mos(opt)
+
         target_img_folder = opt['dataroot_target']
         ref_img_folder = opt.get('dataroot_ref', None)
-        self.paths_mos = read_meta_info_file(target_img_folder, opt['meta_info_file'], mode='fr', ref_dir=ref_img_folder) 
+        if ref_img_folder is None:
+            ref_img_folder = target_img_folder
+
+        self.paths_mos = []
+        for row in self.meta_info.values:
+            ref_path = osp.join(ref_img_folder, row[0])
+            img_path = osp.join(target_img_folder, row[1])
+            mos_label = float(row[2])
+            self.paths_mos.append([img_path, ref_path, mos_label])
 
     def get_transforms(self, opt):
         # do paired transform first and then do common transform
diff --git a/pyiqa/data/general_nr_dataset.py b/pyiqa/data/general_nr_dataset.py
@@ -1,8 +1,9 @@
 from PIL import Image
+from os import path as osp
+
 import torch
 from torch.utils import data as data
 
-from pyiqa.data.data_util import read_meta_info_file 
 from pyiqa.utils.registry import DATASET_REGISTRY
 from .base_iqa_dataset import BaseIQADataset
 
@@ -11,8 +12,15 @@ class GeneralNRDataset(BaseIQADataset):
     """General No Reference dataset with meta info file.
     """
     def init_path_mos(self, opt):
+        super().init_path_mos(opt)
+
         target_img_folder = opt['dataroot_target']
-        self.paths_mos = read_meta_info_file(target_img_folder, opt['meta_info_file']) 
+
+        self.paths_mos = []
+        for row in self.meta_info.values:
+            img_path = osp.join(target_img_folder, row[0])
+            mos_label = float(row[1])
+            self.paths_mos.append([img_path, mos_label])
 
     def __getitem__(self, index):
 
diff --git a/pyiqa/data/livechallenge_dataset.py b/pyiqa/data/livechallenge_dataset.py
@@ -20,7 +20,6 @@ class LIVEChallengeDataset(GeneralNRDataset):
     """
 
     def init_path_mos(self, opt):
-        target_img_folder = os.path.join(opt['dataroot_target'], 'Images')
-        self.paths_mos = read_meta_info_file(target_img_folder, opt['meta_info_file']) 
+        super().init_path_mos(opt)
         # remove first 7 training images as previous works
         self.paths_mos = self.paths_mos[7:]
diff --git a/pyiqa/data/pieapp_dataset.py b/pyiqa/data/pieapp_dataset.py
@@ -32,19 +32,13 @@ def init_path_mos(self, opt):
         self.paths_mos = metadata.values.tolist()
 
     def get_split(self, opt):
-        # read train/val/test splits
-        split_file_path = opt.get('split_file', None)
-        if split_file_path:
-            split_index = opt.get('split_index', 1)
-            with open(opt['split_file'], 'rb') as f:
-                split_dict = pickle.load(f)
-                splits = split_dict[split_index][self.phase]
-            self.paths_mos = [self.paths_mos[i] for i in splits] 
-        
+        super().get_split(opt)
         # remove duplicates
         if self.phase == 'test':
             temp = []
-            [temp.append(item) for item in self.paths_mos if not item in temp]
+            for item in self.paths_mos:
+                if not item in temp:
+                    temp.append(item)
             self.paths_mos = temp
         
     def __getitem__(self, index):