first commit

2024-03-15 14:38:51 +00:00
commit bc2ed1304f
321 changed files with 44802 additions and 0 deletions
--- a/MobileNetV3/main_exp/diffusion/run_lib.py
+++ b/MobileNetV3/main_exp/diffusion/run_lib.py
@@ -0,0 +1,329 @@
+import torch
+import numpy as np
+import sys
+from scipy.stats import pearsonr, spearmanr
+from torch.utils.data import DataLoader
+sys.path.append('.')
+import sampling
+
+import datasets_nas
+from models import pgsn
+from models import digcn
+from models import cate
+from models import dagformer
+from models import digcn
+from models import digcn_meta
+from models import regressor
+from models.GDSS import scorenetx
+from models import utils as mutils
+from models.ema import ExponentialMovingAverage
+import sde_lib
+from utils import *
+import losses
+
+from analysis.arch_functions import BasicArchMetricsOFA
+import losses
+from analysis.arch_functions import NUM_STAGE, MAX_LAYER_PER_STAGE
+from all_path import *
+
+
+def get_sampling_fn(config, p=1, prod_w=False, weight_ratio_abs=False):
+    # Setup SDEs
+    if config.training.sde.lower() == 'vpsde':
+        sde = sde_lib.VPSDE(
+            beta_min=config.model.beta_min, 
+            beta_max=config.model.beta_max, 
+            N=config.model.num_scales)
+        sampling_eps = 1e-3
+    elif config.training.sde.lower() == 'subvpsde':
+        sde = sde_lib.subVPSDE(
+            beta_min=config.model.beta_min, 
+            beta_max=config.model.beta_max,
+            N=config.model.num_scales)
+        sampling_eps = 1e-3
+    elif config.training.sde.lower() == 'vesde':
+        sde = sde_lib.VESDE(
+            sigma_min=config.model.sigma_min, 
+            sigma_max=config.model.sigma_max,
+            N=config.model.num_scales)
+        sampling_eps = 1e-5
+    else:
+        raise NotImplementedError(f"SDE {config.training.sde} unknown.")
+    
+    # create data normalizer and its inverse
+    inverse_scaler = datasets_nas.get_data_inverse_scaler(config)
+    
+    sampling_shape = (
+        config.eval.batch_size, config.data.max_node, config.data.n_vocab) # ofa: 1024, 20, 28
+    sampling_fn = sampling.get_sampling_fn(
+        config, sde, sampling_shape, inverse_scaler, 
+        sampling_eps, config.data.name, conditional=True, 
+        p=p, prod_w=prod_w, weight_ratio_abs=weight_ratio_abs)
+    
+    return sampling_fn, sde
+
+
+def get_sampling_fn_meta(config, p=1, prod_w=False, weight_ratio_abs=False, init=False, n_init=5):
+    # Setup SDEs
+    if config.training.sde.lower() == 'vpsde':
+        sde = sde_lib.VPSDE(
+            beta_min=config.model.beta_min, 
+            beta_max=config.model.beta_max, 
+            N=config.model.num_scales)
+        sampling_eps = 1e-3
+    elif config.training.sde.lower() == 'subvpsde':
+        sde = sde_lib.subVPSDE(
+            beta_min=config.model.beta_min, 
+            beta_max=config.model.beta_max,
+            N=config.model.num_scales)
+        sampling_eps = 1e-3
+    elif config.training.sde.lower() == 'vesde':
+        sde = sde_lib.VESDE(
+            sigma_min=config.model.sigma_min, 
+            sigma_max=config.model.sigma_max,
+            N=config.model.num_scales)
+        sampling_eps = 1e-5
+    else:
+        raise NotImplementedError(f"SDE {config.training.sde} unknown.")
+    
+    # create data normalizer and its inverse
+    inverse_scaler = datasets_nas.get_data_inverse_scaler(config)
+    
+    if init:
+        sampling_shape = (
+            n_init, config.data.max_node, config.data.n_vocab) 
+    else:
+        sampling_shape = (
+            config.eval.batch_size, config.data.max_node, config.data.n_vocab) # ofa: 1024, 20, 28
+    sampling_fn = sampling.get_sampling_fn(
+        config, sde, sampling_shape, inverse_scaler, 
+        sampling_eps, config.data.name, conditional=True, 
+        is_meta=True, data_name=config.sampling.check_dataname, 
+        num_sample=config.model.num_sample)
+    
+    return sampling_fn, sde
+
+
+def get_score_model(config, pos_enc_type=2):
+    # Build sampling functions and Load pre-trained score network & predictor network
+    score_config = torch.load(config.scorenet_ckpt_path)['config']
+    ckpt_path = config.scorenet_ckpt_path
+    score_config.sampling.corrector = 'langevin'
+    score_config.model.pos_enc_type = pos_enc_type
+
+    score_model = mutils.create_model(score_config)
+    score_ema = ExponentialMovingAverage(
+        score_model.parameters(), decay=score_config.model.ema_rate)
+    score_state = dict(
+        model=score_model, ema=score_ema, step=0, config=score_config)
+    score_state = restore_checkpoint(
+        ckpt_path, score_state, 
+        device=config.device, resume=True)
+    score_ema.copy_to(score_model.parameters())
+    return score_model, score_ema, score_config
+
+
+def get_predictor(config):
+    classifier_model = mutils.create_model(config)
+
+    return classifier_model 
+
+
+def get_adj(data_name, except_inout):
+    if data_name == 'NASBench201':
+        _adj = np.asarray(
+                [[0, 1, 1, 1, 0, 0, 0, 0],
+                [0, 0, 0, 0, 1, 1, 0, 0],
+                [0, 0, 0, 0, 0, 0, 1, 0],
+                [0, 0, 0, 0, 0, 0, 0, 1],
+                [0, 0, 0, 0, 0, 0, 1, 0],
+                [0, 0, 0, 0, 0, 0, 0, 1],
+                [0, 0, 0, 0, 0, 0, 0, 1],
+                [0, 0, 0, 0, 0, 0, 0, 0]]
+            )
+        _adj = torch.tensor(_adj, dtype=torch.float32, device=torch.device('cpu'))
+        if except_inout:
+            _adj = _adj[1:-1, 1:-1]
+    elif data_name == 'ofa':
+        assert except_inout 
+        num_nodes = NUM_STAGE * MAX_LAYER_PER_STAGE
+        _adj = torch.zeros(num_nodes, num_nodes)
+        for i in range(num_nodes-1):
+            _adj[i, i+1] = 1
+        return _adj
+    return _adj    
+
+def generate_archs(
+        config, sampling_fn, score_model, score_ema, classifier_model,
+        num_samples, patient_factor, batch_size=512, classifier_scale=None,
+        task=None):
+    
+    metrics = BasicArchMetricsOFA()
+    # algo = 'none'
+    adj_s = get_adj(config.data.name, config.data.except_inout)
+    mask_s = aug_mask(adj_s, algo=config.data.aug_mask_algo)[0]
+    adj_c = get_adj(config.data.name, config.data.except_inout)
+    mask_c = aug_mask(adj_c, algo=config.data.aug_mask_algo)[0]
+    assert (adj_s == adj_c).all() and (mask_s == mask_c).all()
+    adj_s, mask_s, adj_c, mask_c = \
+        adj_s.to(config.device), mask_s.to(config.device), adj_c.to(config.device), mask_c.to(config.device)
+    
+    # Generate and save samples
+    score_ema.copy_to(score_model.parameters())
+    if num_samples > batch_size:
+        num_sampling_rounds = int(np.ceil(num_samples / batch_size) * patient_factor)
+    else:
+        num_sampling_rounds = int(patient_factor)
+    print(f'==> Sampling for {num_sampling_rounds} rounds...')
+    
+    r = 0
+    all_samples = []
+    classifier_scales = list(range(100000, 0, -int(classifier_scale)))
+    
+    while True and r < num_sampling_rounds:
+        classifier_scale = classifier_scales[r]
+        print(f'==> round {r} classifier_scale {classifier_scale}')
+        sample, _, sample_chain, (score_grad_norm_p, classifier_grad_norm_p, score_grad_norm_c, classifier_grad_norm_c) \
+            = sampling_fn(score_model, mask_s, classifier_model, 
+                        eval_chain=True, 
+                        number_chain_steps=config.sampling.number_chain_steps,
+                        classifier_scale=classifier_scale,
+                        task=task, sample_bs=num_samples)
+        try:
+            sample_list = quantize(sample, adj_s) # quantization
+            _, validity, valid_arch_str, _, _ = metrics.compute_validity(sample_list, adj_s, mask_s)
+        except:
+            import pdb; pdb.set_trace()
+            validity = 0.
+            valid_arch_str = []
+        print(f' ==> [Validity]: {round(validity, 4)}')
+
+        if len(valid_arch_str) > 0:
+            all_samples += valid_arch_str
+        print(f' ==> [# Unique Arch]: {len(set(all_samples))}')
+        
+        if (len(set(all_samples)) >= num_samples):
+            break
+
+        r += 1
+    
+    return list(set(all_samples))[:num_samples]
+
+
+def noise_aware_meta_predictor_fit(config, 
+                              predictor_model=None,
+                              xtrain=None, 
+                              seed=None, 
+                              sde=None, 
+                              batch_size=5, 
+                              epochs=50,
+                              save_best_p_corr=False,
+                              save_path=None,):
+    assert save_best_p_corr
+    reset_seed(seed)
+
+    data_loader = DataLoader(xtrain, 
+                             batch_size=batch_size, 
+                             shuffle=True, 
+                             drop_last=True)
+
+    # create data normalizer and its inverse
+    scaler = datasets_nas.get_data_scaler(config)
+
+    # Initialize model.
+    optimizer = losses.get_optimizer(config, predictor_model.parameters())
+    state = dict(optimizer=optimizer, 
+                 model=predictor_model, 
+                 step=0, 
+                 config=config)
+
+    # Build one-step training and evaluation functions
+    optimize_fn = losses.optimization_manager(config)
+    continuous = config.training.continuous
+    reduce_mean = config.training.reduce_mean
+    likelihood_weighting = config.training.likelihood_weighting
+    train_step_fn = losses.get_step_fn_predictor(sde, train=True, optimize_fn=optimize_fn,
+                                    reduce_mean=reduce_mean, continuous=continuous,
+                                    likelihood_weighting=likelihood_weighting,
+                                    data=config.data.name, label_list=config.data.label_list, 
+                                    noised=config.training.noised,
+                                    t_spot=config.training.t_spot,
+                                    is_meta=True)
+
+    # temp 
+    # epochs = len(xtrain) * 100
+    is_best = False
+    best_p_corr = -1
+    ckpt_dir = os.path.join(save_path, 'loop')
+    print(f'==> Training for {epochs} epochs')
+    for epoch in range(epochs):
+        pred_list, labels_list = list(), list()
+        for step, batch in enumerate(data_loader):
+            x = batch['x'].to(config.device) # (5, 5, 20, 9)???
+            adj = get_adj(config.data.name, config.data.except_inout)
+            task = batch['task']
+            extra = batch
+            mask = aug_mask(adj, 
+                            algo=config.data.aug_mask_algo, 
+                            data=config.data.name)
+            x = scaler(x.to(config.device))
+            adj = adj.to(config.device)
+            mask = mask.to(config.device)
+            task = task.to(config.device)
+            batch = (x, adj, mask, extra, task)
+            # Execute one training step
+            loss, pred, labels = train_step_fn(state, batch)
+            pred_list += [v.detach().item() for v in pred.squeeze()]
+            labels_list += [v.detach().item() for v in labels.squeeze()]
+        p_corr = pearsonr(np.array(pred_list), np.array(labels_list))[0]
+        s_corr = spearmanr(np.array(pred_list), np.array(labels_list))[0]
+        if epoch % 50 == 0: print(f'==> [Epoch-{epoch}] P corr: {round(p_corr, 4)} | S corr: {round(s_corr, 4)}')
+
+        if save_best_p_corr:
+            if p_corr > best_p_corr:
+                is_best = True
+                best_p_corr = p_corr
+                os.makedirs(ckpt_dir, exist_ok=True)
+                save_checkpoint(ckpt_dir, state, epoch, is_best)
+    if save_best_p_corr:
+        loaded_state = torch.load(os.path.join(ckpt_dir, 'model_best.pth.tar'), map_location=config.device)
+        predictor_model.load_state_dict(loaded_state['model'])
+
+
+def save_checkpoint(ckpt_dir, state, epoch, is_best):
+    saved_state = {}
+    for k in state:
+        if k in ['optimizer', 'model', 'ema']:
+            saved_state.update({k: state[k].state_dict()})
+        else:
+            saved_state.update({k: state[k]})
+    os.makedirs(ckpt_dir, exist_ok=True)
+    torch.save(saved_state, os.path.join(ckpt_dir, f'checkpoint_{epoch}.pth.tar'))
+    if is_best:
+        shutil.copy(os.path.join(ckpt_dir, f'checkpoint_{epoch}.pth.tar'), os.path.join(ckpt_dir, 'model_best.pth.tar'))
+    # remove the ckpt except is_best state
+    for ckpt_file in sorted(os.listdir(ckpt_dir)):
+        if not ckpt_file.startswith('checkpoint'):
+            continue
+        if os.path.join(ckpt_dir, ckpt_file) != os.path.join(ckpt_dir, 'model_best.pth.tar'):
+            os.remove(os.path.join(ckpt_dir, ckpt_file))
+
+
+def restore_checkpoint(ckpt_dir, state, device, resume=False):
+    if not resume:
+        os.makedirs(os.path.dirname(ckpt_dir), exist_ok=True)
+        return state
+    elif not os.path.exists(ckpt_dir):
+        if not os.path.exists(os.path.dirname(ckpt_dir)):
+            os.makedirs(os.path.dirname(ckpt_dir))
+        logging.warning(f"No checkpoint found at {ckpt_dir}. "
+                        f"Returned the same state as input")
+        return state
+    else:
+        loaded_state = torch.load(ckpt_dir, map_location=device)
+        for k in state:
+            if k in ['optimizer', 'model', 'ema']:
+                state[k].load_state_dict(loaded_state[k])
+            else:
+                state[k] = loaded_state[k]
+        return state