smart_augmentation/higher/smart_aug/datasets.py

""" Dataset definition.

    MNIST / CIFAR10 / CIFAR100 / SVHN / ImageNet
"""
import os
import torch
from torch.utils.data.dataset import ConcatDataset
import torchvision
from arg_parser import *

args = parser.parse_args()

#Wether to download data.
download_data=False
#Pin GPU memory
pin_memory=False #True :+ GPU memory / + Lent
#Data storage folder
dataroot=args.dataroot

# if args.dtype == 'FP32':
#     def_type=torch.float32
# elif args.dtype == 'FP16':
#     # def_type=torch.float16 #Default : float32
#     def_type=torch.bfloat16
# else:
#     raise Exception('dtype not supported :', args.dtype)

#ATTENTION : Dataug (Kornia) Expect image in the range of [0, 1]
transform = [
    #torchvision.transforms.Grayscale(3), #MNIST
    #torchvision.transforms.Resize((224,224), interpolation=2)#VGG
    torchvision.transforms.ToTensor(),
    #torchvision.transforms.Normalize(MEAN, STD), #CIFAR10
    # torchvision.transforms.Lambda(lambda tensor: tensor.to(def_type)),
]

transform_train = [
    #transforms.RandomHorizontalFlip(),
    #transforms.RandomVerticalFlip(),
    #torchvision.transforms.Grayscale(3), #MNIST
    #torchvision.transforms.Resize((224,224), interpolation=2)
    torchvision.transforms.ToTensor(),
    #torchvision.transforms.Normalize(MEAN, STD), #CIFAR10
    # torchvision.transforms.Lambda(lambda tensor: tensor.to(def_type)),
]

## RandAugment ##
#from RandAugment import RandAugment
# Add RandAugment with N, M(hyperparameter)
#rand_aug={'N': 2, 'M': 1}
#rand_aug={'N': 2, 'M': 9./30} #RN-ImageNet
#rand_aug={'N': 3, 'M': 5./30} #WRN-CIFAR10
#rand_aug={'N': 2, 'M': 14./30} #WRN-CIFAR100
#rand_aug={'N': 3, 'M': 7./30} #WRN-SVHN
#transform_train.transforms.insert(0, RandAugment(n=rand_aug['N'], m=rand_aug['M']))

### Classic Dataset ###
BATCH_SIZE = args.batch_size
TEST_SIZE = BATCH_SIZE
# Load Dataset
if args.dataset == 'MNIST':
    transform_train.insert(0, torchvision.transforms.Grayscale(3))
    transform.insert(0, torchvision.transforms.Grayscale(3))

    val_set=False
    data_train = torchvision.datasets.MNIST(dataroot, train=True, download=True, transform=torchvision.transforms.Compose(transform_train))
    data_val = torchvision.datasets.MNIST(dataroot, train=True, download=True, transform=torchvision.transforms.Compose(transform))
    data_test = torchvision.datasets.MNIST(dataroot, train=False, download=True, transform=torchvision.transforms.Compose(transform))
elif args.dataset == 'CIFAR10': #(32x32 RGB)
    val_set=False
    MEAN=(0.4914, 0.4822, 0.4465)
    STD=(0.2023, 0.1994, 0.2010)
    data_train = torchvision.datasets.CIFAR10(dataroot, train=True, download=download_data, transform=torchvision.transforms.Compose(transform_train))
    data_val = torchvision.datasets.CIFAR10(dataroot, train=True, download=download_data, transform=torchvision.transforms.Compose(transform))
    data_test = torchvision.datasets.CIFAR10(dataroot, train=False, download=download_data, transform=torchvision.transforms.Compose(transform))
elif args.dataset == 'CIFAR100': #(32x32 RGB)
    val_set=False
    MEAN=(0.4914, 0.4822, 0.4465)
    STD=(0.2023, 0.1994, 0.2010)
    data_train = torchvision.datasets.CIFAR100(dataroot, train=True, download=download_data, transform=torchvision.transforms.Compose(transform_train))
    data_val = torchvision.datasets.CIFAR100(dataroot, train=True, download=download_data, transform=torchvision.transforms.Compose(transform))
    data_test = torchvision.datasets.CIFAR100(dataroot, train=False, download=download_data, transform=torchvision.transforms.Compose(transform))
elif args.dataset == 'TinyImageNet': #(Train:100k, Val:5k, Test:5k) (64x64 RGB)
    image_size=64 #128 / 224
    print('Using image size', image_size)
    transform_train=[torchvision.transforms.Resize(image_size), torchvision.transforms.CenterCrop(image_size)]+transform_train
    transform=[torchvision.transforms.Resize(image_size), torchvision.transforms.CenterCrop(image_size)]+transform
    
    val_set=True
    MEAN=(0.485, 0.456, 0.406)
    STD=(0.229, 0.224, 0.225)
    data_train = torchvision.datasets.ImageFolder(os.path.join(dataroot, 'tiny-imagenet-200/train'), transform=torchvision.transforms.Compose(transform_train))
    data_val = torchvision.datasets.ImageFolder(os.path.join(dataroot, 'tiny-imagenet-200/val'), transform=torchvision.transforms.Compose(transform))
    data_test = torchvision.datasets.ImageFolder(os.path.join(dataroot, 'tiny-imagenet-200/test'), transform=torchvision.transforms.Compose(transform))
elif args.dataset == 'ImageNet': #
    image_size=128 #224
    print('Using image size', image_size)
    transform_train=[torchvision.transforms.Resize(image_size), torchvision.transforms.CenterCrop(image_size)]+transform_train
    transform=[torchvision.transforms.Resize(image_size), torchvision.transforms.CenterCrop(image_size)]+transform
    
    val_set=False
    MEAN=(0.485, 0.456, 0.406)
    STD=(0.229, 0.224, 0.225)
    data_train = torchvision.datasets.ImageFolder(root=os.path.join(dataroot, 'ImageNet/train'), transform=torchvision.transforms.Compose(transform_train))
    data_val = torchvision.datasets.ImageFolder(root=os.path.join(dataroot, 'ImageNet/train'), transform=torchvision.transforms.Compose(transform))
    data_test = torchvision.datasets.ImageFolder(root=os.path.join(dataroot, 'ImageNet/validation'), transform=torchvision.transforms.Compose(transform))

else:
    raise Exception('Unknown dataset')

# Ready dataloader
if not val_set : #Split Training set into Train/Val
    #Validation set size [0, 1]
    valid_size=0.1
    train_subset_indices=range(int(len(data_train)*(1-valid_size)))
    val_subset_indices=range(int(len(data_train)*(1-valid_size)),len(data_train))
    #train_subset_indices=range(BATCH_SIZE*10)
    #val_subset_indices=range(BATCH_SIZE*10, BATCH_SIZE*20)

    from torch.utils.data import SubsetRandomSampler
    dl_train = torch.utils.data.DataLoader(data_train, batch_size=BATCH_SIZE, shuffle=False, sampler=SubsetRandomSampler(train_subset_indices), num_workers=args.workers, pin_memory=pin_memory)
    dl_val = torch.utils.data.DataLoader(data_val, batch_size=BATCH_SIZE, shuffle=False, sampler=SubsetRandomSampler(val_subset_indices), num_workers=args.workers, pin_memory=pin_memory)
    dl_test = torch.utils.data.DataLoader(data_test, batch_size=TEST_SIZE, shuffle=False, num_workers=args.workers, pin_memory=pin_memory)
else:
    dl_train = torch.utils.data.DataLoader(data_train, batch_size=BATCH_SIZE, shuffle=True, num_workers=args.workers, pin_memory=pin_memory)
    dl_val = torch.utils.data.DataLoader(data_val, batch_size=BATCH_SIZE, shuffle=True, num_workers=args.workers, pin_memory=pin_memory)
    dl_test = torch.utils.data.DataLoader(data_test, batch_size=TEST_SIZE, shuffle=False, num_workers=args.workers, pin_memory=pin_memory)


#SVHN
#trainset = torchvision.datasets.SVHN(root=dataroot, split='train', download=download_data, transform=transform_train)
#extraset = torchvision.datasets.SVHN(root=dataroot, split='extra', download=download_data, transform=transform_train)
#data_train = ConcatDataset([trainset, extraset])
#data_test = torchvision.datasets.SVHN(dataroot, split='test', download=download_data, transform=transform)

#ImageNet
#Necessite SciPy
# Probleme ? : https://github.com/ildoonet/pytorch-randaugment/blob/48b8f509c4bbda93bbe733d98b3fd052b6e4c8ae/RandAugment/imagenet.py#L28
#data_train = torchvision.datasets.ImageNet(root=os.path.join(dataroot, 'imagenet-pytorch'), split='train', transform=transform_train)
#data_test = torchvision.datasets.ImageNet(root=os.path.join(dataroot, 'imagenet-pytorch'), split='val', transform=transform_test)

#Cross Validation
'''
import numpy as np
from sklearn.model_selection import ShuffleSplit
from sklearn.model_selection import StratifiedShuffleSplit
class CVSplit(object):
    """Class that perform train/valid split on a dataset.

        Inspired from : https://skorch.readthedocs.io/en/latest/user/dataset.html

        Attributes:
            _stratified (bool): Wether the split should be stratified. Recommended to be True for unbalanced dataset.
            _val_size (float, int): If float, should be between 0.0 and 1.0 and represent the proportion of the dataset to include in the validation split. 
                If int, represents the absolute number of validation samples.
            _data (Dataset): Dataset to split.
            _targets (np.array): Targets of the dataset used if _stratified is set to True.
            _cv (BaseShuffleSplit) : Scikit learn object used to split.

    """
    def __init__(self, data, val_size=0.1, stratified=True):
        """ Intialize CVSplit.

            Args:
                data (Dataset): Dataset to split.
                val_size (float, int): If float, should be between 0.0 and 1.0 and represent the proportion of the dataset to include in the validation split. 
                If int, represents the absolute number of validation samples. (Default: 0.1)
                stratified (bool): Wether the split should be stratified. Recommended to be True for unbalanced dataset.
        """
        self._stratified=stratified
        self._val_size=val_size

        self._data=data
        if self._stratified:
            cv_cls = StratifiedShuffleSplit
            self._targets= np.array(data_train.targets)
        else:
            cv_cls = ShuffleSplit

        self._cv= cv_cls(test_size=val_size, random_state=0) #Random state w/ fixed seed

    def next_split(self):
        """ Get next cross-validation split.

            Returns:
                Train DataLoader, Validation DataLoader
        """
        args=(np.arange(len(self._data)),)
        if self._stratified:
            args = args + (self._targets,)
            
        idx_train, idx_valid = next(iter(self._cv.split(*args)))

        train_subset = torch.utils.data.Subset(self._data, idx_train)
        val_subset = torch.utils.data.Subset(self._data, idx_valid)

        dl_train = torch.utils.data.DataLoader(train_subset, batch_size=BATCH_SIZE, shuffle=True, num_workers=num_workers, pin_memory=pin_memory)
        dl_val = torch.utils.data.DataLoader(val_subset, batch_size=BATCH_SIZE, shuffle=True, num_workers=num_workers, pin_memory=pin_memory)

        return dl_train, dl_val

cvs = CVSplit(data_train, val_size=valid_size)
dl_train, dl_val = cvs.next_split()
'''

'''
from skorch.dataset import CVSplit
import numpy as np
cvs = CVSplit(cv=valid_size, stratified=True) #Stratified =True for unbalanced dataset #ShuffleSplit

def next_CVSplit():

    train_subset, val_subset = cvs(data_train, y=np.array(data_train.targets))
    dl_train = torch.utils.data.DataLoader(train_subset, batch_size=BATCH_SIZE, shuffle=True, num_workers=num_workers, pin_memory=pin_memory)
    dl_val = torch.utils.data.DataLoader(val_subset, batch_size=BATCH_SIZE, shuffle=True, num_workers=num_workers, pin_memory=pin_memory)

    return dl_train, dl_val

dl_train, dl_val = next_CVSplit()
'''
Rangement 2020-01-24 14:32:37 -05:00			`""" Dataset definition.`

RandAugment 2020-02-05 12:24:20 -05:00			`MNIST / CIFAR10 / CIFAR100 / SVHN / ImageNet`
Rangement 2020-01-24 14:32:37 -05:00			`"""`
Changes since Teledyne 2024-08-20 11:53:35 +02:00			`import os`
Rangement dans le code 2 2019-11-13 11:45:05 -05:00			`import torch`
Prepartaion dataset benchmark 2020-02-03 12:55:36 -05:00			`from torch.utils.data.dataset import ConcatDataset`
Rangement dans le code 2 2019-11-13 11:45:05 -05:00			`import torchvision`
Changes since Teledyne 2024-08-20 11:53:35 +02:00			`from arg_parser import *`
Rangement dans le code 2 2019-11-13 11:45:05 -05:00
Changes since Teledyne 2024-08-20 11:53:35 +02:00			`args = parser.parse_args()`
Rangement dans le code 2 2019-11-13 11:45:05 -05:00
Test doxygen 2020-01-24 15:10:08 -05:00			`#Wether to download data.`
F1 par classes + plot OK 2020-02-03 11:21:54 -05:00			`download_data=False`
Test doxygen 2020-01-24 15:10:08 -05:00			`#Pin GPU memory`
Brutus bis 2020-01-20 11:05:40 -05:00			`pin_memory=False #True :+ GPU memory / + Lent`
Cross Validation splits + New mesure process time (train utils) 2020-02-03 15:08:22 -05:00			`#Data storage folder`
Changes since Teledyne 2024-08-20 11:53:35 +02:00			`dataroot=args.dataroot`

			`# if args.dtype == 'FP32':`
			`# def_type=torch.float32`
			`# elif args.dtype == 'FP16':`
			`# # def_type=torch.float16 #Default : float32`
			`# def_type=torch.bfloat16`
			`# else:`
			`# raise Exception('dtype not supported :', args.dtype)`
Brutus bis 2020-01-20 11:05:40 -05:00
Rangement dans le code 2 2019-11-13 11:45:05 -05:00			`#ATTENTION : Dataug (Kornia) Expect image in the range of [0, 1]`
Changes since Teledyne 2024-08-20 11:53:35 +02:00			`transform = [`
			`#torchvision.transforms.Grayscale(3), #MNIST`
			`#torchvision.transforms.Resize((224,224), interpolation=2)#VGG`
Rangement dans le code 2 2019-11-13 11:45:05 -05:00			`torchvision.transforms.ToTensor(),`
Changes since Teledyne 2024-08-20 11:53:35 +02:00			`#torchvision.transforms.Normalize(MEAN, STD), #CIFAR10`
			`# torchvision.transforms.Lambda(lambda tensor: tensor.to(def_type)),`
			`]`
Fix etat Train/Eval pour augmentation differee (Retester !) 2020-01-20 17:09:31 -05:00
Changes since Teledyne 2024-08-20 11:53:35 +02:00			`transform_train = [`
minor changes 2020-01-31 10:34:44 -05:00			`#transforms.RandomHorizontalFlip(),`
			`#transforms.RandomVerticalFlip(),`
Changes since Teledyne 2024-08-20 11:53:35 +02:00			`#torchvision.transforms.Grayscale(3), #MNIST`
			`#torchvision.transforms.Resize((224,224), interpolation=2)`
minor changes 2020-01-31 10:34:44 -05:00			`torchvision.transforms.ToTensor(),`
Changes since Teledyne 2024-08-20 11:53:35 +02:00			`#torchvision.transforms.Normalize(MEAN, STD), #CIFAR10`
			`# torchvision.transforms.Lambda(lambda tensor: tensor.to(def_type)),`
			`]`
RandAugment 2020-02-05 12:24:20 -05:00
			`## RandAugment ##`
Changement mesure memoire + Tests solarize differentiable 2020-02-10 14:36:12 -05:00			`#from RandAugment import RandAugment`
Enleve dependance RandAugment 2020-01-31 10:36:50 -05:00			`# Add RandAugment with N, M(hyperparameter)`
Changement mesure memoire + Tests solarize differentiable 2020-02-10 14:36:12 -05:00			`#rand_aug={'N': 2, 'M': 1}`
RandAugment 2020-02-05 12:24:20 -05:00			`#rand_aug={'N': 2, 'M': 9./30} #RN-ImageNet`
			`#rand_aug={'N': 3, 'M': 5./30} #WRN-CIFAR10`
			`#rand_aug={'N': 2, 'M': 14./30} #WRN-CIFAR100`
			`#rand_aug={'N': 3, 'M': 7./30} #WRN-SVHN`
Changement mesure memoire + Tests solarize differentiable 2020-02-10 14:36:12 -05:00			`#transform_train.transforms.insert(0, RandAugment(n=rand_aug['N'], m=rand_aug['M']))`
Fix etat Train/Eval pour augmentation differee (Retester !) 2020-01-20 17:09:31 -05:00
Augmented Dataset fonctionnel 2019-12-04 12:28:32 -05:00			`### Classic Dataset ###`
Changes since Teledyne 2024-08-20 11:53:35 +02:00			`BATCH_SIZE = args.batch_size`
			`TEST_SIZE = BATCH_SIZE`
			`# Load Dataset`
			`if args.dataset == 'MNIST':`
			`transform_train.insert(0, torchvision.transforms.Grayscale(3))`
			`transform.insert(0, torchvision.transforms.Grayscale(3))`

			`val_set=False`
			`data_train = torchvision.datasets.MNIST(dataroot, train=True, download=True, transform=torchvision.transforms.Compose(transform_train))`
			`data_val = torchvision.datasets.MNIST(dataroot, train=True, download=True, transform=torchvision.transforms.Compose(transform))`
			`data_test = torchvision.datasets.MNIST(dataroot, train=False, download=True, transform=torchvision.transforms.Compose(transform))`
			`elif args.dataset == 'CIFAR10': #(32x32 RGB)`
			`val_set=False`
			`MEAN=(0.4914, 0.4822, 0.4465)`
			`STD=(0.2023, 0.1994, 0.2010)`
			`data_train = torchvision.datasets.CIFAR10(dataroot, train=True, download=download_data, transform=torchvision.transforms.Compose(transform_train))`
			`data_val = torchvision.datasets.CIFAR10(dataroot, train=True, download=download_data, transform=torchvision.transforms.Compose(transform))`
			`data_test = torchvision.datasets.CIFAR10(dataroot, train=False, download=download_data, transform=torchvision.transforms.Compose(transform))`
			`elif args.dataset == 'CIFAR100': #(32x32 RGB)`
			`val_set=False`
			`MEAN=(0.4914, 0.4822, 0.4465)`
			`STD=(0.2023, 0.1994, 0.2010)`
			`data_train = torchvision.datasets.CIFAR100(dataroot, train=True, download=download_data, transform=torchvision.transforms.Compose(transform_train))`
			`data_val = torchvision.datasets.CIFAR100(dataroot, train=True, download=download_data, transform=torchvision.transforms.Compose(transform))`
			`data_test = torchvision.datasets.CIFAR100(dataroot, train=False, download=download_data, transform=torchvision.transforms.Compose(transform))`
			`elif args.dataset == 'TinyImageNet': #(Train:100k, Val:5k, Test:5k) (64x64 RGB)`
			`image_size=64 #128 / 224`
			`print('Using image size', image_size)`
			`transform_train=[torchvision.transforms.Resize(image_size), torchvision.transforms.CenterCrop(image_size)]+transform_train`
			`transform=[torchvision.transforms.Resize(image_size), torchvision.transforms.CenterCrop(image_size)]+transform`

			`val_set=True`
			`MEAN=(0.485, 0.456, 0.406)`
			`STD=(0.229, 0.224, 0.225)`
			`data_train = torchvision.datasets.ImageFolder(os.path.join(dataroot, 'tiny-imagenet-200/train'), transform=torchvision.transforms.Compose(transform_train))`
			`data_val = torchvision.datasets.ImageFolder(os.path.join(dataroot, 'tiny-imagenet-200/val'), transform=torchvision.transforms.Compose(transform))`
			`data_test = torchvision.datasets.ImageFolder(os.path.join(dataroot, 'tiny-imagenet-200/test'), transform=torchvision.transforms.Compose(transform))`
			`elif args.dataset == 'ImageNet': #`
			`image_size=128 #224`
			`print('Using image size', image_size)`
			`transform_train=[torchvision.transforms.Resize(image_size), torchvision.transforms.CenterCrop(image_size)]+transform_train`
			`transform=[torchvision.transforms.Resize(image_size), torchvision.transforms.CenterCrop(image_size)]+transform`

			`val_set=False`
			`MEAN=(0.485, 0.456, 0.406)`
			`STD=(0.229, 0.224, 0.225)`
			`data_train = torchvision.datasets.ImageFolder(root=os.path.join(dataroot, 'ImageNet/train'), transform=torchvision.transforms.Compose(transform_train))`
			`data_val = torchvision.datasets.ImageFolder(root=os.path.join(dataroot, 'ImageNet/train'), transform=torchvision.transforms.Compose(transform))`
			`data_test = torchvision.datasets.ImageFolder(root=os.path.join(dataroot, 'ImageNet/validation'), transform=torchvision.transforms.Compose(transform))`

			`else:`
			`raise Exception('Unknown dataset')`

			`# Ready dataloader`
			`if not val_set : #Split Training set into Train/Val`
			`#Validation set size [0, 1]`
			`valid_size=0.1`
			`train_subset_indices=range(int(len(data_train)*(1-valid_size)))`
			`val_subset_indices=range(int(len(data_train)*(1-valid_size)),len(data_train))`
			`#train_subset_indices=range(BATCH_SIZE*10)`
			`#val_subset_indices=range(BATCH_SIZE10, BATCH_SIZE20)`

			`from torch.utils.data import SubsetRandomSampler`
			`dl_train = torch.utils.data.DataLoader(data_train, batch_size=BATCH_SIZE, shuffle=False, sampler=SubsetRandomSampler(train_subset_indices), num_workers=args.workers, pin_memory=pin_memory)`
			`dl_val = torch.utils.data.DataLoader(data_val, batch_size=BATCH_SIZE, shuffle=False, sampler=SubsetRandomSampler(val_subset_indices), num_workers=args.workers, pin_memory=pin_memory)`
			`dl_test = torch.utils.data.DataLoader(data_test, batch_size=TEST_SIZE, shuffle=False, num_workers=args.workers, pin_memory=pin_memory)`
			`else:`
			`dl_train = torch.utils.data.DataLoader(data_train, batch_size=BATCH_SIZE, shuffle=True, num_workers=args.workers, pin_memory=pin_memory)`
			`dl_val = torch.utils.data.DataLoader(data_val, batch_size=BATCH_SIZE, shuffle=True, num_workers=args.workers, pin_memory=pin_memory)`
			`dl_test = torch.utils.data.DataLoader(data_test, batch_size=TEST_SIZE, shuffle=False, num_workers=args.workers, pin_memory=pin_memory)`
Prepartaion dataset benchmark 2020-02-03 12:55:36 -05:00

			`#SVHN`
			`#trainset = torchvision.datasets.SVHN(root=dataroot, split='train', download=download_data, transform=transform_train)`
			`#extraset = torchvision.datasets.SVHN(root=dataroot, split='extra', download=download_data, transform=transform_train)`
			`#data_train = ConcatDataset([trainset, extraset])`
			`#data_test = torchvision.datasets.SVHN(dataroot, split='test', download=download_data, transform=transform)`

			`#ImageNet`
			`#Necessite SciPy`
			`# Probleme ? : https://github.com/ildoonet/pytorch-randaugment/blob/48b8f509c4bbda93bbe733d98b3fd052b6e4c8ae/RandAugment/imagenet.py#L28`
			`#data_train = torchvision.datasets.ImageNet(root=os.path.join(dataroot, 'imagenet-pytorch'), split='train', transform=transform_train)`
			`#data_test = torchvision.datasets.ImageNet(root=os.path.join(dataroot, 'imagenet-pytorch'), split='val', transform=transform_test)`

Cross Validation splits + New mesure process time (train utils) 2020-02-03 15:08:22 -05:00			`#Cross Validation`
Comment Confmat + Cross-Val (sans Skorch) + minor improv 2020-02-03 17:46:32 -05:00			`'''`
			`import numpy as np`
			`from sklearn.model_selection import ShuffleSplit`
			`from sklearn.model_selection import StratifiedShuffleSplit`
			`class CVSplit(object):`
			`"""Class that perform train/valid split on a dataset.`

			`Inspired from : https://skorch.readthedocs.io/en/latest/user/dataset.html`

			`Attributes:`
			`_stratified (bool): Wether the split should be stratified. Recommended to be True for unbalanced dataset.`
			`_val_size (float, int): If float, should be between 0.0 and 1.0 and represent the proportion of the dataset to include in the validation split.`
			`If int, represents the absolute number of validation samples.`
			`_data (Dataset): Dataset to split.`
			`_targets (np.array): Targets of the dataset used if _stratified is set to True.`
			`_cv (BaseShuffleSplit) : Scikit learn object used to split.`

			`"""`
			`def __init__(self, data, val_size=0.1, stratified=True):`
			`""" Intialize CVSplit.`

			`Args:`
			`data (Dataset): Dataset to split.`
			`val_size (float, int): If float, should be between 0.0 and 1.0 and represent the proportion of the dataset to include in the validation split.`
			`If int, represents the absolute number of validation samples. (Default: 0.1)`
			`stratified (bool): Wether the split should be stratified. Recommended to be True for unbalanced dataset.`
			`"""`
			`self._stratified=stratified`
			`self._val_size=val_size`

			`self._data=data`
			`if self._stratified:`
			`cv_cls = StratifiedShuffleSplit`
			`self._targets= np.array(data_train.targets)`
			`else:`
			`cv_cls = ShuffleSplit`

RandAugment 2020-02-05 12:24:20 -05:00			`self._cv= cv_cls(test_size=val_size, random_state=0) #Random state w/ fixed seed`
Comment Confmat + Cross-Val (sans Skorch) + minor improv 2020-02-03 17:46:32 -05:00
			`def next_split(self):`
			`""" Get next cross-validation split.`

			`Returns:`
			`Train DataLoader, Validation DataLoader`
			`"""`
			`args=(np.arange(len(self._data)),)`
			`if self._stratified:`
			`args = args + (self._targets,)`

			`idx_train, idx_valid = next(iter(self._cv.split(*args)))`

			`train_subset = torch.utils.data.Subset(self._data, idx_train)`
			`val_subset = torch.utils.data.Subset(self._data, idx_valid)`

			`dl_train = torch.utils.data.DataLoader(train_subset, batch_size=BATCH_SIZE, shuffle=True, num_workers=num_workers, pin_memory=pin_memory)`
			`dl_val = torch.utils.data.DataLoader(val_subset, batch_size=BATCH_SIZE, shuffle=True, num_workers=num_workers, pin_memory=pin_memory)`

			`return dl_train, dl_val`

			`cvs = CVSplit(data_train, val_size=valid_size)`
RandAugment 2020-02-05 12:24:20 -05:00			`dl_train, dl_val = cvs.next_split()`
			`'''`

			`'''`
			`from skorch.dataset import CVSplit`
			`import numpy as np`
			`cvs = CVSplit(cv=valid_size, stratified=True) #Stratified =True for unbalanced dataset #ShuffleSplit`

			`def next_CVSplit():`

			`train_subset, val_subset = cvs(data_train, y=np.array(data_train.targets))`
			`dl_train = torch.utils.data.DataLoader(train_subset, batch_size=BATCH_SIZE, shuffle=True, num_workers=num_workers, pin_memory=pin_memory)`
			`dl_val = torch.utils.data.DataLoader(val_subset, batch_size=BATCH_SIZE, shuffle=True, num_workers=num_workers, pin_memory=pin_memory)`

			`return dl_train, dl_val`

			`dl_train, dl_val = next_CVSplit()`
			`'''`