0.14.26

bartzbeielstein · bartzbeielstein · commit 046b1e4ff9b0 · 2024-07-04T17:30:08.000+02:00
diff --git a/pyproject.toml b/pyproject.toml
@@ -7,7 +7,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "spotpython"
-version = "0.14.25"
+version = "0.14.26"
 authors = [
   { name="T. Bartz-Beielstein", email="tbb@bartzundbartz.de" }
 ]
diff --git a/src/spotPython/data/lightdatamodule.py b/src/spotPython/data/lightdatamodule.py
@@ -72,11 +72,23 @@ class LightDataModule(L.LightningDataModule):
 
     """
 
-    def __init__(self, batch_size: int, dataset: object, test_size: float, test_seed: int = 42, num_workers: int = 0):
+    def __init__(
+        self,
+        batch_size: int,
+        dataset: object,
+        test_size: float,
+        scaler: None = None,
+        test_seed: int = 42,
+        num_workers: int = 0,
+    ):
         super().__init__()
         self.batch_size = batch_size
         self.data_full = dataset
         self.test_size = test_size
+        if scaler is not None:
+            self.scaler = scaler()
+        else:
+            self.scaler = None
         self.test_seed = test_seed
         self.num_workers = num_workers
 
@@ -182,6 +194,9 @@ def train_dataloader(self) -> DataLoader:
         print(f"LightDataModule.train_dataloader(). data_train size: {len(self.data_train)}")
         # print(f"LightDataModule: train_dataloader(). batch_size: {self.batch_size}")
         # print(f"LightDataModule: train_dataloader(). num_workers: {self.num_workers}")
+        # apply fit_transform to the training data
+        if self.scaler is not None:
+            self.data_train = self.scaler.fit_transform(self.data_train)
         return DataLoader(self.data_train, batch_size=self.batch_size, num_workers=self.num_workers)
 
     def val_dataloader(self) -> DataLoader:
@@ -205,6 +220,9 @@ def val_dataloader(self) -> DataLoader:
         print(f"LightDataModule.val_dataloader(). Val. set size: {len(self.data_val)}")
         # print(f"LightDataModule: val_dataloader(). batch_size: {self.batch_size}")
         # print(f"LightDataModule: val_dataloader(). num_workers: {self.num_workers}")
+        # apply fit_transform to the val data
+        if self.scaler is not None:
+            self.data_val = self.scaler.transform(self.data_val)
         return DataLoader(self.data_val, batch_size=self.batch_size, num_workers=self.num_workers)
 
     def test_dataloader(self) -> DataLoader:
@@ -229,6 +247,9 @@ def test_dataloader(self) -> DataLoader:
         print(f"LightDataModule.test_dataloader(). Test set size: {len(self.data_test)}")
         # print(f"LightDataModule: test_dataloader(). batch_size: {self.batch_size}")
         # print(f"LightDataModule: test_dataloader(). num_workers: {self.num_workers}")
+        # apply fit_transform to the val data
+        if self.scaler is not None:
+            self.data_test = self.scaler.transform(self.data_test)
         return DataLoader(self.data_test, batch_size=self.batch_size, num_workers=self.num_workers)
 
     def predict_dataloader(self) -> DataLoader:
@@ -253,4 +274,8 @@ def predict_dataloader(self) -> DataLoader:
         print(f"LightDataModule.predict_dataloader(). Predict set size: {len(self.data_predict)}")
         # print(f"LightDataModule: predict_dataloader(). batch_size: {self.batch_size}")
         # print(f"LightDataModule: predict_dataloader(). num_workers: {self.num_workers}")
+        # apply fit_transform to the val data
+        if self.scaler is not None:
+            self.data_test = self.scaler.transform(self.data_test)
+        return DataLoader(self.data_test, batch_size=self.batch_size, num_workers=self.num_workers)
         return DataLoader(self.data_predict, batch_size=len(self.data_predict), num_workers=self.num_workers)
diff --git a/src/spotPython/light/predictmodel.py b/src/spotPython/light/predictmodel.py
@@ -70,6 +70,7 @@ def predict_model(config: dict, fun_control: dict) -> Tuple[float, float]:
         num_workers=fun_control["num_workers"],
         test_size=fun_control["test_size"],
         test_seed=fun_control["test_seed"],
+        scaler=fun_control["scaler"],
     )
     # TODO: Check if this is necessary:
     # dm.setup(stage="train")
diff --git a/src/spotPython/light/testmodel.py b/src/spotPython/light/testmodel.py
@@ -71,6 +71,7 @@ def test_model(config: dict, fun_control: dict) -> Tuple[float, float]:
         num_workers=fun_control["num_workers"],
         test_size=fun_control["test_size"],
         test_seed=fun_control["test_seed"],
+        scaler=fun_control["scaler"],
     )
     # TODO: Check if this is necessary:
     # dm.setup()
diff --git a/src/spotPython/light/trainmodel.py b/src/spotPython/light/trainmodel.py
@@ -102,6 +102,7 @@ def train_model(config: dict, fun_control: dict, timestamp: bool = True) -> floa
         num_workers=fun_control["num_workers"],
         test_size=fun_control["test_size"],
         test_seed=fun_control["test_seed"],
+        scaler=fun_control["scaler"],
     )
     # TODO: Check if this is necessary:
     # dm.setup()
diff --git a/src/spotPython/utils/init.py b/src/spotPython/utils/init.py
@@ -58,6 +58,7 @@ def fun_control_init(
     prep_model=None,
     prep_model_name=None,
     progress_file=None,
+    scaler=None,
     scenario=None,
     seed=123,
     show_models=False,
@@ -186,6 +187,9 @@ def fun_control_init(
             The name of the preprocessing model. Default is None.
         progress_file (str):
             The name of the progress file. Default is None.
+        scaler (object):
+            The scaler object, e.g., StandardScaler from sklearn via "from sklearn.preprocessing import StandardScaler".
+            Default is None.
         scenario (str):
             The scenario to use. Default is None. Can be "river", "sklearn", or "lightning".
         seed (int):
@@ -403,6 +407,7 @@ def fun_control_init(
         "prep_model_name": prep_model_name,
         "progress_file": progress_file,
         "save_model": False,
+        "scaler": scaler,
         "scenario": scenario,
         "seed": seed,
         "show_batch_interval": 1_000_000,

Original file line number	Diff line number	Diff line change
`@@ -7,7 +7,7 @@ build-backend = "setuptools.build_meta"`
`7`	`7`
`8`	`8`	`[project]`
`9`	`9`	`name = "spotpython"`
`10`		`-version = "0.14.25"`
	`10`	`+version = "0.14.26"`
`11`	`11`	`authors = [`
`12`	`12`	`{ name="T. Bartz-Beielstein", email="tbb@bartzundbartz.de" }`
`13`	`13`	`]`
Original file line number	Diff line number	Diff line change
`@@ -70,6 +70,7 @@ def predict_model(config: dict, fun_control: dict) -> Tuple[float, float]:`
`70`	`70`	`num_workers=fun_control["num_workers"],`
`71`	`71`	`test_size=fun_control["test_size"],`
`72`	`72`	`test_seed=fun_control["test_seed"],`
	`73`	`+ scaler=fun_control["scaler"],`
`73`	`74`	`)`
`74`	`75`	`# TODO: Check if this is necessary:`
`75`	`76`	`# dm.setup(stage="train")`
Original file line number	Diff line number	Diff line change
`@@ -71,6 +71,7 @@ def test_model(config: dict, fun_control: dict) -> Tuple[float, float]:`
`71`	`71`	`num_workers=fun_control["num_workers"],`
`72`	`72`	`test_size=fun_control["test_size"],`
`73`	`73`	`test_seed=fun_control["test_seed"],`
	`74`	`+ scaler=fun_control["scaler"],`
`74`	`75`	`)`
`75`	`76`	`# TODO: Check if this is necessary:`
`76`	`77`	`# dm.setup()`
Original file line number	Diff line number	Diff line change
`@@ -102,6 +102,7 @@ def train_model(config: dict, fun_control: dict, timestamp: bool = True) -> floa`
`102`	`102`	`num_workers=fun_control["num_workers"],`
`103`	`103`	`test_size=fun_control["test_size"],`
`104`	`104`	`test_seed=fun_control["test_seed"],`
	`105`	`+ scaler=fun_control["scaler"],`
`105`	`106`	`)`
`106`	`107`	`# TODO: Check if this is necessary:`
`107`	`108`	`# dm.setup()`