update scaler

ahinterl94-th · ahinterl94-th · commit 54489cf30fae · 2024-07-09T15:46:14.000+02:00
diff --git a/notebooks/00_spotPython_tests.ipynb b/notebooks/00_spotPython_tests.ipynb
@@ -3793,25 +3793,52 @@
     },
     {
       "cell_type": "code",
-      "execution_count": null,
+      "execution_count": 1,
       "metadata": {},
-      "outputs": [],
+      "outputs": [
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "LightDataModule.setup(): stage: None\n",
+            "train_size: 0.25, val_size: 0.25 used for train & val data.\n",
+            "test_size: 0.5 used for test dataset.\n",
+            "test_size: 0.5 used for predict dataset.\n",
+            "Training set size: 3\n"
+          ]
+        }
+      ],
       "source": [
         "from spotPython.data.lightdatamodule import LightDataModule\n",
         "from spotPython.data.csvdataset import CSVDataset\n",
         "from spotPython.data.pkldataset import PKLDataset\n",
+        "from spotPython.utils.scaler import TorchStandardScaler\n",
         "import torch\n",
-        "dataset = CSVDataset(csv_file='data.csv', target_column='prognosis', feature_type=torch.long)\n",
-        "data_module = LightDataModule(dataset=dataset, batch_size=5, test_size=0.5)\n",
+        "\n",
+        "scaler=TorchStandardScaler()\n",
+        "\n",
+        "dataset = CSVDataset(csv_file='data.csv', target_column='prognosis', feature_type=torch.float64)\n",
+        "data_module = LightDataModule(dataset=dataset, batch_size=5, test_size=0.5, scaler=scaler)\n",
         "data_module.setup()\n",
         "print(f\"Training set size: {len(data_module.data_train)}\")\n"
       ]
     },
     {
       "cell_type": "code",
-      "execution_count": null,
+      "execution_count": 2,
       "metadata": {},
-      "outputs": [],
+      "outputs": [
+        {
+          "data": {
+            "text/plain": [
+              "0.19878798965729408"
+            ]
+          },
+          "execution_count": 2,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
       "source": [
         "from sklearn.datasets import load_diabetes\n",
         "diabetes = load_diabetes()\n",
@@ -3821,9 +3848,21 @@
     },
     {
       "cell_type": "code",
-      "execution_count": null,
+      "execution_count": 4,
       "metadata": {},
-      "outputs": [],
+      "outputs": [
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "Batch Size: 1\n",
+            "---------------\n",
+            "Inputs: tensor([[ 0.0381,  0.0507,  0.0617,  0.0219, -0.0442, -0.0348, -0.0434, -0.0026,\n",
+            "          0.0199, -0.0176]])\n",
+            "Targets: tensor([151.])\n"
+          ]
+        }
+      ],
       "source": [
         "from spotPython.data.lightdatamodule import LightDataModule\n",
         "from spotPython.data.csvdataset import CSVDataset\n",
@@ -3908,7 +3947,7 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 1,
+      "execution_count": 6,
       "metadata": {},
       "outputs": [
         {
@@ -3923,15 +3962,14 @@
             "Validation set size: 5160\n",
             "Test set size: 10320\n",
             "LightDataModule.train_dataloader(). data_train size: 5160\n",
-            "[tensor([[ 5.6063e+00,  1.6000e+01,  6.4174e+00,  9.6957e-01,  1.5250e+03,\n",
-            "          3.3152e+00,  3.7450e+01, -1.2190e+02],\n",
-            "        [ 3.3462e+00,  3.4000e+01,  3.9503e+00,  9.8619e-01,  8.0500e+02,\n",
-            "          2.2238e+00,  3.4020e+01, -1.1841e+02]]), tensor([3.2050, 3.0700])]\n",
+            "[tensor([[-0.2677, -0.2508, -0.2664, -0.2752,  2.1991, -0.2714, -0.2160, -0.4747],\n",
+            "        [-0.2714, -0.2216, -0.2704, -0.2752,  1.0301, -0.2732, -0.2216, -0.4690]],\n",
+            "       grad_fn=<StackBackward0>), tensor([3.2050, 3.0700])]\n",
             "LightDataModule.train_dataloader(). data_train size: 5160\n",
-            "[[ 5.6062999e+00  1.6000000e+01  6.4173913e+00  9.6956521e-01\n",
-            "   1.5250000e+03  3.3152175e+00  3.7450001e+01 -1.2190000e+02]\n",
-            " [ 3.3462000e+00  3.4000000e+01  3.9502761e+00  9.8618782e-01\n",
-            "   8.0500000e+02  2.2237568e+00  3.4020000e+01 -1.1841000e+02]]\n"
+            "[[-0.267703   -0.25082865 -0.26638618 -0.2752308   2.1990557  -0.2714226\n",
+            "  -0.21600425 -0.47471142]\n",
+            " [-0.2713723  -0.22160538 -0.27039158 -0.2752038   1.0301248  -0.27319458\n",
+            "  -0.2215729  -0.46904534]]\n"
           ]
         }
       ],
@@ -3940,15 +3978,15 @@
         "from spotPython.data.california_housing import CaliforniaHousing\n",
         "import torch\n",
         "dataset = CaliforniaHousing(feature_type=torch.float32, target_type=torch.float32)\n",
-        "data_module = LightDataModule(dataset=dataset, batch_size=2, test_size=0.5)\n",
+        "data_module = LightDataModule(dataset=dataset, batch_size=2, test_size=0.5, scaler=scaler)\n",
         "data_module.setup()\n",
         "print(f\"Training set size: {len(data_module.data_train)}\")\n",
         "print(f\"Validation set size: {len(data_module.data_val)}\")\n",
         "print(f\"Test set size: {len(data_module.data_test)}\")\n",
         "# print the first batch of the training set from data_module.data_train\n",
         "print(next(iter(data_module.train_dataloader())))\n",
         "# print the first batch of the training set from data_module.data_train as a numpy array\n",
-        "print(next(iter(data_module.train_dataloader()))[0].numpy())\n"
+        "print(next(iter(data_module.train_dataloader()))[0].detach().numpy())\n"
       ]
     },
     {
@@ -4050,7 +4088,7 @@
       "name": "python",
       "nbconvert_exporter": "python",
       "pygments_lexer": "ipython3",
-      "version": "3.11.7"
+      "version": "3.11.8"
     }
   },
   "nbformat": 4,
diff --git a/src/spotPython/data/lightdatamodule.py b/src/spotPython/data/lightdatamodule.py
@@ -54,10 +54,12 @@ class LightDataModule(L.LightningDataModule):
     Examples:
         >>> from spotPython.data.lightdatamodule import LightDataModule
             from spotPython.data.csvdataset import CSVDataset
+            from spotPython.utils.scaler import TorchStandardScaler
             import torch
             # data.csv is simple csv file with 11 samples
             dataset = CSVDataset(csv_file='data.csv', target_column='prognosis', feature_type=torch.long)
-            data_module = LightDataModule(dataset=dataset, batch_size=5, test_size=0.5)
+            scaler = TorchStandardScaler()
+            data_module = LightDataModule(dataset=dataset, batch_size=5, test_size=0.5, scaler=scaler)
             data_module.setup()
             print(f"Training set size: {len(data_module.data_train)}")
             print(f"Validation set size: {len(data_module.data_val)}")
@@ -152,13 +154,13 @@ def setup(self, stage: Optional[str] = None) -> None:
                 train_val_data = torch.cat([self.data_train[i][0] for i in range(len(self.data_train))])
                 self.scaler.fit(train_val_data)
                 self.data_train = [(self.scaler.transform(data), target) for data, target in self.data_train]
-                data_tensors_train = [torch.tensor(data, dtype=torch.float32) for data, target in self.data_train]
-                target_tensors_train = [torch.tensor(target, dtype=torch.float32) for data, target in self.data_train]
+                data_tensors_train = [data.clone().detach().requires_grad_(True) for data, target in self.data_train]
+                target_tensors_train = [target.clone().detach() for data, target in self.data_train]
                 self.data_train = TensorDataset(torch.stack(data_tensors_train), torch.stack(target_tensors_train))
                 #print(self.data_train)
                 self.data_val = [(self.scaler.transform(data), target) for data, target in self.data_val]
-                data_tensors_val = [torch.tensor(data, dtype=torch.float32) for data, target in self.data_val]
-                target_tensors_val = [torch.tensor(target, dtype=torch.float32) for data, target in self.data_val]
+                data_tensors_val = [data.clone().detach().requires_grad_(True) for data, target in self.data_val]
+                target_tensors_val = [target.clone().detach() for data, target in self.data_val]
                 self.data_val = TensorDataset(torch.stack(data_tensors_val), torch.stack(target_tensors_val))
                
         # Assign test dataset for use in dataloader(s)
@@ -169,8 +171,8 @@ def setup(self, stage: Optional[str] = None) -> None:
             self.data_test, _ = random_split(self.data_full, [test_size, full_train_size], generator=generator_test)
             if self.scaler is not None:
                 self.data_test = [(self.scaler.transform(data), target) for data, target in self.data_test]
-                data_tensors_test = [torch.tensor(data, dtype=torch.float32) for data, target in self.data_test]
-                target_tensors_test = [torch.tensor(target, dtype=torch.float32) for data, target in self.data_test]
+                data_tensors_test = [data.clone().detach().requires_grad_(True) for data, target in self.data_test]
+                target_tensors_test = [target.clone().detach() for data, target in self.data_test]
                 self.data_test = TensorDataset(torch.stack(data_tensors_test), torch.stack(target_tensors_test))
                
         # if stage == "predict" or stage is None:
@@ -192,8 +194,8 @@ def setup(self, stage: Optional[str] = None) -> None:
             )
             if self.scaler is not None:
                 self.data_predict = [(self.scaler.transform(data), target) for data, target in self.data_predict]
-                data_tensors_predict= [torch.tensor(data, dtype=torch.float32) for data, target in self.data_predict]
-                target_tensors_predict = [torch.tensor(target, dtype=torch.float32) for data, target in self.data_predict]
+                data_tensors_predict= [data.clone().detach().requires_grad_(True) for data, target in self.data_predict]
+                target_tensors_predict = [target.clone().detach() for data, target in self.data_predict]
                 self.data_predict = TensorDataset(torch.stack(data_tensors_predict), torch.stack(target_tensors_predict))
 
     def train_dataloader(self) -> DataLoader: