test min max scaler

ahinterl94-th · ahinterl94-th · commit 9028ee1bb001 · 2024-07-09T16:20:00.000+02:00
diff --git a/notebooks/00_spotPython_tests.ipynb b/notebooks/00_spotPython_tests.ipynb
@@ -4066,7 +4066,7 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 25,
+      "execution_count": 28,
       "metadata": {},
       "outputs": [
         {
@@ -4079,19 +4079,30 @@
             "test_size: 0.5 used for predict dataset.\n",
             "LightDataModule.train_dataloader(). data_train size: 5160\n"
           ]
+        },
+        {
+          "data": {
+            "text/plain": [
+              "tensor([ 23.0493,  27.5234,  23.3288,  22.5529, 275.2078,  22.8845,  28.7669,\n",
+              "          0.8448], grad_fn=<AddBackward0>)"
+            ]
+          },
+          "execution_count": 28,
+          "metadata": {},
+          "output_type": "execute_result"
         }
       ],
       "source": [
         "import torch\n",
         "from torch.utils.data import DataLoader\n",
         "from spotPython.data.lightdatamodule import LightDataModule\n",
         "from spotPython.data.csvdataset import CSVDataset\n",
-        "from spotPython.utils.scaler import TorchStandardScaler\n",
+        "from spotPython.utils.scaler import TorchStandardScaler, TorchMinMaxScaler\n",
         "from spotPython.data.california_housing import CaliforniaHousing\n",
         "\n",
         "\n",
         "dataset = CaliforniaHousing(feature_type=torch.float32, target_type=torch.float32)\n",
-        "scaler = TorchStandardScaler()\n",
+        "scaler = TorchMinMaxScaler()\n",
         "data_module = LightDataModule(dataset=dataset, batch_size=5, test_size=0.5, scaler=scaler)\n",
         "data_module.setup()\n",
         "\n",
@@ -4103,15 +4114,9 @@
         "# Iterate over batches in the DataLoader\n",
         "for batch in loader():\n",
         "    inputs, targets = batch\n",
-        "    if total_sum is None:\n",
-        "        total_sum = inputs.sum(dim=0)\n",
-        "    else:\n",
-        "        total_sum += inputs.sum(dim=0)\n",
-        "    total_count += inputs.shape[0]\n",
+        "    \n",
         "\n",
-        "# Calculate the mean over all inputs\n",
-        "mean_inputs = total_sum / total_count\n",
-        "assert mean_inputs.mean() < 0.00001"
+        "total_sum\n"
       ]
     },
     {
diff --git a/test/test_scaler.py b/test/test_scaler.py
@@ -1,10 +1,13 @@
 import torch
 from spotPython.data.lightdatamodule import LightDataModule
 from spotPython.data.csvdataset import CSVDataset
-from spotPython.utils.scaler import TorchStandardScaler
+from spotPython.utils.scaler import TorchStandardScaler, TorchMinMaxScaler
 from spotPython.data.california_housing import CaliforniaHousing
 
-def test_scaler():
+def test_standard_scaler():
+    """
+    Test if TorchStandardScaler scales data around 0.
+    """
     dataset = CaliforniaHousing(feature_type=torch.float32, target_type=torch.float32)
     scaler = TorchStandardScaler()
     data_module = LightDataModule(dataset=dataset, batch_size=5, test_size=0.5, scaler=scaler)
@@ -30,4 +33,19 @@ def test_scaler():
     #assert that overall mean goes against zero
     assert overall_mean < 0.00001
     
+def test_min_max_scaler():
+    """
+    Test if TorchMinMaxScaler scales data between 0 and 1.
+    """
+    dataset = CaliforniaHousing(feature_type=torch.float32, target_type=torch.float32)
+    scaler = TorchMinMaxScaler()
+    data_module = LightDataModule(dataset=dataset, batch_size=5, test_size=0.5, scaler=scaler)
+    data_module.setup()
+
+    loader = data_module.train_dataloader
+
+    # Iterate over batches in the DataLoader
+    for batch in loader():
+        inputs, targets = batch
+        assert torch.all(inputs >= 0) and torch.all(inputs <= 1), "Inputs are not scaled between 0 and 1"