0.14.54

bartzbeielstein · bartzbeielstein · commit ccad22ee2f22 · 2024-07-19T20:44:40.000+02:00
passing of boolean enabled
diff --git a/notebooks/00_spotPython_tests.ipynb b/notebooks/00_spotPython_tests.ipynb
@@ -4444,6 +4444,82 @@
         "data.to_csv('moon.csv', index=False)"
       ]
     },
+    {
+      "cell_type": "markdown",
+      "metadata": {},
+      "source": [
+        "# Sklearn Data Sets"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 6,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "from sklearn.datasets import make_classification\n",
+        "import pandas as pd\n",
+        "import numpy as np\n",
+        "X, y = make_classification(n_samples=1000, n_features=20,  n_informative=2, n_redundant=2, n_repeated=0, n_classes=2, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None)\n",
+        "# combine the training and test data and save to a csv file\n",
+        "data = pd.DataFrame(np.hstack((X, y.reshape(-1, 1))))\n",
+        "data.columns = [f\"x{i}\" for i in range(1, 21)] + [\"y\"]\n",
+        "data.to_csv('binary_classification.csv', index=False)\n",
+        "\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 8,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "from sklearn.datasets import make_classification\n",
+        "import pandas as pd\n",
+        "import numpy as np\n",
+        "X, y = make_classification(n_samples=1000, n_features=20,  n_informative=9, n_redundant=2, n_repeated=0, n_classes=10, n_clusters_per_class=2, weights=None, flip_y=0.01, class_sep=1.0, hypercube=True, shift=0.0, scale=1.0, shuffle=True, random_state=None)\n",
+        "# combine the training and test data and save to a csv file\n",
+        "data = pd.DataFrame(np.hstack((X, y.reshape(-1, 1))))\n",
+        "data.columns = [f\"x{i}\" for i in range(1, 21)] + [\"y\"]\n",
+        "data.to_csv('multiple_classification.csv', index=False)"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 10,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "from sklearn.datasets import make_regression\n",
+        "import pandas as pd\n",
+        "import numpy as np\n",
+        "X, y = make_regression(n_samples=1000, n_features=20, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)\n",
+        "# combine the training and test data and save to a csv file\n",
+        "data = pd.DataFrame(np.hstack((X, y.reshape(-1, 1))))\n",
+        "data.columns = [f\"x{i}\" for i in range(1, 21)] + [\"y\"]\n",
+        "data.to_csv('regression.csv', index=False)\n"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 11,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/plain": [
+              "True"
+            ]
+          },
+          "execution_count": 11,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "bool(1)"
+      ]
+    },
     {
       "cell_type": "code",
       "execution_count": null,
diff --git a/pyproject.toml b/pyproject.toml
@@ -7,7 +7,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "spotpython"
-version = "0.14.52"
+version = "0.14.54"
 authors = [
   { name="T. Bartz-Beielstein", email="tbb@bartzundbartz.de" }
 ]
diff --git a/src/spotPython/data/lightcrossvalidationdatamodule.py b/src/spotPython/data/lightcrossvalidationdatamodule.py
@@ -6,7 +6,6 @@
 import torch
 
 
-
 class LightCrossValidationDataModule(L.LightningDataModule):
     """
     A LightningDataModule for handling cross-validation data splits.
@@ -89,7 +88,7 @@ def setup(self, stage: Optional[str] = None) -> None:
             print(f"Train Dataset Size: {len(self.data_train)}")
             self.data_val = Subset(dataset_full, val_indexes)
             print(f"Val Dataset Size: {len(self.data_val)}")
-        
+
         if self.scaler is not None:
             # Fit the scaler on training data and transform both train and val data
             scaler_train_data = torch.stack([self.data_train[i][0] for i in range(len(self.data_train))]).squeeze(1)
diff --git a/src/spotPython/fun/hypersklearn.py b/src/spotPython/fun/hypersklearn.py
@@ -144,7 +144,7 @@ def fun_sklearn(self, X: np.ndarray, fun_control: dict = None) -> np.ndarray:
                     df_eval, _ = evaluate_model_oob(model, self.fun_control)
                 elif eval_type == "train_cv":
                     df_eval, _ = evaluate_cv(model, self.fun_control)
-                else:  # eval_type == "train_hold_out":
+                else:  # None or "evaluate_hold_out":
                     df_eval, _ = evaluate_hold_out(model, self.fun_control)
             except Exception as err:
                 print(f"Error in fun_sklearn(). Call to evaluate_model failed. {err=}, {type(err)=}")
diff --git a/src/spotPython/hyperparameters/values.py b/src/spotPython/hyperparameters/values.py
@@ -265,6 +265,9 @@ def get_dict_with_levels_and_types(fun_control: Dict[str, Any], v: Dict[str, Any
                 c = d[key]["levels"][value]
                 k = class_for_name(mdl, c)
                 new_dict[key] = k()
+            # bool() introduced to convert 0 and 1 to False and True in v0.14.54
+            elif d[key]["core_model_parameter_type"] == "bool":
+                new_dict[key] = bool(d[key]["levels"][value])
             else:
                 new_dict[key] = d[key]["levels"][value]
         else:
@@ -1821,6 +1824,24 @@ def get_prep_model(prepmodel_name) -> object:
     return prepmodel
 
 
+def get_sklearn_scaler(scaler_name) -> object:
+    """
+    Get the sklearn scaler model from the name.
+
+    Args:
+        scaler_name (str): The name of the preprocessing model.
+
+    Returns:
+        sklearn.preprocessing (object): The sklearn scaler.
+
+    """
+    if scaler_name == "None":
+        scaler = None
+    else:
+        scaler = getattr(sklearn.preprocessing, scaler_name)
+    return scaler
+
+
 def get_metric_sklearn(metric_name) -> object:
     """
     Returns the sklearn metric from the metric name.
diff --git a/src/spotPython/sklearn/traintest.py b/src/spotPython/sklearn/traintest.py
@@ -6,10 +6,12 @@
 
 
 def evaluate_model(model, fun_control):
-    # pprint.pprint(fun_control)
     try:
         X_train, y_train = get_Xy_from_df(fun_control["train"], fun_control["target_column"])
         X_test, y_test = get_Xy_from_df(fun_control["test"], fun_control["target_column"])
+        if fun_control["scaler"] is not None:
+            X_train = fun_control["scaler"]().fit_transform(X_train)
+            X_test = fun_control["scaler"]().transform(X_test)
         model.fit(X_train, y_train)
         if fun_control["predict_proba"]:
             df_preds = model.predict_proba(X_test)
@@ -24,30 +26,38 @@ def evaluate_model(model, fun_control):
 
 
 def evaluate_hold_out(model, fun_control):
-    # pprint.pprint(fun_control)
     train_df = fun_control["train"]
     target_column = fun_control["target_column"]
     try:
         X_train, X_test, y_train, y_test = train_test_split(
             train_df.drop(target_column, axis=1),
             train_df[target_column],
             random_state=42,
-            test_size=0.25,
-            stratify=train_df[target_column],
+            test_size=fun_control["test_size"],
+            # stratify=train_df[target_column],
         )
-        # scaler fit_transform(X_train)
+    except Exception as err:
+        print(f"Error in evaluate_hold_out(). Call to train_test_split() failed. {err=}, {type(err)=}")
+    try:
+        if fun_control["scaler"] is not None:
+            scaler = fun_control["scaler"]()
+            X_train = scaler.fit_transform(X_train)
         model.fit(X_train, y_train)
+    except Exception as err:
+        print(f"Error in evaluate_hold_out(). Call to fit() failed. {err=}, {type(err)=}")
+    try:
         # convert to numpy array, see https://github.com/scikit-learn/scikit-learn/pull/26772
         X_test = np.array(X_test)
-        # scaler transform(X_test)
+        if fun_control["scaler"] is not None:
+            X_test = scaler.transform(X_test)
         y_test = np.array(y_test)
-        if fun_control["predict_proba"]:
+        if fun_control["predict_proba"] or fun_control["task"] == "classification":
             df_preds = model.predict_proba(X_test)
         else:
             df_preds = model.predict(X_test)
         df_eval = fun_control["metric_sklearn"](y_test, df_preds, **fun_control["metric_params"])
     except Exception as err:
-        print(f"Error in fun_sklearn(). Call to evaluate_hold_out failed. {err=}, {type(err)=}")
+        print(f"Error in evaluate_hold_out(). Call to predict() failed. {err=}, {type(err)=}")
         df_eval = np.nan
         df_eval = np.nan
     return df_eval, df_preds
diff --git a/src/spotPython/utils/init.py b/src/spotPython/utils/init.py
@@ -64,6 +64,7 @@ def fun_control_init(
     prep_model_name=None,
     progress_file=None,
     scaler=None,
+    scaler_name=None,
     scenario=None,
     seed=123,
     show_models=False,
@@ -198,6 +199,8 @@ def fun_control_init(
         scaler (object):
             The scaler object, e.g., the TorchStandard scaler from spot.utils.scaler.py.
             Default is None.
+        scaler_name (str):
+            The name of the scaler object. Default is None.
         scenario (str):
             The scenario to use. Default is None. Can be "river", "sklearn", or "lightning".
         seed (int):
@@ -416,6 +419,7 @@ def fun_control_init(
         "progress_file": progress_file,
         "save_model": False,
         "scaler": scaler,
+        "scaler_name": scaler_name,
         "scenario": scenario,
         "seed": seed,
         "show_batch_interval": 1_000_000,

Original file line number	Diff line number	Diff line change
`@@ -7,7 +7,7 @@ build-backend = "setuptools.build_meta"`
`7`	`7`
`8`	`8`	`[project]`
`9`	`9`	`name = "spotpython"`
`10`		`-version = "0.14.52"`
	`10`	`+version = "0.14.54"`
`11`	`11`	`authors = [`
`12`	`12`	`{ name="T. Bartz-Beielstein", email="tbb@bartzundbartz.de" }`
`13`	`13`	`]`