0.14.55

bartzbeielstein · bartzbeielstein · commit bd1de72acdfc · 2024-07-23T15:14:00.000+02:00
sklearn traintest missing names fixed
diff --git a/notebooks/00_spotPython_tests.ipynb b/notebooks/00_spotPython_tests.ipynb
@@ -4502,22 +4502,14 @@
     },
     {
       "cell_type": "code",
-      "execution_count": 11,
-      "metadata": {},
-      "outputs": [
-        {
-          "data": {
-            "text/plain": [
-              "True"
-            ]
-          },
-          "execution_count": 11,
-          "metadata": {},
-          "output_type": "execute_result"
-        }
-      ],
-      "source": [
-        "bool(1)"
+      "execution_count": 2,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "from sklearn.datasets import load_iris\n",
+        "import pandas as pd\n",
+        "data = load_iris(as_frame=True)\n",
+        "data.frame.to_csv('iris.csv', index=False)\n"
       ]
     },
     {
diff --git a/pyproject.toml b/pyproject.toml
@@ -7,7 +7,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "spotpython"
-version = "0.14.54"
+version = "0.14.55"
 authors = [
   { name="T. Bartz-Beielstein", email="tbb@bartzundbartz.de" }
 ]
diff --git a/src/spotPython/hyperdict/sklearn_hyper_dict.json b/src/spotPython/hyperdict/sklearn_hyper_dict.json
@@ -219,14 +219,14 @@
         "oob_score": {
             "levels": [
                 0,
-                1
+                0
             ],
             "type": "factor",
             "default": 0,
             "transform": "None",
             "core_model_parameter_type": "bool",
             "lower": 0,
-            "upper": 1
+            "upper": 0
         }
     },
     "SVC": {
@@ -351,7 +351,7 @@
             "transform": "None",
             "core_model_parameter_type": "bool",
             "lower": 0,
-            "upper": 0
+            "upper": 1
         },
         "tol": {
             "type": "float",
@@ -364,8 +364,8 @@
             "type": "float",
             "default": 1.0,
             "transform": "None",
-            "lower": 0.1,
-            "upper": 10.0
+            "lower": 0.5,
+            "upper": 2.0
         },
         "fit_intercept": {
             "levels": [
@@ -381,10 +381,10 @@
         },
         "intercept_scaling": {
             "type": "float",
-            "default": 1,
+            "default": 1.0,
             "transform": "None",
-            "lower": 1,
-            "upper": 1
+            "lower": 1.0,
+            "upper": 1.0
         },
         "solver": {
             "levels": [
@@ -407,17 +407,6 @@
             "transform": "transform_power_10_int",
             "lower": 2,
             "upper": 4
-        },
-        "multi_class": {
-            "levels": [
-                "auto"
-            ],
-            "type": "factor",
-            "default": "auto",
-            "transform": "None",
-            "core_model_parameter_type": "str",
-            "lower": 0,
-            "upper": 0
         }
     },
     "KNeighborsClassifier": {
@@ -639,18 +628,11 @@
             "upper": 1e6
         },
         "max_features": {
-            "levels": [
-                "auto",
-                "sqrt",
-                "log2",
-                "none"
-            ],
-            "type": "factor",
-            "default": "none",
-            "transform": "transform_none_to_None",
-            "core_model_parameter_type": "str",
-            "lower": 0,
-            "upper": 3
+            "type": "float",
+            "default": 0.5,
+            "transform": "None",
+            "lower": 0.0,
+            "upper": 1.0
         },
         "max_leaf_nodes": {
             "type": "int",
diff --git a/src/spotPython/hyperparameters/values.py b/src/spotPython/hyperparameters/values.py
@@ -1731,7 +1731,10 @@ def get_river_core_model_from_name(core_model_name: str) -> tuple:
         >>> from spotPython.hyperparameters.values import get_core_model_from_name
             model_name, model_instance = get_core_model_from_name('tree.HoeffdingTreeRegressor')
             print(f"Model Name: {model_name}, Model Instance: {model_instance}")
-                Model Name: HoeffdingTreeRegressor, Model Instance: <class 'river.tree.hoeffding_tree_regressor.HoeffdingTreeRegressor'>
+                Model Name:
+                HoeffdingTreeRegressor,
+                Model Instance:
+                <class 'river.tree.hoeffding_tree_regressor.HoeffdingTreeRegressor'>
     """
     # Split the model name into its components
     name_parts = core_model_name.split(".")
@@ -1760,7 +1763,10 @@ def get_core_model_from_name(core_model_name: str) -> tuple:
     Examples:
         >>> model_name, model_instance = get_core_model_from_name("light.regression.NNLinearRegressor")
             print(f"Model Name: {model_name}, Model Instance: {model_instance}")
-                Model Name: NNLinearRegressor, Model Instance: <class 'spotPython.light.regression.nn_linear_regressor.NNLinearRegressor'>
+                Model Name:
+                NNLinearRegressor,
+                Model Instance:
+                <class 'spotPython.light.regression.nn_linear_regressor.NNLinearRegressor'>
     """
     # Split the model name into its components
     name_parts = core_model_name.split(".")
diff --git a/src/spotPython/sklearn/traintest.py b/src/spotPython/sklearn/traintest.py
@@ -3,6 +3,7 @@
 from sklearn.model_selection import cross_val_score, train_test_split
 from sklearn.metrics import make_scorer
 from spotPython.utils.metrics import mapk_scorer
+import pandas as pd
 
 
 def evaluate_model(model, fun_control):
@@ -42,14 +43,16 @@ def evaluate_hold_out(model, fun_control):
         if fun_control["scaler"] is not None:
             scaler = fun_control["scaler"]()
             X_train = scaler.fit_transform(X_train)
+            X_train = pd.DataFrame(
+                X_train, columns=train_df.drop(target_column, axis=1).columns
+            )  # Maintain column names
         model.fit(X_train, y_train)
     except Exception as err:
         print(f"Error in evaluate_hold_out(). Call to fit() failed. {err=}, {type(err)=}")
     try:
-        # convert to numpy array, see https://github.com/scikit-learn/scikit-learn/pull/26772
-        X_test = np.array(X_test)
         if fun_control["scaler"] is not None:
             X_test = scaler.transform(X_test)
+            X_test = pd.DataFrame(X_test, columns=train_df.drop(target_column, axis=1).columns)  # Maintain column names
         y_test = np.array(y_test)
         if fun_control["predict_proba"] or fun_control["task"] == "classification":
             df_preds = model.predict_proba(X_test)
@@ -59,7 +62,6 @@ def evaluate_hold_out(model, fun_control):
     except Exception as err:
         print(f"Error in evaluate_hold_out(). Call to predict() failed. {err=}, {type(err)=}")
         df_eval = np.nan
-        df_eval = np.nan
     return df_eval, df_preds
 
 

Original file line number	Diff line number	Diff line change
`@@ -7,7 +7,7 @@ build-backend = "setuptools.build_meta"`
`7`	`7`
`8`	`8`	`[project]`
`9`	`9`	`name = "spotpython"`
`10`		`-version = "0.14.54"`
	`10`	`+version = "0.14.55"`
`11`	`11`	`authors = [`
`12`	`12`	`{ name="T. Bartz-Beielstein", email="tbb@bartzundbartz.de" }`
`13`	`13`	`]`