forecastflowml.ForecastFlowML.grid_search#

ForecastFlowML.grid_search(df, param_grid, n_cv_splits=3, max_train_size=None, cv_step_length=None, scoring_metric='neg_mean_squared_error', refit=True, spark=None)[source]#

Grid search with time series cross validation.

Parameters:

df (Union[pandas.core.frame.DataFrame, pyspark.sql.dataframe.DataFrame]) – Dataset to fit.
param_grid (Dict[str, List[Union[str, float, int]]]) – Dictionary with parameters as keys and lists of parameter settings to try as values.
n_cv_splits (int) – Number of cross validation folds.
max_train_size (Optional[int]) – Number of max periods to use as training set.
cv_step_length (Optional[int]) – Number of periods to put between each cv folds.
scoring_metric (str) – scikit-learn scoring metric. See list of available metrics: https://scikit-learn.org/stable/modules/model_evaluation.html.
refit (bool) – Whether to refit model for each training dataset.
spark (Optional[pyspark.sql.session.SparkSession]) – Spark session instance. Only provide when df is a pandas DataFrame.

Return type:

DataFrame that includes score per parameter combination.