Перекрестная проверка - это метод оценки и сравнения прогностических систем в статистике и машинном обучении.

Подробнее про cross-validation...

Я использовал sklearn.model_selection.cross_validate для перекрестной проверки sklearn.pipeline.Pipeline, и это прекрасно работает. Теперь меня интересуют коэффициенты шага выбора признаков в пайплайне. Используется селектор SelectFromModel(LinearSVC(penalty="l1", dual=False)). При установке return...
22 Ноя 2022 в 21:55
Цель состоит в том, чтобы получить сводки R2, RMSE и MAE для cv.krige с перекрестной проверкой исключения. Для иллюстрации у меня есть следующий код (обратите внимание, что создается случайный набор данных и что показатели плохие): library(Metrics) library(nlme) library(Metrics) library(gstat) l...
19 Ноя 2022 в 19:09
Я пытаюсь выполнить логистическую регрессию, используя StratifiedGroupKFold. grid={'C':np.logspace(-3,3,7)} grkf_cv = StratifiedGroupKFold(n_splits=10) id_ls = X_train_df['ID'].to_list() log_reg = LogisticRegression(max_iter=100, random_state=42) logreg_cv = GridSearchCV(log_reg, grid, cv=grkf_cv...
Моя цель - получить модель с хорошим соответствием (разница в показателях обучения и набора тестов составляет всего 1–5%). Это связано с тем, что случайный лес имеет тенденцию к переоснащению (значение f1 для набора параметров по умолчанию для класса 1 равно 1,0). Проблема в том, что GridSearchCV у...
Я хочу использовать GridSearchCV, чтобы найти оптимальный параметр n_neighbors для KNeighborsClassifier. Я хочу использовать показатели «f1_score» И стратегию «пропустить один». Но этот код clf = GridSearchCV(KNeighborsClassifier(), {'n_neighbors': [1, 2, 3]}, cv=LeaveOneOut(), scoring='f1') clf.fi...
Я новичок в глубоком обучении и хотел выполнить задачу семантической сегментации с помощью U-Net. Я слышал, что одна из стратегий улучшения моих результатов — использование перекрестной проверки, которая не очень популярна в глубоком обучении. Я сделал несколько исследований, чтобы узнать, как реали...
Я тестирую RandomForestClassifier на простом наборе данных из sklearn. Когда я разделяю данные с помощью train_test_split, я получаю точность = 0,89. Если я использую перекрестную проверку с cross_val_score с теми же параметрами классификатора, то точность меньше - около 0,83. Почему? Вот код: fr...
Попытка запустить 10-кратную перекрестную проверку с пакетом дерева, чтобы построить и протестировать дерево регрессии, но я сталкиваюсь с ошибкой при создании объекта cv, ошибка In cvdev + plearn$dev : longer object length is not a multiple of shorter object length Не уверен, что может быть прич...
Я пытаюсь найти набор лучших гиперпараметров для моего регрессора с повышением градиента с CV поиска по сетке. Но у меня есть трудности с получением производительности лучшей модели. Мой код выглядит следующим образом: ожидается, что эта функция вернет оптимизированную модель. def parameter_tuning_...
При использовании такого классификатора, как GaussianNB(), результирующие значения .predict_proba() иногда плохо откалиброваны; вот почему я хотел бы обернуть этот классификатор в CalibratedClassifierCV sklearn. Теперь у меня есть проблема с двоичной классификацией только с очень небольшим количест...
Что я пытаюсь сделать: Соответствуйте модели линейной регрессии на данных от преобразования PCA Используйте эту модель линейной регрессии для перекрестной проверки ks = [1,2,3,4,5,6,8,10,12,15,20] mean_val_mse = [] # loop through all k values for k in ks: # instantiate pca and set n_components =...
Для набора данных Boston выполните полиномиальную регрессию со степенью 5,4,3 и 2. Я хочу использовать цикл, но получаю ошибку: Ошибка в [.data.frame(данные, 0, cols, drop = FALSE): выбраны неопределенные столбцы library(caret) train_control <- trainControl(method = "cv", number=10) #set.seed(5) ...
21 Окт 2022 в 19:13
С тех пор, как я переключил свой kfold со StratifiedKFold на StratifiedGroupKFold, у меня возникла проблема, связанная с тем, что grid.best_score возвращает nan, хотя раньше он работал нормально. Мой код выглядит так: kfold = StratifiedGroupKFold(n_splits=5, shuffle=True, random_state=0) train_ind...
Сейчас я работаю над оценкой машинного обучения. Я знаю, что надежный способ оценить вашу модель — использовать совершенно новый набор данных. Итак, я разделил набор данных на три отдельных набора данных: обучение, проверку и тестирование. Я решил использовать перекрестную проверку, поэтому объед...
Я пытаюсь выполнить перекрестную проверку, но хочу удалить выбросы (например, только ниже 0,95 лет) в обучающих наборах, сохранив при этом тестовый набор. Я использую: cv_scores = cross_validate(reg, X=X, y=y_tr, cv=GroupKFold(n_splits=3), groups=groups, scoring=scoring, return_train_score=True, ve...
13 Окт 2022 в 18:48
Я разрабатываю CNN для задачи классификации двоичных изображений (кошки/собаки). Моя цель — использовать K-Fold CV (в данном случае я бы применил 5 раз), чтобы найти наилучшие параметры (размер партии, эпохи). Пока мой код это # Defining the Loss loss = binary_crossentropy # Creating the grid of ...
У меня есть вопрос о том, как работает cross_val_score() из Scikit-Learn. Я попытался разделить набор данных на 10 сгибов с помощью Kfold() и вычислить потери журнала как для обучающего, так и для проверочного набора для каждого сгиба. Однако я получил разные ответы, используя cross_validation_sco...
12 Окт 2022 в 17:18
У меня есть набор данных ежедневных транзакций, где есть несколько записей в день. Мне нужно разделить его на разные складки перекрестной проверки для обучения модели ML, однако я не могу использовать TimeSeriesSplit из sklearn, так как в день выполняется несколько транзакций. Вы знаете, как я мог...
Это минимальный пример использования XGBClassifier, но мне интересно, как это будет работать в целом. Я пытаюсь обернуть класс модели, чтобы использовать его для перекрестной проверки. В этом случае я взвешиваю только несбалансированные классы, но моя конечная цель — немного более широкое изменени...
Я использовал StratifiedShuffleSplit для разделения данных, и теперь мне интересно, нужно ли мне снова использовать перекрестную проверку при построении модели классификации (логистическая регрессия, KNN, случайный лес и т. д.). Я запутался в этом, потому что читаю документация в Sklearn у меня слож...
Я хотел бы использовать scikit, чтобы научиться предсказывать с помощью X переменную y. Я хотел бы обучить классификатор на обучающем наборе данных с помощью перекрестной проверки, а затем применить этот классификатор к невидимому тестовому набору данных (как в https://www.nature.com/articles/s4158...
Я работаю над несбалансированным набором данных и заметил, что, как ни странно, если я перемешиваю данные во время перекрестной проверки, я получаю высокое значение оценки f1, а если я не перемешиваю его, f1 низкое. Вот функция, которую я использую для перекрестной проверки: def train_cross_v(md,df...
Я пытаюсь получить 5-кратную ошибку перекрестной проверки модели, созданной с помощью TreeBagger, с использованием функции crossval, но я продолжаю получать сообщение об ошибке Ошибка при использовании crossval>evalFun Функция 'regrTree' сгенерировала следующую ошибку: Слишком много входных аргумент...
Мне нужна помощь в понимании и реализации перекрестной проверки K-Fold. Насколько я понимаю, перекрестная проверка используется для разделения набора данных на k подгрупп, чтобы иметь большую вариацию обучающих и тестовых данных. Итак, мой первый вопрос: заменяет ли он обычный train_test_split() ил...
Я хочу получить среднюю абсолютную ошибку (MAE) для каждого разделения данных, используя 5-кратную перекрестную проверку. Я построил пользовательскую модель, используя Xception. Следовательно, чтобы попробовать это, я закодировал следующее: # Data Generators: train_gen = flow_from_dataframe(core_id...