Model Training and Improvement Lab
За задача 6 - избиране на по-добър резултат, трябва ли да се скалират променливите?
За задача 6 - избиране на по-добър резултат, трябва ли да се скалират променливите?
Здрасти,
Може ли да обясниш какво имаш предвид под скалиране на променливите? Аз доколкото разбрах в задача 6 се изисква само да се оцени модела, който сме създали в задача 5. Ако имаш предвид регуляризацията, която се прави при логистичната регресия, Данчо е казал в задача 5 точно колко трябва да е за нашите цели (1 000 000).
Здрасти,
По-скоро се чудя дали разделям добре сета за модела.
Правя го така и
bank_features, bank_labels = bank_data.drop("y", axis = 1), bank_data["y"].map({'yes': 1, 'no': 0})
После:
bank_features = pd.get_dummies(bank_features)
Разделям данните и тук имам съмнението, че нещо ми липсва след стратифицирането:
bank_features_train, bank_features_test, bank_labels_train, bank_labels_test = train_test_split(bank_features, bank_labels,
test_size = 0.7, stratify = bank_labels)
Защото при повторния опит за резултат в задача 6:
baseline_score = f1_score(bank_labels_train, bank_labels_test, average=None)
ми гърми:
И не мога да разбера защо shape-ът не е точен.. При модела в задача 5 всичко е точно.
Ахааа, по-скоро при оценяването на модела не са така нещата. f1_score очаква параметри y_true и y_predicted. Така че първият параметър трябва да са реалните категории bank_labels_test, a вторият трябва да са предсказаните от модела bank_model.predict(bank_features_test). Дано не бъркам името на променливата на модела, защото нямам компютър пред себе си.
Много благодаря! Това беше очевидна грешка от моя страна, но пак измеренията ми не съвпадат. Можеш ли да ми кажеш с какви измерения са ти променливите bank_labels_train и bank_labels_test?