У меня есть данные с несколькими метками, например
Мой набор X составляет от второго до третьего столбца, и я хочу классифицировать либо первый столбец, либо последний столбец, поэтому я сделал Y последним столбцом.
Цель состоит в том, чтобы, если бы я классифицировал Vios, он вернул бы мне Автомобиль или 0 , другими словами, он мог бы найти путь к первому ряду . ,
Вариант использования классификации:
classify("poodle") #just pretend this is a working function
возвращается: домашние животные
Как я это сделал в попытке тренировать свою модель:
from sklearn.feature_extraction.text import TfidfVectorizer
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 72)
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(X_train)
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
clf3 = RandomForestClassifier().fit(X_train_tfidf, y_train)
Я использую руководство из сети, которое работает примерно так же, но в конце я возвращаюсь:
ValueError: Found input variables with inconsistent numbers of samples: [5, 4156]
Я сразу понял, что делаю это неправильно. Как мне тренировать модель, чтобы она достигла моей цели? Любые соответствующие руководства или методы, которым я должен следовать вместо это ?
Новые вопросы
python
Python - это многопарадигмальный, динамически типизированный, многоцелевой язык программирования. Он разработан для быстрого изучения, понимания и использования, а также для обеспечения чистого и единообразного синтаксиса. Обратите внимание, что Python 2 официально не поддерживается с 01.01.2020. Тем не менее, для вопросов о Python, связанных с версией, добавьте тег [python-2.7] или [python-3.x]. При использовании варианта Python (например, Jython, PyPy) или библиотеки (например, Pandas и NumPy) включите его в теги.