У меня есть данные с несколькими метками, например

enter image description here

Мой набор X составляет от второго до третьего столбца, и я хочу классифицировать либо первый столбец, либо последний столбец, поэтому я сделал Y последним столбцом.

Цель состоит в том, чтобы, если бы я классифицировал Vios, он вернул бы мне Автомобиль или 0 , другими словами, он мог бы найти путь к первому ряду . ,

Вариант использования классификации:

classify("poodle") #just pretend this is a working function

возвращается: домашние животные

Как я это сделал в попытке тренировать свою модель:

from sklearn.feature_extraction.text import TfidfVectorizer
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 72)
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(X_train)
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
clf3 = RandomForestClassifier().fit(X_train_tfidf, y_train)

Я использую руководство из сети, которое работает примерно так же, но в конце я возвращаюсь:

ValueError: Found input variables with inconsistent numbers of samples: [5, 4156]

Я сразу понял, что делаю это неправильно. Как мне тренировать модель, чтобы она достигла моей цели? Любые соответствующие руководства или методы, которым я должен следовать вместо это ?

0
Rekt