У меня очень принципиальный вопрос. У меня есть два комплекта документов, один для обучения, а другой для тестирования. Я хочу обучить классификатор логистической регрессии с учебными документами. Я хочу знать, правильно ли я поступаю.
- Сначала найдите список всех уникальных слов в учебном документе и назовите его словарём.
- Для каждого слова в словаре найдите его TFIDF в каждом учебном документе. Затем документ представляется как вектор этих оценок TFIDF.
У меня вопрос: 1. Как мне представить тестовые документы? Скажем, в одном из тестовых документов нет слов в словаре. В этом случае оценки TFIDF будут равны нулю для всех слов в словаре этого документа.
- Я пытаюсь использовать LIBSVM, который использует разреженный векторный формат. В случае вышеуказанного документа, в котором все записи в векторном представлении установлены на 0, как мне его представить?
1 ответ
Вы должны хранить достаточно информации о тренировочном корпусе, чтобы выполнять преобразование TF IDF в невидимых документах. Это означает, что вам потребуются заданные частоты терминов в корпусе обучения. Игнорировать невидимые слова в тестовых документах можно. Ваш svm все равно не узнает для них вес. Обратите внимание, что невидимые термины должны быть редкими в корпусе тестов, если ваши обучающие и тестовые распределения похожи. Таким образом, даже если несколько терминов будут отброшены, у вас все равно будет много терминов для классификации документа.
Похожие вопросы
Новые вопросы
machine-learning
Вопросы реализации алгоритмов машинного обучения. Общие вопросы о машинном обучении (концепции, теория, методология, терминология и т. д.) следует задавать в соответствующих сообществах.