Есть ли способ получить минимальное требование токена для метода классификации текста API Google NLP? Я пытаюсь ввести короткое простое предложение, например «Не могу дождаться президентских дебатов», но это вернет ошибку:

Invalid text content: too few tokens (words) to process.

Есть ли способ обойти это? Я ввожу случайные слова до тех пор, пока вводимая строка не достигнет 20 символов, но это часто портит метки и уверенность. Если есть какой-то способ обойти это, например, установить параметр или добавить что-то, что было бы круто! Если обходного пути нет, дайте мне знать, если вам известна другая предварительно обученная модель классификации текста, которая подойдет мне!

Кроме того, я не могу создавать нужные мне категории и ярлыки. Для того, что я делаю, было бы слишком много, поэтому эти предопределенные категории в nlp api великолепны. Просто нужно избавиться от требования в 20 символов.

0
frankied003 19 Июн 2020 в 05:58

1 ответ

Лучший ответ

Как указано в официальной документации по классификации контента:

Важно: вы должны предоставить текстовый блок (документ) не менее двадцати токенов (слов) методу classifyText.

Учитывая это, при проверке возможных альтернатив кажется, что, к сожалению, нет способа обойти это. Действительно, вам нужно будет ввести не менее 20 слов.

По этой причине, поискав повсюду, я нашел вот этот здесь и этот другой - этот на китайском, но это может вам помочь :) - предварительно обученных моделей для классификации текста, которые, я считаю, могут вам помочь.

В любом случае, не стесняйтесь создавать запрос функции в системе отслеживания проблем Google, чтобы они могли проверить возможность снятия этого ограничения.

Дайте мне знать, помогла ли вам информация!

1
gso_gabriel 19 Июн 2020 в 05:59