Я пытаюсь обработать текст на немецком и испанском языках. Работа с текстом на английском языке проста из-за множества пакетов НЛП на этом языке. Но для других языков это непросто. Я нашел несколько пакетов для немецкого текста, но не знаю, какой из них более точный. Кроме того, для текста на испанском языке найти пакет NLP сложнее, учитывая, что в этом языке есть некоторые специальные символы. Вот некоторые шаги, которые мне нужно сделать с текстом: разделение предложений, токенизация, теги Pos и стемминг. Другими словами, я ищу что-то, что работает на одном или обоих из этих двух языков в Java.

Любая информация по этой теме приветствуется ..

0
SahelSoft 13 Мар 2018 в 11:22

2 ответа

Лучший ответ

Я могу порекомендовать вам Freeling , проверьте его Freeling_online_demo, он включает в себя разделение предложений, токенизацию, теги Pos и другие функции для нескольких языков. Я не знаю, насколько это хорошо для немецкого, но для анализа испанского - лучший инструмент, который я знаю. Я только что использовал Freeling через командную строку python +, но есть и интерфейсы для java, например Freeling_jaVa_API.

Удачи!

1
Jason Angel 17 Мар 2018 в 16:31

Если вы хотите пропустить требование Java, Spacy - это очень простая передовая библиотека Python, которая включает предварительно обученный испанский и Немецкие модели

0
KonstantinosKokos 13 Мар 2018 в 08:27