Я пытаюсь обработать текст на немецком и испанском языках. Работа с текстом на английском языке проста из-за множества пакетов НЛП на этом языке. Но для других языков это непросто. Я нашел несколько пакетов для немецкого текста, но не знаю, какой из них более точный. Кроме того, для текста на испанском языке найти пакет NLP сложнее, учитывая, что в этом языке есть некоторые специальные символы. Вот некоторые шаги, которые мне нужно сделать с текстом: разделение предложений, токенизация, теги Pos и стемминг. Другими словами, я ищу что-то, что работает на одном или обоих из этих двух языков в Java.
Любая информация по этой теме приветствуется ..
2 ответа
Я могу порекомендовать вам Freeling , проверьте его Freeling_online_demo, он включает в себя разделение предложений, токенизацию, теги Pos и другие функции для нескольких языков. Я не знаю, насколько это хорошо для немецкого, но для анализа испанского - лучший инструмент, который я знаю. Я только что использовал Freeling через командную строку python +, но есть и интерфейсы для java, например Freeling_jaVa_API.
Удачи!
Если вы хотите пропустить требование Java, Spacy - это очень простая передовая библиотека Python, которая включает предварительно обученный испанский и Немецкие модели
Похожие вопросы
Новые вопросы
java
Java - это язык программирования высокого уровня. Используйте этот тег, если у вас возникли проблемы с использованием или пониманием самого языка. Этот тег редко используется отдельно и чаще всего используется вместе с [spring], [spring-boot], [jakarta-ee], [android], [javafx], [hadoop], [gradle] и [maven].