Кто-нибудь знает, как искать в тексте все слова, выделенные курсивом? И чтобы расширить это, искать конкретные слова, которые выделены (или не выделены) курсивом?
Например, если "Я уверен , что я не ошибаюсь", я хотел бы извлечь certain
или все am
, которые не выделены курсивом?
1 ответ
Предполагая, что информация о форматировании присутствует в CAS, например, применяя HtmlAnnotator (в сочетании с HtmlConverter), предоставленный Ruta, правила могут выглядеть так (как указано в комментарии к вопросу):
I{-> MyType};
SW.ct=="am"{-PARTOF(I) -> MyType};
Возможно, вам потребуется импортировать HtmlTypeSystem из Ruta.
ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: я разработчик UIMA Ruta
Похожие вопросы
Новые вопросы
uima
UIMA (неструктурированная архитектура управления информацией) - это архитектура для создания масштабируемых приложений, которые анализируют и извлекают информацию из неструктурированных источников данных, таких как текст, аудио и видео. Apache UIMA - это среда Java с открытым исходным кодом, реализующая архитектуру UIMA. Приложения UIMA обычно используют методы обработки естественного языка (NLP) для выполнения анализа.