Кто-нибудь знает, как искать в тексте все слова, выделенные курсивом? И чтобы расширить это, искать конкретные слова, которые выделены (или не выделены) курсивом?

Например, если "Я уверен , что я не ошибаюсь", я хотел бы извлечь certain или все am, которые не выделены курсивом?

0
Suds 16 Июн 2017 в 13:24
Какой у вас входной файл: html или xml?
 – 
Sugunalakshmi Pagemajik
17 Июн 2017 в 07:47
Отправьте мне образец ввода
 – 
Sugunalakshmi Pagemajik
18 Июн 2017 в 10:42
Привет @ Sugunalakshmi.G Образец ввода - html. Документация RUTA [ссылка] (uima.apache.org/d /ruta-current/tools.ruta.book.pdf) упоминается жирным шрифтом и подчеркиванием, но не курсивом.
 – 
Suds
29 Июн 2017 в 15:26
1
Курсивом будет uima.ruta.type.html.I
 – 
Sugunalakshmi Pagemajik
30 Июн 2017 в 08:23

1 ответ

Лучший ответ

Предполагая, что информация о форматировании присутствует в CAS, например, применяя HtmlAnnotator (в сочетании с HtmlConverter), предоставленный Ruta, правила могут выглядеть так (как указано в комментарии к вопросу):

I{-> MyType};
SW.ct=="am"{-PARTOF(I) -> MyType};

Возможно, вам потребуется импортировать HtmlTypeSystem из Ruta.

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: я разработчик UIMA Ruta

0
Peter Kluegl 3 Июл 2017 в 21:47