Я пытаюсь извлечь именованные объекты, используя первый ответ на этот вопрос, и следующий код для i в df ['Article']. To_list (): doc = nlp (i) для объекта в doc.ents: print ((entity. ...

2
Raza Ul Haq 18 Дек 2020 в 20:44

1 ответ

Лучший ответ

С помощью df['Article'].map(lambda x: re.sub(r'\W+', '', x)) вы удаляете все пробелы из ваших статей.

Вам нужно использовать

df['Article'] = df['Article'].str.replace(r'(?:_|[^\w\s])+', '')

С этим регулярным выражением вы удалите только специальные символы, кроме пробелов.

1
Wiktor Stribiżew 18 Дек 2020 в 18:18