Speaker ID                                         Utterances
0         S1  [alright Sue now it's like uh i dropped like C...
1         S2  [this year? this term?, ri- oh but you dropped...
2         S3  [yeah. hi, hi, yeah i already signed [S2: okay...
3         S4  [back in i was like w- what is that?, yeah and...
4         S5  [okay well i'm not here for a drop-add class [...
5         S6  [me, yeah. that's right, i have a question lik...
6         S7  [hello, hi, what was your name?, i thought i o...

Фактически, конечная цель - создать новый столбец, в котором все, что находится в столбце «Высказывания», имеет удаленные знаки препинания и размечено. Мне просто нужно сначала превратить список строк в строку, верно?

P.S. Я знаю, что форматирование странное, но я не знаю, как это исправить, и пока нигде не нашел ответа. Если бы кто-нибудь мог сказать мне, как я должен включать текст, с которым я работаю, чтобы он не выглядел странно, это было бы здорово. Спасибо!

1
Kenna Reagan 3 Май 2021 в 01:11

1 ответ

Лучший ответ

Идея могла быть:

import pandas as pd
from string import punctuation
import re
df = pd.DataFrame({'Utterances':[["me, yeah. that's right, i have a question lik"], ["hello, hi, what was your name?, i thought i o"]]})

df['Utterances'] = df['Utterances'].str.join(' ')
pattern = r'|'.join([re.escape(e) for e in punctuation])
df['Utterances'] = df['Utterances'].str.replace(pattern, '')
1
Andreas 2 Май 2021 в 22:24