Я захватил заголовки из газет, также я удалил стоп-слова из заголовков, но после удаления стоп-слов слово идет с одинарной кавычкой, поэтому мне не нужны эти цитаты, для этого я попробовал код ниже:
from nltk.corpus import stopwords
blog_posts=[]
stop = stopwords.words('english')+[
'.',
',',
'--',
'\'s',
'?',
')',
'(',
':',
'\'',
'\'re',
'"',
'-',
'}',
'{',
u'—',
'a', 'able', 'about', 'above', 'according', 'accordingly', 'across', 'actually', 'after', 'afterwards', 'again', 'against', 'all', 'allow', 'allows', 'almost', 'alone', 'along', 'already', 'also', 'although', 'always', 'am', 'among', 'amongst', 'an', 'and', 'another', 'any', 'anybody',
]
file=open("resources/ch05-webpages/newspapers/TOI2232014.csv","r+")
t=[i for i in file.read().split() if i not in stop]
blog_posts.append((t,))
print blog_posts
Поэтому вывод этого кода:
[(['"\'Duplicates\'', 'BJP,', 'Jaswant', 'Singh', 'says"', '"Flight'],)]
Но мне нужен такой вывод:
[([Duplicates,BJP,Jaswant,Singh,ays,Flight])]
Так что я могу сделать для этого вывода?
2 ответа
Yahoo наконец-то я получил ответ на этот вопрос.
t=[i.replace("\'","").replace("?","").replace(":","").replace("\"","").replace("#","").strip()
for i in file.read().split() if i not in stop]
#blog_posts.append((t,))
p=' '.join(t)
blog_posts.append((p,))
print blog_posts
t=[i.replace("\\","").replace("\"","").replace("\'",").strip()
for i in file.read().split() if i not in stop]
Было бы небрежным способом сделать это, если бы вы знали исчерпывающий список символов, которые хотите удалить.
Если вы знаете, что вам нужны только буквенные символы, вы можете
import re
t=[re.findall([a-aA-Z]+, i) for i in file.read().split()
if i not in stop]
Похожие вопросы
Связанные вопросы
Новые вопросы
python-2.7
Python 2.7 является последней основной версией в серии 2.x и больше не поддерживается с 1 января 2020 года. Используйте общий тег [python] во всех вопросах Python. Не добавляйте этот тег просто для указания версии Python, которую вы используете, если только вопрос не касается проблемы, специфичной для Python 2.7.