Токенизация - это процесс разбиения строки на отдельные элементы, называемые токенами.

Подробнее про tokenize...

Speaker ID Utterances 0 S1 [alright Sue now it's like uh i dropped like C... 1 S2 [this year? this term?, ri- oh but you dropped... 2 S3 [yeah. hi, hi, yeah i already signed [S2: okay... 3 S4 [back in i was like w- what is....
3 Май 2021 в 01:11
Я хочу сделать токенизацию, проверьте документацию mpgs отсюда. Идея в том, что я хочу иметь токен, который я могу использовать для всех покупок. Первый шаг: я успешно совершил покупку, используя размещенный .......
24 Апр 2021 в 11:22
Сначала я попытался создать RNN, который может предсказывать текст Шекспира, и я успешно сделал это, используя кодирование на уровне символов. Но когда я перешел на кодирование на уровне слов, я столкнулся с множеством проблем. В частности, мне трудно получить общую количество символов (мне сказа....
18 Апр 2021 в 19:25
Я хочу получить сходство Жаккара между моим фреймом данных и базой. Проблема в том, что он мне нужен для 500+ строк, и я получаю сообщение об ошибке: «слишком много значений для распаковки» , объект «Серия» не имеет атрибута «iterrows» или функции сравнивают базу с кадром данных в целом. Альтер....
14 Апр 2021 в 14:49
Я просто использую библиотеку преобразователя huggingface и при запуске run_lm_finetuning.py получаю следующее сообщение: AttributeError: объект GPT2TokenizerFast не имеет атрибута max_len. У кого-нибудь еще есть эта проблема или есть идея, как ее исправить? Спасибо! Мой полный эксперимент: экспер....
Я написал эту функцию findTokenOffset, которая находит смещение заданного слова в предварительно токенизированном тексте (в виде списка слов с интервалом или в соответствии с определенным токенизатором). Импортировать re, json def word_regex_ascii(word): return r"\b{}\b".format(re.escape(word)) ....
1 Апр 2021 в 18:43
Я пытаюсь разметить некоторые числовые строки с помощью токенизатора WordLevel / BPE, создать сопоставитель данных и в конечном итоге использовать его в PyTorch DataLoader для обучения новой модели с нуля. Однако я получаю сообщение об ошибке AttributeError: объект ByteLevelBPETokenizer не имеет атр....
Я хотел бы выделить определенную группу слов из списка комментариев, взятых с одного веб-сайта, чтобы подсчитать их и использовать наиболее распространенные из них в моем словаре TextBlob, который будет использоваться в простом анализе тональности. Чтобы упростить: я хотел бы получить все прилагате....
25 Мар 2021 в 01:55
Я пытаюсь использовать библиотеку токенизации в Python для токенизации кода Python. Для примера ввода: - def cal_cone_curved_surf_area (slant_height, radius): \ n \ tpi = 3.14 \ n \ treturn pi * radius * slant_height \ n \ n I .......
18 Мар 2021 в 09:23
При использовании spacy для токенизации предложения я хочу, чтобы оно не разбивалось на токены на / Примере: import en_core_web_lg nlp = en_core_web_lg.load() for i in nlp("Get 10ct/liter off when using our App"): print(i) Выход: Get 10ct / liter off when using our App Я хочу, чтобы это было к....
15 Мар 2021 в 13:20
В настоящее время я пишу программу на C, которая может размечать арифметические выражения, но здесь я привел только минимальный воспроизводимый пример. Следующий код успешно разбивает -5.2foo на -5.2 .......
15 Мар 2021 в 00:41
Я не могу установить пакет pyonmttok в Windows. Может кто-нибудь помочь в этом? Я пробовал команды pip install pyonmttok, а также python m -pip install pyonmttok получил ту же ошибку, также пробовал это как на python 3.6 , так и на python 3.9 Заранее спасибо....
11 Мар 2021 в 09:12
Если у меня есть следующий файл JSON для указания, как запускать программу: { "programBinary" : "/usr/bin/foo", "extraArgs" : " --arg1=%argumentOne --arg2=%argumentTwo", "argumentOne" : "foo", "argumentTwo" : "bar" } Как в golang проанализировать строку extraArgs, чтобы найти ключи JSON....
11 Мар 2021 в 00:03
Мой фрейм данных pandas (df.tweet) состоит из одного столбца с немецкими твитами , я уже очистил данные и удалил столбцы, которые мне не нужны. Теперь я хочу word_tokenize твиты в фреймворке pandas. С TextBlob это работает только для строк, и я могу только токенизировать строку фрейма данных ....
7 Мар 2021 в 12:10
Я работаю над проектом, в котором одним из шагов является разделение текста научных статей на предложения. Для этого я использую textrank, который, как я понимаю, ищет . , ? или ! и т. Д., Чтобы определить конец предложения токенизации. Проблема, с которой я сталкиваюсь, заключается в предложения....
5 Мар 2021 в 07:57
Я попытался создать сопоставитель, который мог бы обнаруживать такие слова, как 'универсальный'. Я пытался создать шаблон, например, pattern = [{'POS': 'NOUN'}, {'ORTH': '-'}, {'POS ':' NOUN '}] Однако я понял, что это только найти .......
4 Мар 2021 в 05:31
Я все еще новичок в Python и хочу знать, как я могу разметить список строк, не разделяя каждое слово запятой. Например, начиная со списка вроде [«Мне нужно купить продукты.», «Мне нужны бананы.», «Что-нибудь еще?»], Я хочу получить такой список: [«Мне нужно купить продукты. ',' Мне нужны бананы. ',....
2 Мар 2021 в 18:09
Я пытаюсь локализовать все токены [UNK] токенизатора BERT в моем тексте. Когда у меня есть позиция токена UNK, мне нужно определить, какому слову он принадлежит. Для этого я попытался получить позицию слова с помощью методов words_ids () или token_to_words () (результат тот же, я думаю), которые д....
Есть ли в Delphi (10.4) строковый токенизатор, который извлекает строковые токен-объекты из строки аналогично тому, как показано ниже? MyPhrase := 'I have a simple word and a complex Word: A lot of WORDS.'; MyTokens := MyTokenize(MyPhrase, 'word'); for i := 0 to MyTokens.Count - 1 do Memo1.Lines....
19 Фев 2021 в 20:46
Я получаю неожиданные результаты, когда делаю запросы с подстановочными знаками. Я использую solr 6.6.0. Обработчик edismax внутри solr ui. Следующий запрос возвращает ожидаемые результаты без подстановочного знака - firstNames: James, но когда я добавляю подстановочный знак, результатов не найде....
12 Фев 2021 в 20:03
Это может быть базовый вопрос, но я застрял здесь, не совсем уверен, что пошло не так. Df ['text'] содержит текстовые данные, над которыми я хочу работать text_sents=df.text tokens = [] for uni in text_sents: tok=TweetTokenizer(uni) tokens.append(tok) print(tokens) И он возвращается ....
12 Фев 2021 в 13:20
Я пытаюсь написать замену оболочки Linux для класса операционных систем, и у меня возникают проблемы с синтаксическим анализом входных строк. Я могу читать самую первую строку вводимой строки, но как только она достигает любого разделителя пробела, она полностью пропускает все остальное и переходит....
10 Фев 2021 в 06:01
Я использую токенизатор DistilBertTokenizer от HuggingFace. Я хотел бы токенизировать свой текст, просто разделив его на пробел: ["Don't", "you", "love", "🤗", "Transformers?", "We", "sure", "do."] Вместо поведения по умолчанию, которое выглядит так: ["Do", "n't", "you", "love", "🤗", "Transformers",....
У меня проблема с токенизацией, задание - разделить предложение на слова. Вот чем я занимаюсь на данный момент. def tokenize (s): d = [] start = 0, а start ....
28 Янв 2021 в 19:35
Я хотел бы знать, как построить очень простой токенизатор. Учитывая словарь d (в данном случае список) и предложение s, я хотел бы вернуть все возможные токены (= слова) предложения. Вот что я пробовал: l = ["the","snow","ball","snowball","is","cold"] sentence = "thesnowballisverycold" def subs(s....
26 Янв 2021 в 20:39