Pandas - это библиотека Python для обработки и анализа данных, например, кадры данных, многомерные временные ряды и наборы данных поперечного сечения, обычно встречающиеся в статистике, результатах экспериментальной науки, эконометрике или финансах. Pandas - одна из основных библиотек данных в Python.
Я только начал изучать текстовый анализ и столкнулся с проблемой при попытке токенизировать столбец обзоров в наборе данных обзоров фильмов IMDB.
Моя собственная строка кода:
reviews_tokenized = word_tokenize(df\['review'\].astype(str))
И я получил сообщение об ошибке, запустив его:
TypeError: expe...
Честно говоря, мне трудно даже сформулировать вопрос, но он выглядит примерно так: мне нужно выполнить группировку, которая применяет агрегатную функцию не ко всем строкам, равным каждому значению в столбце группировки, но для всех строк, где значение столбца группировки больше, чем каждое значение...
Я новичок в Python, я пытаюсь добавить новый столбец, заполненный значениями, но при запуске кода он показывает NaN.
df0 = pd.DataFrame ({ 'GOV': [ 'Iraq' , 'Pakistan' , 'UAE' , 'UK' ] , 'CAPITAL' : [ 'Baghdad' , 'Islamabad' , 'DUBAI' , 'LONDON' ], 'POPULATION' : [100 , 300 , 120 , 150] }, columns ...
28 Май 2023 в 17:11
Мои данные:
```data = {
'Col1': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
'Col2': ['33.5', 'W', 'A to B, OK', 'slinks down to hammer', 'T c V b Rell 10 (82b 6x1) DW...
Цель
У меня есть длинный узкий фрейм данных df (30k x 15), и я хочу видеть для каждой строки, являются ли все значения уникальными или нет.
Значения в кадре данных не обязательно являются значениями типа float или int, но также могут быть объектами. Этот вопрос касается последнего случая, поскольку...
У меня есть кадр данных с ежедневными данными OHLC, и я рассчитываю «объем вверх/вниз», как описано, например. здесь: https://www.investors.com/how-to-invest/investors-corner/top-stocks-under-accumulation-use-the-up-down -отношение-объема-к-нахождению-наилучших-потенциальных/
Он смотрит на последн...
Как раскрасить определенный текст в pandas df?
Следующий код окрашивает всю ячейку. Я пытаюсь раскрасить только определенное слово в столбце.
import pandas as pd
# Create a DataFrame (sample data)
data = {
'sentence': [
'sample sentence.',
'sample sentence 2',
'tewxt te...
28 Май 2023 в 11:44
Я пытаюсь прочитать большой CSV-файл (84 ГБ) кусками с пандами, отфильтровать необходимые строки и преобразовать его в df
import pandas as pd
chunk_size = 1000000 # Number of rows to read per chunk
my_df = pd.DataFrame()
i = 1
def convert_data(value):
try:
return float(value)
excep...
28 Май 2023 в 10:03
Я работаю над созданием логистической регрессии с простым набором данных в Python:
Моя цель - предсказать, выжил ли кто-то или нет. После очистки набора данных и избавления от значений NaN, а также столбцов String, я использовал следующий код, чтобы преобразовать каждый тип данных столбца в float...
28 Май 2023 в 08:32
Я учился очищать веб-страницу с помощью Pandas, и я столкнулся с небольшой проблемой, когда не могу извлечь определенный фрагмент данных, который находится внутри самого себя.
Вот html, который анализируется Pandas:
<tr data-country="Bulgaria">
<td><i aria-hidden="true" class=" ...
28 Май 2023 в 01:58
Мой фрейм данных:
column_data = [33.5,"W","A to B, OK","slinks down to hammer","T c V b Rell 10 (82b 6x1) DW:84.14",
33.4,"•","A to B, no","Tosses it uo",
33.3,2,"A to B, 2 R","On a right way","slinks down to hammer","BAN: 185/4CRR: 5.60 ","T 69 (80b 6x4)","Mu 7 (17b)","Mark 6-0-29-1","George Dockre...
Предположим, у нас есть следующий кадр данных:
import pandas as pd
df = pd.DataFrame(index=['A', 'B', 'C', 'D'], data = [1,2,3,3])
Что дает нам следующий кадр данных:
df
0
A 1
B 2
C 3
D 3
Я искал быстрый способ (в течение определенного времени) извлечь строки, пока, например, не встретится...
Каждый.
Это мой код Python. Я хотел бы провести альфа-тест Кронбаха в файле данных csv.
import pandas as pd
import pingouin as pg
# Read the CSV file into a DataFrame
data = pd.read_csv("C:\\Users\\HP\\Desktop\\data analysis\\Classeur2.csv", header=0)
# Print the column names to verify they are ...
Постановка задачи
У меня есть файл .txt с 7 столбцами данных с плавающей запятой. Данные не имеют заголовков, а столбцы разделены пробелом. Файл настолько большой, что его чтение в одном потоке занимает так много времени, поэтому мне нужен параллелизм, поэтому я использую PyArrow.
Настроить
Пробле...
27 Май 2023 в 20:19
У меня есть набор данных опроса, часть которого мне нужно расширить в виде столбцов с текстовыми ответами на заданные рейтинговые вопросы. Набор данных большой, как лучше всего это сделать?
import pandas as pd
pd.DataFrame({'S.No': {0: 63.0,
1: nan,
2: nan,
3: nan,
4: 204.0,
5: nan,
6...
27 Май 2023 в 20:08
У меня есть проблема с набором данных Power BI, которую я не мог решить в прошлом месяце, поэтому на рисунке ниже вы можете увидеть мои шаги, которые пронумерованы.
На первом этапе вы можете увидеть мой источник данных, который находится в файле Excel. На шагах со второго по пятый вы можете увидеть...
27 Май 2023 в 18:10
У меня есть кадр данных pandas с готовыми продуктами и исправлениями, которые произошли на машинах. Я хотел бы получить список количества продуктов, которые были сделаны, и соответствующую коррекцию, которая должна была произойти.
В этом примере мне нужны только продукты типа A, которые имеют «гото...
При чтении моего набора данных в pandas и отображении набора данных я вижу, что каждый столбец сдвинут на один вправо, что делает все значения принадлежащими неправильному столбцу.
import pandas as pd
import csv
pd.read_csv("ACLED.csv", on_bad_lines='skip', delimiter=";", quoting=csv.QUOTE_NONE)
pd....
Я только что сделал функцию для предварительной обработки моего фрейма данных, однако моя функция ничего не меняет, и я продолжаю получать KeyError: движение. Что я делаю не так?
(Я скопировал в свой код ниже)
data = []
with open("bird_jan25jan16.txt") as f:
for line in f:
try:
...
У меня есть торговые данные для данных, и я пытаюсь построить свечи вместе с точкой разворота и полосами сопротивления и поддержки на графике.
Код, кажется, работает нормально, т. е. ошибок нет, но есть некоторые проблемы при построении графика.
Мой код:
import pandas as pd
import numpy as np
import...
27 Май 2023 в 13:09
Я успешно закодировал свои данные следующим образом:
reviewerLe = LabelBinarizer()
reviewerIDs = reviewerLe.fit_transform(df['reviewerID'])
А также
print(reviewerIDs[1])
reviewerIDs[1].shape
Выходы
[0 0 0 ... 0 0 0]
(4975,)
Мне интересно, как обратное преобразование только одного или нескольких п...
27 Май 2023 в 12:51
У меня есть кадр данных, в котором каждая строка представляет собой пиксель, а каждый столбец указывает карту функций. Итак, вот случай: у меня есть столбец с именем «pix», который можно разделить на строку, col. Я могу использовать это, чтобы добавить столбец в этот фрейм данных, так как у меня е...
У меня есть этот кадр данных с 2,1 миллионами записей:
p_id o_id in
1 1 1
1 1 2
1 2 2
1 1 3
Я хочу создать два фрейма данных Тот, где есть только 1 o_id на 1 in
p_id o_id in
1 1 1
1 1 3
Тот, в котором более 1 o_id на 1 in
p_id o_id in
1 1 2
1 2 ...
27 Май 2023 в 09:36
def update_data(n, val): # inpur parameter(s)
if n == None:
return "Hey there! Please enter a legitimate stock code to get details.", "https://melmagazine.com/wp-content/uploads/2019/07/Screen-Shot-2019-07-31-at-5.47.12-PM.png", "Stonks", None, None, None
# raise PreventUpdate
...
27 Май 2023 в 07:23
У меня есть очень большое количество файлов csv, которые мне нужно объединить в один. Я не могу составить список и объединить его позже из-за ограничений памяти, даже если у меня 64 ГБ ОЗУ.
Чтобы не сохранять все в память, я передаю данные в файл, используя:
entidad_csv = folder_entidad / f"{entida...