Вопросы внедрения о науке о данных. Наука о данных касается извлечения знаний или идей из данных в любой форме или форме. Он может содержать прогнозную аналитику и обычно требует много обработки данных. Общие вопросы о науке о данных следует размещать в соответствующих сообществах.

Подробнее про data-science...

Скажем, у меня есть вектор некоторых чисел, которые могут быть <1, но никогда не <= 0. > x = abs(rnorm(30)) > x [1] 0.32590946 0.05018667 1.54354863 0.28925652 0.61712682 0.09444528 [7] 0.87951971 1.46243702 0.87099892 1.28553745 0.70360649 0.58973942 [13] 1.20054389 0.94429737 0.64038139 1.041733....
26 Ноя 2021 в 19:26
Добрый вечер, я пытался работать с набором данных Instacart в рамках своих онлайн-классов, используя Jupyter Notebook (Python); одно из требований - объединить все файлы (которые в основном имеют разные столбцы и один или два внешних ключа) в один большой CSV, как в этом случае: https://github.com/....
26 Ноя 2021 в 14:32
Я немного новичок в этом. В настоящее время я экспериментирую с фреймами данных в python и в чем-то немного застрял. Мне нужно получить столбцы во фрейме данных, которые имеют одинаковую разницу между их уникальными отсортированными элементами. Я могу сделать это в автономном коде, но я хочу дела....
24 Ноя 2021 в 09:13
Попытка разбить текст и выбрать данные на основе 2-х столбцов: Attribute1|Number|7 Attribute2|Text||"sample text" Attribute3|Columns|4||"data1"|"data2"|"data3"|"data4" Если он говорит «Число», значит, он должен выбрать данные в третьем поле. Если он говорит «Текст», он должен выбрать данные в четв....
Я получаю сообщение об ошибке Error in eval(predvars, data, env) : object 'B' not found, я не знаю, как это сделать: nn <- neuralnet(B+M~ area+texture+smoothness, data=cancertrain, hidden=3, B + M - это два возможных значения, доброкачественное или злокачественное, и три атрибута, которые имеют бол....
Я пытался вычислить статистику PRESS, используя функцию PRESS() из пакета qpcR. Сначала я создаю функцию регрессии из импортированных данных: > job_proficiency_lm_first_order_formula_best = job_proficiency ~ T_1 + T_3 + T_4 > job_proficiency_lm_first_order_best_subs = lm(data = Job_Proficiency, for....
19 Ноя 2021 в 10:49
Я пытаюсь создать сюжет pd.crosstab(df['cardio'], df['cholesterol']).plot(kind = 'bar') plt.xlabel('0 = No Heart Disease, 1 = Heart Disease Present') plt.ylabel('Number of people') #####plt.legend(['Above Normal','High', 'Normal']) plt.legend(df['cholesterol']) plt.title("Distribution w.r.t cholest....
18 Ноя 2021 в 07:01
Я хотел бы взглянуть на 10 лучших продуктов, у которых есть наиболее соответствующие точки данных по дате. Поскольку количество, проданное за день, регистрируется в разделе «soldUnits», нет повторяющихся записей для № статьи на одну дату. Таким образом, максимальное число в примере набора данных б....
18 Ноя 2021 в 01:31
При определении факторных переменных в R я до сих пор определял их как таковые: q5_data$high <- ifelse(q5_data$totexp >median(q5_data$totexp),1,0) Однако я заметил, что люди используют такие вещи, как: factor(directions, levels= c("North", "East", "South", "West")) Должен ли я явно определять факт....
14 Ноя 2021 в 18:40
Предоставляется информация следующего вида: target f3 f2 f1 date 1 3 2 1 01/02/2000 0 6 5 4 02/02/2001 1 9 8 7 04/02/2002 1 12 11 10 06/02/2003 1 15 14 13 08/02/2004 1 18 17 16 09/02/2005 0 21 20 19 11/02/2006 1 24 23 22 13/02/2007 0 27 26 25 ....
У меня есть 2D ndarray в форме (n_x, n_t) Двумерная матрица хранит вдоль своих строк (то есть по горизонтали для каждой строки) количество Q, то есть дискретную версию функции t для фиксированного x. По всем столбцам, поэтому для фиксированного t (т. Е. Вниз по фиксированному столбцу) 2D-матрица со....
11 Ноя 2021 в 14:41
У меня есть такая таблица: | machine | type | value | id | +-----------+--------+-----------+------+ | 1 | a | 0.34 | 1 | | 1 | b | 0.23 | 2 | | 1 | b | 0.26 | 3 | | 1 | b | 0.35 | 4 | | 1 | a ....
9 Ноя 2021 в 14:04
Я работаю с фреймами данных, и мне нужно удалить несколько строк по мере их перебора. Краткий обзор: я читаю строку (N), сравниваю ее со следующими 20 строками (до N + 20) и удаляю несколько строк между N и N + 20 на основе сравнения. Затем я возвращаюсь к N + 1 и сравниваю эту строку со следующими....
5 Ноя 2021 в 13:45
Я хочу выполнить спектральную кластеризацию для набора данных из трех кругов, который я создал с помощью команды make circle, как показано на рисунке. Все три круга относятся к разным классам. from sklearn.datasets import make_circles import seaborn as sns import pandas as pd import numpy as np fr....
У меня есть образец фрейма данных из моего огромного фрейма данных, как показано ниже. import pandas as pd import numpy as np NaN = np.nan data = { 'ID':['AAQRB','AAQRB','AAQRB', 'AHXSJ','AHXSJ','AHXSJ','GABOY','GABOY','GABOY','GHZGS','GHZGS','GHZGS'], 'Date':['10/18/2021 10:52:53 PM','10....
Учитывая, что приведенная ниже таблица является набором данных, имеется 4 столбца и первые 14 строк набора данных, но их более 10 000 строк. В заказе клиенту продаются несколько товаров. Я хочу узнать, какая пара категорий товаров появляется во всех заказах чаще всего? пример (Cat1 и Cat2) Использ....
Я должен сделать это без использования панд или чего-то еще, просто чистый numpy У меня есть большой ndarray из numpy.str_, прочитанный из файла CSV, я хотел бы преобразовать каждый элемент каждого столбца в определенный тип. Например, я знаю, что во втором столбце будет целое число, и я хоте....
Добрый вечер! У меня есть код, похожий на тот, который я вставлю ниже, в нем намного больше данных, но предпосылка та же. Из обоих DataFrame мне нужно извлечь первые пять значений, но когда я имею дело с десятками миллионов записей, я не могу позволить себе иногда ждать до часа, чтобы он вычислил в....
28 Окт 2021 в 23:29
Вот мой новый dataframe.value_counts (), и я хочу узнать, сколько «Нет» и «Да» для данных Канберры. Как я могу это узнать? Location RainTomorrow Canberra No 937 Woomera No 932 AliceSprings No 931 Mildura No 888 Cobar ....
27 Окт 2021 в 14:57
Я пробовал использовать Numpy, Scipy и Scikitlearn, но не смог найти то, что мне нужно ни в одном из них, в основном мне нужно подогнать кривую к набору данных, но ограничивая некоторые коэффициенты известными значениями, я нашел, как это сделать в MATLAB использует fittype, но не может этого сдела....
DataFrame -> простой журнал событий с 3 столбцами. Я хотел бы сгруппировать свой DataFrame (добавив post_fix f.ex _step_1, _step_2 и т. Д.) На основе #applicationnumber. См. Пример, прилагаемый ниже. Не могли бы вы помочь мне решить эту проблему? data_example = {'applicationnumber': ['XYZ104183736....
26 Окт 2021 в 15:19
Не могли бы вы разрешить этот подкат? Я хотел бы рассчитать разницу во времени (рабочее время) между двумя столбцами DataFrame, однако я получаю сообщение об ошибке следующего вида: объект «Серия» не имеет атрибута «tzinfo». import datetime import pytz import businesstimedelta #workday definition ....
26 Окт 2021 в 12:03
У меня есть df с несколькими столбцами. Мне нужно разделить один из этих столбцов на два столбца, один на основе идентификатора, а другой - на основе описания. Например, в строке 34: data['cpv'][34] = '45232460-4 - Obras de saneamento' Мне нужно получить столбец cpvid как 45232460-4 и столбец cpvd....
25 Окт 2021 в 18:39
У меня есть эта структура графика graph = thisdict['data']['graph'] dict_edges = graph['edges'] edges = [] for edge in dict_edges: edges.append((edge['source']['node_id'], edge['target']['node_id'])) print('Source:\t\t\t Target:\n') for edge in edges: print(str(edge)) print('\n....
В настоящее время я работаю аналитиком данных и недавно начал курс сертификации специалистов по Google Data Analytics на Coursera. Хотя я прочитал много материалов в Интернете, я до сих пор не понял, в какой момент аналитик данных становится специалистом по анализу данных. Это связано с платформой....
25 Окт 2021 в 13:40