Вопросы внедрения о науке о данных. Наука о данных касается извлечения знаний или идей из данных в любой форме или форме. Он может содержать прогнозную аналитику и обычно требует много обработки данных. Общие вопросы о науке о данных следует размещать в соответствующих сообществах.

Подробнее про data-science...

У меня есть пример данных: datetime col1 col2 col3 2021-04-10 01:00:00 25. 50. 50 2021-04-10 02:00:00. 25. 50. 50 2021-04-10 03:00:00. 25. 100. 50 2021-04-10 04:00:00 50. 50. 100 2021-04-10 05:00:00. 100. 100. 100 Я хочу создать новый ст....
6 Май 2021 в 18:03
В настоящее время у меня есть пересчет морского дна harker = sns.relplot(data = majorsLong, x = "SiO2", y = "Wt %", palette = colors, markers = marks, style = "Lithology", hue = "Lithology", kind = "scatter", col = "Oxide", col_wrap = 2, s = 150, ....
5 Май 2021 в 04:23
У меня есть пример данных: datetime temperature season 2021-04-10 01:00:00. 10. Heating season 2021-04-10 01:00:00. 26. Heating season 2021-07-10 01:00:00. 16. Cooling season 2021-07-10 01:00:00. 30. Cooling season Я хотел бы создать новый столб....
4 Май 2021 в 16:37
У меня есть пример данных: datetime. column1 2021-04-01 01:00. 11 2021-04-05 02:00. 10 2021-04-12 03:00. 1 2021-04-11 04:00. 5 2021-04-07 05:00. 20 Я хотел бы создать новый столбец под названием Season, который выводит сезон охлаждения, если значения datetime нахо....
3 Май 2021 в 16:54
У меня есть датафрейм от Yahoo Finance import pandas as pd import yfinance ticker = yfinance.Ticker("INFY.NS") df = ticker.history(period = '1y') print(df) Это дает мне df as, Если я уточню, date = "2021-04-23" Мне нужен подмножество df со строкой с меткой индексов «2021-04-23» ряды за 2 дня до д....
3 Май 2021 в 10:32
Я хочу пояснить свой вопрос на примере. У меня есть набор данных, который включает средние цены на авокадо и многие особенности этих цен (я думаю, что набор данных о ценах на авокадо очень популярен, idk). И есть функция под названием «регион», которая показывает, где росли авокадо. Я написал эту....
2 Май 2021 в 23:27
У меня есть список объектов. Каждый объект принадлежит к классу Student, у которого есть атрибуты: имя, идентификатор, оценки. Grades - это словарь со строковыми ключами ('math', 'cs', ..). Я хочу преобразовать этот список фреймов данных pandas: df = name id math cs a 2 90 92 b ....
2 Май 2021 в 15:46
Я создал модель машинного обучения Python для прогнозирования кредитных рисков для прогнозирования, сможет ли заемщик выплатить банковский кредит или нет. Моя модель работает отлично с точностью 78%. Однако мой профессор сказал мне, что «Поставьте секундомер до и после тренировки каждой модели, чт....
30 Апр 2021 в 16:42
У меня есть пример фрейма данных pandas: datetime column1 2021.04.10 01:00:00. 10 2021.04.11 02:00:00 15 2021.04.11 03:00:00. 5 2021.04.11 04:00:00. 20 2021.04.11 05:00:00. 15 2021.04.11 06:00:00. 2 Я хотел бы создать новый столбец с именем position, который дает 2....
30 Апр 2021 в 15:15
Я использую набор данных двоичной классификации и пытаюсь построить график возраста для всех образцов, образцов, где class == 1, и образцов, где class == 0? Я хочу знать, как я могу объединить firstDf, secondDf и thirdDf и показать их на одной диаграмме в Python? age | class ------------ 1 | 1 2....
30 Апр 2021 в 13:05
Я использую набор данных двоичной классификации. Мне нужен план, который показывает первый столбец, показывающий возраст людей, следующий столбец, показывающий возраст первоклассников, и третий столбец, показывающий возраст второклассников. Посоветуйте, пожалуйста, что мне делать age | class -----....
29 Апр 2021 в 14:50
У меня есть CSV-файл Date,Open,High,Low,Close,Adj Close,Volume,Cash EPS,Book Value,Div/share,Net profit/share,NPM,ROE,ROCE,ROA,DEBT/EQ,ATR,CR 2004-04-26,82.924217,82.924217,82.924217,82.924217,60.026066,0,221.24,488.21,129.5,186.6,26.11,38.22,38.22,24.2,0,92.67,1.65 2004-04-27,82.778122,82.778122,79....
26 Апр 2021 в 16:58
Dataframe выглядит так, как показано ниже: Где я хочу изменить значение dataframes на «мертвый», если возраст больше 100. import pandas as pd raw_data = {'age1': [23,45,210],'age2': [10,20,150],'name': ['a','b','c']} df = pd.DataFrame(raw_data, columns = ['age1','age2','name']) raw_data = {'age1': ....
26 Апр 2021 в 16:53
Я пытаюсь извлечь домен верхнего уровня (TLD), второй уровень (SLD) и т. Д. Из столбца в фрейме данных и добавить в новые столбцы. В настоящее время у меня есть решение, в котором я конвертирую это в список, а затем использую tolist, но, поскольку он выполняет последовательное добавление, он не раб....
24 Апр 2021 в 22:10
Таблица Привет, я пытаюсь построить гистограмму с таблицей выше, а ниже - моя кодировка. def гистограммы (t): salaries = t.column ('Salary') salary_bins = np.arange (min (зарплаты), max (зарплаты) +1000, .......
24 Апр 2021 в 21:41
Есть много вопросов, касающихся решения этой проблемы с помощью решений Python, но возникают проблемы с поиском чего-либо для Glue. Понимаю, как использовать pyspark, но я получаю ошибки компиляции, когда пытаюсь адаптироваться .......
23 Апр 2021 в 20:17
У меня есть фреймворк pandas со столбцом, содержащим значения списка с данными примера как: datetime. column1 2021-04-10 00:03 00. [20.0, 21.6, 30.7] 2021-04-10 00:06 00. [10.0, 20.6, 20.7] 2021-04-10 00:09 00. [20.0, 21.5, 10.7] Я хотел бы выбрать последний элемент column1 с ожи....
21 Апр 2021 в 21:49
array1=[1,2,3,4] array2=[5,6,7,8] plt.plot(4, array1, 'g', label='Label 1') plt.plot(4, array2, 'b', label='Label 2') plt.title('Sample Graph') plt.xlabel('X Axis') plt.ylabel('Y Axis') plt.legend() plt.show() Но когда я запускаю это, он говорит ValueError: x and y must have same first dimension, ....
21 Апр 2021 в 10:08
У меня есть двоичные данные, содержащие единицы и нули. Я хочу подсчитать, сколько различных последовательностей содержится в данных и сколько раз каждая встречается с использованием python. Если, например, у меня есть [1011111010000010] Первая последовательность должна начинаться с 1 и заканчиват....
20 Апр 2021 в 13:35
Я пытаюсь заполнить категориальные значения NaN, используя CategoricalImputer из sklearn_pandas. from sklearn_pandas import CategoricalImputer imputer = CategoricalImputer() nan_columns = train_df.loc[:, train_df.isnull().any()] for column in nan_columns: imputer.fit_transform(column) Но impute....
import pandas series1 = pandas.Series({ 'a':1, 'b':2, }) dict = series1.to_dict() dict['c'] = 3 series2 = pandas.Series(dict) Мне нужно добавить столбец / индекс в series1. Current, как показано выше, я создаю series2, создавая словарь из данных series1, добавляя индекс, а затем создавая но....
17 Апр 2021 в 00:12
Я пытаюсь применить k средств к участникам кластера на основе информации в следующих столбцах Actors Movies TvGuest Awards Shorts Special LiveShows Robert De Niro 111 2 6 0 0 0 Jack Nicholson 70 2 4 0 5 0 Marlon....
Я хочу построить диаграмму, подобную этой Я создал гистограмму и завершил логистическую регрессию. #imports import matplotlib.pyplot as plt from sklearn.linear_model import LogisticRegression plt.bar(prob_df['diff'], prob_df['full_win_prob']) plt.show() #logistic regression X = dfx['home_diff'].....
Скажем, у меня есть и фрейм данных, как показано ниже date,ent_id,val 2021-03-23,101,61 2021-03-12,103,64 2021-03-15,101,32 2021-04-01,103,39 2021-04-02,101,71 2021-04-02,103,79 2021-04-30,101,51 2021-04-30,103,53 2021-05-31,101,28 2021-05-31,103,26 2021-05-31,101,47 2021-05-31,103,61 2021-06-06,101....
16 Апр 2021 в 10:54
Я пытаюсь перечислить все неверные прогнозы в тестовом наборе, но совершенно не знаю, как это сделать. Я пробовал Stackoverflow, но, возможно, искал не ту «проблему». Итак, у меня есть эти текстовые файлы из папки, содержащей электронные письма. Проблема в том, что мои прогнозы не очень хороши, и....
14 Апр 2021 в 15:23