Я пытаюсь выполнить логистическую регрессию в Python, используя следующий код -
from patsy import dmatrices
import numpy as np
import pandas as pd
import statsmodels.api as sm
df=pd.read_csv('C:/Users/Documents/titanic.csv')
df=df.drop(['ticket','cabin','name','parch','sibsp','fare'],axis=1) #remove columns from table
df=df.dropna() #dropping null values
formula = 'survival ~ C(pclass) + C(sex) + age'
df_train = df.iloc[ 0: 6, : ]
df_test = df.iloc[ 6: , : ]
#spliting data into dependent and independent variables
y_train,x_train = dmatrices(formula, data=df_train,return_type='dataframe')
y_test,x_test = dmatrices(formula, data=df_test,return_type='dataframe')
#instantiate the model
model = sm.Logit(y_train,x_train)
res=model.fit()
res.summary()
Я получаю сообщение об ошибке в этой строке -
--->res=model.fit()
У меня нет пропущенных значений в наборе данных. Однако мой набор данных очень маленький, всего 10 записей. Я не уверен, что здесь не так и как это исправить? Я запускаю программу в блокноте Jupyter. Полное сообщение об ошибке приведено ниже:
---------------------------------------------------------------------------
PerfectSeparationError Traceback (most recent call last)
<ipython-input-37-c6a47ec170d5> in <module>()
19 y_test,x_test = dmatrices(formula, data=df_test,return_type='dataframe')
20 model = sm.Logit(y_train,x_train)
---> 21 res=model.fit()
22 res.summary()
C:\Program Files\Anaconda3\lib\site-packages\statsmodels\discrete\discrete_model.py in fit(self, start_params, method, maxiter, full_output, disp, callback, **kwargs)
1374 bnryfit = super(Logit, self).fit(start_params=start_params,
1375 method=method, maxiter=maxiter, full_output=full_output,
-> 1376 disp=disp, callback=callback, **kwargs)
1377
1378 discretefit = LogitResults(self, bnryfit)
C:\Program Files\Anaconda3\lib\site-packages\statsmodels\discrete\discrete_model.py in fit(self, start_params, method, maxiter, full_output, disp, callback, **kwargs)
201 mlefit = super(DiscreteModel, self).fit(start_params=start_params,
202 method=method, maxiter=maxiter, full_output=full_output,
--> 203 disp=disp, callback=callback, **kwargs)
204
205 return mlefit # up to subclasses to wrap results
C:\Program Files\Anaconda3\lib\site-packages\statsmodels\base\model.py in fit(self, start_params, method, maxiter, full_output, disp, fargs, callback, retall, skip_hessian, **kwargs)
423 callback=callback,
424 retall=retall,
--> 425 full_output=full_output)
426
427 #NOTE: this is for fit_regularized and should be generalized
C:\Program Files\Anaconda3\lib\site-packages\statsmodels\base\optimizer.py in _fit(self, objective, gradient, start_params, fargs, kwargs, hessian, method, maxiter, full_output, disp, callback, retall)
182 disp=disp, maxiter=maxiter, callback=callback,
183 retall=retall, full_output=full_output,
--> 184 hess=hessian)
185
186 # this is stupid TODO: just change this to something sane
C:\Program Files\Anaconda3\lib\site-packages\statsmodels\base\optimizer.py in _fit_newton(f, score, start_params, fargs, kwargs, disp, maxiter, callback, retall, full_output, hess, ridge_factor)
246 history.append(newparams)
247 if callback is not None:
--> 248 callback(newparams)
249 iterations += 1
250 fval = f(newparams, *fargs) # this is the negative likelihood
C:\Program Files\Anaconda3\lib\site-packages\statsmodels\discrete\discrete_model.py in _check_perfect_pred(self, params, *args)
184 np.allclose(fittedvalues - endog, 0)):
185 msg = "Perfect separation detected, results not available"
--> 186 raise PerfectSeparationError(msg)
187
188 def fit(self, start_params=None, method='newton', maxiter=35,
PerfectSeparationError: Perfect separation detected, results not available
1 ответ
У вас идеальное разделение, а это означает, что ваши данные идеально разделяются гиперплоскостью. Когда это происходит, оценка максимального правдоподобия для ваших параметров бесконечна, отсюда и ваша ошибка.
Пример идеального разделения:
Gender Outcome
male 1
male 1
male 0
female 0
female 0
В этом случае, если я получаю женское наблюдение, я знаю со 100% уверенностью, что результат будет 0. То есть мои данные отлично разделяют результаты. Нет никакой неопределенности, и численный расчет для нахождения моих коэффициентов не сходится.
По вашей ошибке с вами происходит нечто подобное. Имея всего 10 записей, вы можете представить, как это может произойти, по сравнению, скажем, с 1000 записями или чем-то в этом роде. Так что собирайте больше данных :)
Похожие вопросы
Новые вопросы
python
Python — это мультипарадигмальный многоцелевой язык программирования с динамической типизацией. Он предназначен для быстрого изучения, понимания и использования, а также обеспечивает чистый и унифицированный синтаксис. Обратите внимание, что Python 2 официально не поддерживается с 01.01.2020. Если у вас есть вопросы о версии Python, добавьте тег [python-2.7] или [python-3.x]. При использовании варианта Python (например, Jython, PyPy) или библиотеки (например, Pandas, NumPy) укажите это в тегах.
model.raise_on_perfect_prediction = False
перед вызовом model.fit отключит исключение идеального разделения. Однако, как объяснялось, параметры не определены или теоретически будут бесконечными, но в результате оцененные параметры будут зависеть от критериев остановки оптимизации.