Мне было интересно, есть ли способ найти шаблоны в панде DataFrame на основе категорий.

Я знаю, что kmeans работает для числовых значений, но мой фрейм данных в основном состоит из категорий и дат:

car   check   jobcard   date        season 
merc  A       12A       01-01-2010  Winter
bmw   B       45A       03-02-2010  Winter
merc  A       12D       10-01-2010  Winter
bmw   C       25C       01-05-2010  Spring
vw    A       62B       01-08-2010  Summer
etc

Он продолжается около 5000 строк, набор данных представляет различные типы проверок, которые требовали ремонта после проверки, и я хотел бы увидеть схему, например, у BMW возникают проблемы в основном летом, или карта задания 12A никогда не появляется в зима . Я уже сделал несколько диаграмм рассеяния, но я не смог получить от них никаких результатов: Scatterplot

enter image description here

Есть ли какой-нибудь пакет, который может обеспечить лучший обзор или может кластеризовать категории так же, как это делает kmeans с числовыми значениями?

1
avibrun 13 Мар 2018 в 14:04

2 ответа

Лучший ответ

Существует вариант k-средних, который называется k-режимами, опубликован здесь

http://www.cs.ust.hk/~qyang/Teaching/537/Papers/huang98extensions.pdf

Это подходит для категориальных данных.

Обратите внимание, что получаемые вами решения чувствительны к начальным условиям, как описано здесь.

https://arxiv.org/ftp/cs/papers/0603/0603120.pdf

См. это для питонической реализации

http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

1
Rao Sahab 13 Мар 2018 в 11:12

То, что вы ищете, называется Association Rule Mining. Для этого термина есть много запросов в Google, включая некоторые реализации на Python. В качестве игровой площадки вы можете использовать оранжевый.

1
user2722968 13 Мар 2018 в 11:21