Я собираю некоторые данные. Я хочу сэкономить время. Так какой метод?
2 ответа
Использование правильного языка программирования (Пример: использование VB может иметь катастрофические последствия)
Сформулируйте, какая информация вам нужна, и соответствующим образом запрограммируйте свою программу
уменьшите размер базы данных или подготовьте базу данных в соответствии с вашими потребностями
СУПЕР КОМПЬЮТЕР (да, оборудование имеет значение, шутка в сторону, вам нужен хороший компьютер, особенно для очень большого набора данных)
Улучшение самого алгоритма априори:
• Подсчет наборов элементов на основе хэша: набор k-элементов, соответствующее количество ведер хеширования которого ниже порогового значения, не может быть частым.
• Уменьшение количества транзакций: транзакция, не содержащая частых наборов k-элементов, бесполезна при последующих сканированиях.
• Разделение: любой набор элементов, который потенциально часто встречается в БД, должен часто встречаться хотя бы в одном из разделов БД.
• Выборка: анализ подмножества заданных данных, нижний порог поддержки + метод определения полноты.
• Динамический подсчет наборов элементов: добавляйте новые наборы-кандидаты только тогда, когда предполагается, что все их подмножества будут частыми.
Если вы собираете данные и хотите сэкономить время, вам следует подумать об использовании FPGrowth вместо попытки оптимизировать Apriori.
Даже если вы оптимизируете Apriori, это будет не так быстро, как хорошая реализация FPGrowth.
Априори важен, потому что это первый алгоритм для частого анализа наборов элементов и ассоциаций. Но сейчас есть гораздо более эффективный алгоритм.
Похожие вопросы
Новые вопросы
apriori
Apriori - это оригинальный алгоритм для частого интеллектуального анализа, который также может ссылаться на алгоритм интеллектуального анализа правил ассоциации.