У меня есть модель xgboost, которая была обучена на чистом Python и преобразована в формат pmml. Теперь мне нужно использовать эту модель в скрипте PySpark, но у меня нет идей, как мне это реализовать. Существуют ли методы, позволяющие импортировать модель pmml в Python и использовать ее для прогнозирования? Спасибо за любые предложения.

BR,
Владимир

1
Vladimir Sazonov 23 Окт 2018 в 17:22

2 ответа

Лучший ответ

Spark не поддерживает импорт напрямую из PMML. Хотя я не встречал импортера PMML pyspark, есть один для java (https://github.com / jpmml / jpmml - оценщик - искровой ) . Что вы можете сделать, так это обернуть java (или scala), чтобы вы могли получить к нему доступ из python (например, см. http://aseigneurin.github.io/2016/09/01/spark-calling-scala-code-from-pyspark.html ).

3
Assaf Mendelson 23 Окт 2018 в 15:36

Вы можете использовать PyPMML-Spark для импорта PMML в скрипт PySpark, например:

from pypmml_spark import ScoreModel

model = ScoreModel.fromFile('the/pmml/file/path')
score_df = model.transform(df)
0
PredictFuture 26 Июл 2019 в 10:58
52951429