Quelle est la meilleure façon de préparer les interactions des caractéristiques catégorielles avant de les adapter à scikit-learn?
Avec statsmodels
je pourrais facilement dire en style R smf.ols(formula = 'depvar ~ C(var1)*C(var2)', data=df).fit()
(même chose avec Stata avec regress depvar i.var1##i.var2
).
Peut-on sklearn.preprocessing.PolynomialFeatures
(dans la v0.15, actuellement dev) être utilisé avec des variables catégorielles?
~var1*var2
est parfaitement bien dans R pour construire la matrice RHS)dmatrix
)Utilisez Patsy .
Patsy est l'une de mes bibliothèques Python préférées: elle fait une chose, et une seule, vraiment très bien.
la source