特征工程
定义:特征工程是将原始数据转化成更好地代表预测模型潜在问题的特征的工程,从而提高了对未知数据的预测准确性。
sklearn库中特征提取APIsklearn.feature_extraction
对字典数据进行特征值化sklearn.feature_extraction.DictVectorizer
DictVectorizer语法
1 | DictVectorizer(sparse=True, ...) |
对多篇文章分析,文本特征提取
1 | from sklearn.feature_extraction.text import CountVectorizer |
TF-IDF
1 | TF:term frequency 词的频率 |