随机森林算法OOB_SCORE最佳特征选择
2020-12-13 15:45
标签:排序 core 均值 测试 决策 number str 交叉测试 efault Sklearn RandomForest算法(有监督学习),可以根据输入数据,选择最佳特征组合,减少特征冗余; 原理:由于随机决策树生成过程采用的Boostrap,所以在一棵树的生成过程并不会使用所有的样本,未使用的样本就叫(Out_of_bag)袋外样本,通过袋外样本,可以评估这个树的准确度,其他子树叶按这个原理评估,最后可以取平均值,即是随机森林算法的性能; 特征选择原理:因为袋外样本的存在,因此不需要进行十字交叉测试(节省时间),通过依次对每个特征赋予一个随机数,观察算法性能的变化,倘若变化大,则说明该特征重要,sklearn中会对每个特征赋予一个分数,分数越大,特征越重要,因此,可以根据特征重要性排序,然后选择最佳特征组合; RandomForestClassifier(n_estimators=200,oob_score=True) oob_score : bool (default=False) Whether to use out-of-bag samples to estimate the generalization accuracy. oob_score: bool(默认=False) 是否使用袋外样品进行估算 泛化精度。 随机森林算法OOB_SCORE最佳特征选择 标签:排序 core 均值 测试 决策 number str 交叉测试 efault 原文地址:https://www.cnblogs.com/dinol/p/11614352.html