随机森林算法OOB_SCORE最佳特征选择

2020-12-13 15:45

阅读：304

标签：排序 core 均值测试决策 number str 交叉测试 efault

Sklearn RandomForest算法（有监督学习），可以根据输入数据，选择最佳特征组合，减少特征冗余；

原理：由于随机决策树生成过程采用的Boostrap，所以在一棵树的生成过程并不会使用所有的样本，未使用的样本就叫（Out_of_bag）袋外样本，通过袋外样本，可以评估这个树的准确度，其他子树叶按这个原理评估，最后可以取平均值，即是随机森林算法的性能；

特征选择原理：因为袋外样本的存在，因此不需要进行十字交叉测试（节省时间），通过依次对每个特征赋予一个随机数，观察算法性能的变化，倘若变化大，则说明该特征重要，sklearn中会对每个特征赋予一个分数，分数越大，特征越重要，因此，可以根据特征重要性排序，然后选择最佳特征组合；

RandomForestClassifier(n_estimators=200,oob_score=True)

oob_score : bool (default=False) Whether to use out-of-bag samples to estimate the generalization accuracy.

oob_score: bool(默认=False) 是否使用袋外样品进行估算泛化精度。

随机森林算法OOB_SCORE最佳特征选择

标签：排序 core 均值测试决策 number str 交叉测试 efault

原文地址：https://www.cnblogs.com/dinol/p/11614352.html

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：随机森林算法OOB_SCORE最佳特征选择
文章链接：http://soscw.com/essay/35399.html

亲，登录后才可以留言！