基于PCA-SMOTE-隨機森林的地質不平衡數據分類方法——以東天山地球化學數據為例
摘要:基于PCA改進SMOTE算法,能實現不平衡數據集的均衡化,并以隨機森林作為分類器,應用于地質數據進行分類與預測.因原始數據集中的噪聲數據可能會引起插值后的數據分布形態的改變,故提出結合PCA算法與SMOTE算法,先進行除噪降維再進行數據插值,改善不平衡數據集的分類性能,并對東天山化探樣本數據進行實驗,結果表明,新算法能較好地提高分類精度,為地質不平衡數據的分類與預測提供新的思路.
注: 保護知識產權,如需閱讀全文請聯系桂林理工大學學報雜志社