Python随机森林模型实例详解

原创

admin 4个月前 (05-30) 阅读数 118 #Python

文章标签 Python

<a target="_blank" href="https://blog.ithorizon.cn/tag/Python/"style="color:#2E2E2E">Python</a>随机森林模型实例详解

1. 引言

随机森林是一种基于决策树的集成学习方法，通过构建多个决策树并取其平均于是来尽或许减少损耗预测的正确性和控制过拟合。在Python中，我们可以使用scikit-learn库来实现随机森林模型。本文将通过一个实例来详细介绍怎样在Python中使用随机森林模型进行分类任务。

2. 数据准备

首先，我们需要准备用于训练和测试的数据集。这里我们使用scikit-learn库中的鸢尾花数据集（Iris dataset）作为示例。该数据集包含了三种不同鸢尾花的50个样本，每个样本有四个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。


from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

3. 构建随机森林模型

接下来，我们将使用scikit-learn库中的RandomForestClassifier类来构建随机森林模型。在这个例子中，我们设置n_estimators参数为100，描述构建100棵决策树。


from sklearn.ensemble import RandomForestClassifier
# 创建随机森林分类器对象
clf = RandomForestClassifier(n_estimators=100, random_state=42)
# 训练模型
clf.fit(X_train, y_train)

4. 模型评估

训练完成后，我们可以使用测试集来评估模型的性能。这里我们使用正确率（accuracy）作为评价指标。


from sklearn.metrics import accuracy_score
# 预测测试集
y_pred = clf.predict(X_test)
# 计算正确率
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)