第一关:初窥数据

import pandas as pd
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt

#********* Begin *********#
# 读取./train_data.csv并可视化标签的分布并保存可视化结果到./stpe1/dump/result.jpg
df = pd.read_csv('./train_data.csv')# 读取数据
df['Cover_Type'].hist(bins=10)# 绘制树木类型的直方图
plt.savefig('./step1/dump/result.jpg')# 保存数据
plt.show()# 可视化
#********* End *********#

第二关:特征选择

import pandas as pd

df = pd.read_csv('./train_data.csv')
#********* Begin *********#
# 将df中的Hillshade_3pm特征删掉,并打印删除特征之后的df。
r = df.drop(['Hillshade_3pm'], axis = 1)
print(r)
#********* End *********#

第三关:树木类型识别

def predict_cover_type(train_feature, label, test_feature):
    '''
    训练模型并实现树木类型识别
    :param train_feature: 训练集的特征
    :param label: 训练集的标签
    :param test_feature: 测试集的特征
    :return: 测试集树木类型识别
    '''

    #********* Begin *********#
    from sklearn.ensemble import RandomForestClassifier
    rfc = RandomForestClassifier(n_estimators=10)# 实例化
    rfc.fit(train_feature,label)# 用训练集数据训练模型
    return rfc.predict(test_feature) # 返回结果
    #********* End **********#
最后修改:2021 年 07 月 01 日
如果觉得我的文章对你有用,请随意赞赏