第一关:初窥数据
import pandas as pd
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
#********* Begin *********#
# 读取./train_data.csv并可视化标签的分布并保存可视化结果到./stpe1/dump/result.jpg
df = pd.read_csv('./train_data.csv')# 读取数据
df['Cover_Type'].hist(bins=10)# 绘制树木类型的直方图
plt.savefig('./step1/dump/result.jpg')# 保存数据
plt.show()# 可视化
#********* End *********#
第二关:特征选择
import pandas as pd
df = pd.read_csv('./train_data.csv')
#********* Begin *********#
# 将df中的Hillshade_3pm特征删掉,并打印删除特征之后的df。
r = df.drop(['Hillshade_3pm'], axis = 1)
print(r)
#********* End *********#
第三关:树木类型识别
def predict_cover_type(train_feature, label, test_feature):
'''
训练模型并实现树木类型识别
:param train_feature: 训练集的特征
:param label: 训练集的标签
:param test_feature: 测试集的特征
:return: 测试集树木类型识别
'''
#********* Begin *********#
from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier(n_estimators=10)# 实例化
rfc.fit(train_feature,label)# 用训练集数据训练模型
return rfc.predict(test_feature) # 返回结果
#********* End **********#
2 条评论
太快了,太快了,受不了了
(ฅ´ω`ฅ)