机器学习 · 数据集
Contents
数据集
可用数据集
学习阶段使用的数据集
sklearn
- 安装
在自己的环境里面pip数据集
|
|
-
包含
- 分类、聚类、回归
- 特征工程
- 模型选择、调优
-
数据集获取
sklearn.datasets
- 获取小规模数据集
load_*
鸢尾花数据集
sklearn.datasets.load_iris()
- 获取大规模数据集
fetch_*
sklearn.datasets.fetch_20newgroups(data_home=None, subset='train')
data_home:数据集下载存放位置 subset:加载的数据集,’train’\、’test’、‘all’- 获取小规模数据集
-
数据集的返回值 datasets.base.Baunch(继承自字典)
- data:特征数据数组
- target:标签数据组
- DESCF:数据描述
- feature_names:特征名(有部分没有)
- target_names:标签名
-
sklearn.model_selection.train_test_split(arrays, *option)
- 划分数据集
- 参数
- x:数据集的特征值
- y:数据集的标签值
- test_size:测试集大小,一般是float
- random_state:随机数种子
- return:训练集特征值,测试集特征值,训练集目标值,测试集目标值
训练集特征值 测试集特征值 训练集目标值 测试集目标值 x_train x_test y_train y_test -
实际应用
|
|
数据集划分
- train:用于训练的数据集,构建墨香
- test:测试数据集,评估模型是否有效
- 划分比例
划分比例 | ||
---|---|---|
训练集 | 7 | 8 |
测试集 | 3 | 2 |