机器学习 · 数据集

Ting included in 机器学习

2024-03-01 About 200 words One minute

Contents

数据集

可用数据集

学习阶段使用的数据集

sklearn
- 数据量小
- 便于学习
Kaggle
- 大数据竞赛平台
- 数据量巨大
- 真实数据
UCI
- 收录360个数据集
- 覆盖科学、生活、经济等

sklearn

安装
在自己的环境里面pip数据集

1

pip install -U scikit-learn

包含
1. 分类、聚类、回归
2. 特征工程
3. 模型选择、调优
数据集获取
- sklearn.datasets
  - 获取小规模数据集 load_*
  鸢尾花数据集 sklearn.datasets.load_iris()
  - 获取大规模数据集 fetch_*
  sklearn.datasets.fetch_20newgroups(data_home=None, subset='train') data_home：数据集下载存放位置 subset：加载的数据集，’train’\、’test’、‘all’
数据集的返回值 datasets.base.Baunch(继承自字典)
- data：特征数据数组
- target：标签数据组
- DESCF：数据描述
- feature_names：特征名（有部分没有）
- target_names：标签名

sklearn.model_selection.train_test_split(arrays, *option)

划分数据集
参数
- x：数据集的特征值
- y：数据集的标签值
- test_size：测试集大小，一般是float
- random_state:随机数种子
- return：训练集特征值，测试集特征值，训练集目标值，测试集目标值

训练集特征值	测试集特征值	训练集目标值	测试集目标值
x_train	x_test	y_train	y_test

实际应用

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25


from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 获取数据集
def datasets_demo():
    """
    sklearn数据集使用
    :return:
    """
    # 获取数据集
    iris = load_iris()
    print("鸢尾花数据集\n", iris)
    print("查看数据描述\n", iris.DESCR)
    print("查看特征值名字\n", iris.feature_names)
    print("查看特征值\n", iris.data)

    # 数据集划分
    x_train,x_test,y_train,y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=10)
    print("训练集的特征值\n", x_train, x_train.shape)

    return None

if __name__ == "__main__":
    # 代码1 sklearn数据集使用
    datasets_demo()

数据集划分

train：用于训练的数据集，构建墨香
test：测试数据集，评估模型是否有效
划分比例

划分比例
训练集	7	8
测试集	3	2