哪些Python案例适合做机器学习入门？

wen python案例 2026-06-18 59

本文目录导读：

鸢尾花分类（Iris Classification）
波士顿房价预测（Boston Housing）
手写数字识别（MNIST）
泰坦尼克号生存预测（Titanic）
葡萄酒质量分类（Wine Quality）
房价预测（Advanced Regression）
情感分析（Sentiment Analysis on IMDB）
客户流失预测（Telco Customer Churn）
推荐学习路径：
额外建议：

鸢尾花分类（Iris Classification）

难度：⭐（最经典入门）
目标：根据花萼长度、花萼宽度、花瓣长度、花瓣宽度预测鸢尾花品种（Setosa、Versicolour、Virginica）。
核心概念：分类算法（KNN、逻辑回归、决策树）、评估指标（准确率、混淆矩阵）。

为什么适合入门：

数据集小（150条）、特征少（4个）、无缺失值。
可视化清晰（如花瓣长度 vs 宽度）。

代码示例：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(f"准确率: {accuracy_score(y_test, y_pred):.2f}")

波士顿房价预测（Boston Housing）

难度：⭐⭐
目标：根据犯罪率、房间数、房龄等13个特征预测波士顿地区房价中位数。
核心概念：回归算法（线性回归、决策树回归）、特征重要性、均方误差（MSE）。
为什么适合入门：
- 从分类过渡到回归的经典案例。
- 可练习特征缩放（标准化）和异常值处理。
- 警示：该数据集已从sklearn移除，但可通过load_boston（需安装旧版）或Kaggle下载。

手写数字识别（MNIST）

难度：⭐⭐⭐
目标：识别28x28像素的手写数字（0-9）。
核心概念：图像数据预处理（归一化、展平）、支持向量机（SVM）、神经网络基础、主成分分析（PCA降维）。

为什么适合入门：

数据可视化有趣（显示数字图像）。
可对比不同算法（SVM vs 简单神经网络）。

代码示例（使用SVM和PCA）：

from sklearn.datasets import fetch_openml
from sklearn.svm import SVC
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
X, y = fetch_openml('mnist_784', return_X_y=True, parser='pandas')
# 仅取前10000样本加快速度
X_train, y_train = X[:10000], y[:10000]
X_test, y_test = X[10000:12000], y[10000:12000]
pca = PCA(n_components=50)  # 降维
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)
model = SVC(kernel='rbf')
model.fit(X_train_pca, y_train)
print(f"准确率: {accuracy_score(y_test, model.predict(X_test_pca)):.3f}")

泰坦尼克号生存预测（Titanic）

难度：⭐⭐⭐
目标：根据乘客信息（年龄、性别、票价、船舱等级等）预测是否幸存。
核心概念：数据清洗（处理缺失值、类别编码）、特征工程（提取标题、家庭大小）、模型调参（GridSearchCV）。
为什么适合入门：
- 真实世界数据,有缺失值和分类变量。
- Kaggle经典竞赛,易获取完整基线。
- 核心步骤：填充缺失值 → 转换性别/船舱为数字 → 选择模型（随机森林）。