用一份豪车购买预测数据，带你玩转 Pandas

无论你是数据分析新手，还是准备进入机器学习领域，Pandas 都是必须掌握的核心工具。今天，我们不讲枯燥理论，而是借助一份 真实案例数据——豪华汽车购买预测，带你从基础到建模一站式掌握 Pandas的常用操作与实战思维。

只要认真看完这篇文章，你会发现：

✔ Pandas并没有想象中那么难✔ 原来数据分析流程就这么几步✔ 机器学习建模也能变得很轻松

让我们开始吧！

什么是Pandas？为什么人人都在用？

Pandas是Python中最强大的表格数据处理库，它能让你：

•

轻松读取 CSV、Excel、数据库

•

快速筛选、统计、清洗数据

•

让数据处理更像“操作Excel”一样自然

•

和机器学习框架（如 scikit-learn）无缝衔接

别人处理100W条数据可能要写几十行代码，而Pandas两三行就能搞定。

准备数据：豪车购买预测表

汽车公司推出了新款豪华汽车，并收集了一批用户数据：

序号	预估薪资	是否会购买
1	43000	0
2	150000	1
3	57000	0
...	...	...

目标很简单：

👉 根据“预估薪资”预测用户是否会购买豪车

下面我们从Pandas开始，一步步完成这道机器学习题。

从数据开始：Pandas 核心用法

1️⃣ 读取数据

import pandas as pddf = pd.read_csv('car_users.csv')

Pandas会自动生成一个DataFrame（二维表格）。

2️⃣ 数据清洗常用方法

df.isnull().sum()     # 查看缺失值df.dropna()           # 删除缺失df.fillna(0)          # 填充缺失df.drop_duplicates()  # 去重df.rename(columns={'旧名': '新名'})  # 改列名

3️⃣查看数据结构

df.head()      # 查看前5行df.info()      # 查看每列类型df.describe()  # 查看薪资的统计信息

只需三行代码，你就能对数据有完整的“第一印象”。

4️⃣ 选择数据

选择一列：

df['预估薪资']

选择多列：

df[['预估薪资', '是否会购买']]

条件筛选：

df[df['预估薪资'] > 80000]

数据建模

上面演示了数据读取和探索，现在我们来完成一个完整的训练模型流程。

1️⃣ 划分特征 X 和标签 y

X = df[['预估薪资']]y = df['是否会购买']

•

X 必须是二维

•

y 是目标变量，只需要取一列

2️⃣ 按 8:2划分训练集和测试集

from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(    X, y, test_size=0.2, random_state=42)

•

test_size=0.2 表示 20% 数据用于测试

•

random_state 用于结果可复现

3️⃣ 转换为二维数组

X_train = X_train.valuesX_test = X_test.values

为什么要这一步？

因为sklearn期望输入二维数组，而Pandas的Series是一维的。

4️⃣ 定义逻辑回归模型并训练

from sklearn.linear_model import LogisticRegressionmodel = LogisticRegression()model.fit(X_train, y_train)

逻辑回归非常适合二分类问题，例如“买/不买”。

5️⃣ 输出测试集准确率

df.isnull().sum()     # 查看缺失值df.dropna()           # 删除缺失df.fillna(0)          # 填充缺失df.drop_duplicates()  # 去重df.rename(columns={'旧名': '新名'})  # 改列名0

准确率越高，说明薪资与购买行为的关系越明显。

6️⃣ 输出预测结果

df.isnull().sum()     # 查看缺失值df.dropna()           # 删除缺失df.fillna(0)          # 填充缺失df.drop_duplicates()  # 去重df.rename(columns={'旧名': '新名'})  # 改列名1