无论你是数据分析新手,还是准备进入机器学习领域,Pandas 都是必须掌握的核心工具。今天,我们不讲枯燥理论,而是借助一份 真实案例数据——豪华汽车购买预测,带你从基础到建模一站式掌握 Pandas的常用操作与实战思维。
只要认真看完这篇文章,你会发现:
✔ Pandas并没有想象中那么难✔ 原来数据分析流程就这么几步✔ 机器学习建模也能变得很轻松
让我们开始吧!
什么是Pandas?为什么人人都在用?
Pandas是Python中最强大的表格数据处理库,它能让你:
CSV、Excel、数据库Excel”一样自然scikit-learn)无缝衔接别人处理100W条数据可能要写几十行代码,而Pandas两三行就能搞定。
准备数据:豪车购买预测表
汽车公司推出了新款豪华汽车,并收集了一批用户数据:
目标很简单:
👉 根据“预估薪资”预测用户是否会购买豪车
下面我们从Pandas开始,一步步完成这道机器学习题。
从数据开始:Pandas 核心用法
1️⃣ 读取数据
import pandas as pddf = pd.read_csv('car_users.csv')Pandas会自动生成一个DataFrame(二维表格)。
2️⃣ 数据清洗常用方法
df.isnull().sum() # 查看缺失值df.dropna() # 删除缺失df.fillna(0) # 填充缺失df.drop_duplicates() # 去重df.rename(columns={'旧名': '新名'}) # 改列名3️⃣查看数据结构
df.head() # 查看前5行df.info() # 查看每列类型df.describe() # 查看薪资的统计信息只需三行代码,你就能对数据有完整的“第一印象”。
4️⃣ 选择数据
选择一列:
df['预估薪资']选择多列:
df[['预估薪资', '是否会购买']]条件筛选:
df[df['预估薪资'] > 80000]数据建模
上面演示了数据读取和探索,现在我们来完成一个完整的训练模型流程。
1️⃣ 划分特征 X 和标签 y
X = df[['预估薪资']]y = df['是否会购买']2️⃣ 按 8:2划分训练集和测试集
from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42)test_size=0.2 表示 20% 数据用于测试random_state 用于结果可复现3️⃣ 转换为二维数组
X_train = X_train.valuesX_test = X_test.values为什么要这一步?
因为sklearn期望输入二维数组,而Pandas的Series是一维的。
4️⃣ 定义逻辑回归模型并训练
from sklearn.linear_model import LogisticRegressionmodel = LogisticRegression()model.fit(X_train, y_train)逻辑回归非常适合二分类问题,例如“买/不买”。
5️⃣ 输出测试集准确率
df.isnull().sum() # 查看缺失值df.dropna() # 删除缺失df.fillna(0) # 填充缺失df.drop_duplicates() # 去重df.rename(columns={'旧名': '新名'}) # 改列名0准确率越高,说明薪资与购买行为的关系越明显。
6️⃣ 输出预测结果
df.isnull().sum() # 查看缺失值df.dropna() # 删除缺失df.fillna(0) # 填充缺失df.drop_duplicates() # 去重df.rename(columns={'旧名': '新名'}) # 改列名1这就是模型对测试集所有用户的预测结果。
小结
通过“豪车购买预测”这一贴近真实业务的案例,系统展示了如何使用Pandas进行数据读取、探索、清洗与特征处理,并进一步结合逻辑回归完成完整的机器学习建模流程。
扫码关注公众号
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...