当你在社交媒体看到"最受欢迎奶茶榜单",在购物APP收到"猜你喜欢"推荐,在新闻里听到"就业市场趋势分析",这些背后都藏着数据分析的力量。本文将带你像侦探破解案件一样,用Python轻松完成一次完整的数据探索。
就像画家需要画板,我们需要安装Python和三个必备工具:
1. Pandas(数据处理管家):帮我们整理杂乱的数字表格
2. Matplotlib(图表魔术师):把数字变成直观的图形
3. Jupyter Notebook(智能笔记本):随时记录和查看分析过程
假设我们拿到某书店的年度销售记录(保存为book_sales.csv),使用以下代码就能打开这个"数字保险箱":
import pandas as pd
sales_data = pd.read_csv('book_sales.csv')
print(sales_data.head) 展示前五行数据
这时你会看到一个清晰的表格,包含书名、销量、定价、销售日期等信息,就像翻开了一本电子账本。
数据就像刚出土的文物,需要先清理:
• 查找缺失值:像检查拼图是否完整
• 删除重复项:避免重复计数
• 修正格式:确保日期、数字格式统一
清理数据示例
clean_data = sales_data.dropna 去除空行
clean_data = clean_data.drop_duplicates 删除重复项
clean_data['售价'] = clean_data['售价'].apply(lambda x: x if x < 500 else 50) 修正异常价格
现在开始真正的侦探工作:
1. 计算总销售额:total_income = (clean_data['销量'] clean_data['售价']).sum
2. 找畅销书TOP5:clean_data.sort_values('销量', ascending=False).head(5)
3. 分析月度趋势:按月份分组统计销量
数据可视化就像把数字翻译成漫画:
• 折线图:展示销量随时间的变化趋势
• 饼图:显示不同图书类别的销售占比
• 散点图:揭示定价与销量的关系
import matplotlib.pyplot as plt
plt.figure(figsize=(10,6))
plt.plot(monthly_sales['月份'], monthly_sales['总销量'], marker='o')
plt.title('年度销售趋势分析')
plt.xlabel('月份')
plt.ylabel('销量(册)')
plt.grid(True)
plt.show
通过分析你可能会发现:
• 惊悚小说在夏季销量增长40%
• 定价在30-50元的图书最受欢迎
• 周末销量是工作日的2倍
• 某系列图书的续作销量不及预期
现在你已经掌握了:
✓ 数据清洗的基本方法
✓ 常用分析技巧
✓ 可视化呈现技能
✓ 商业洞察推导能力