Python 数据分析三大库:NumPy + Pandas + Matplotlib
2026/5/12 9:20:37 网站建设 项目流程

一、整体定位

  • NumPy:数值计算底层,数组、矩阵、数学运算,是 Pandas 和 Matplotlib 的基础
  • Pandas表格数据分析,处理 Excel/CSV、清洗、筛选、统计、分组
  • Matplotlib数据可视化,画折线、柱状、饼图、直方图等

一、NumPy 核心

作用

高效处理同类型数值数组,运算比原生列表快几十倍,适合矩阵、数值计算。

常用功能

  1. 创建数组

python

运行

import numpy as np arr = np.array([1,2,3,4]) # 全0、全1、等差数组 np.zeros(5) np.ones((2,3)) np.linspace(1,10,5)
  1. 数组属性
  • 形状:arr.shape
  • 维度:arr.ndim
  • 类型:arr.dtype
  1. 切片、矩阵运算、广播机制
  2. 常用统计:np.mean()均值、np.sum()求和、np.max()最大值、np.min()最小值

二、Pandas 核心(数据分析主力)

两大核心结构:

  • Series:一维带索引数组
  • DataFrame:二维表格(Excel 一样)

1. 读写数据

python

运行

import pandas as pd df = pd.read_csv("数据.csv") # df = pd.read_excel("数据.xlsx")

2. 基础查看

python

运行

df.head() # 前5行 df.tail() # 后5行 df.info() # 结构、缺失值 df.describe() # 统计摘要 df.columns # 列名

3. 数据筛选

python

运行

# 选列 df["姓名"] # 条件筛选 df[df["成绩"] > 60]

4. 缺失值处理

python

运行

df.dropna() # 删除空值 df.fillna(0) # 填充空值

5. 分组聚合

python

运行

# 按班级分组求平均分 df.groupby("班级")["成绩"].mean()

6. 新增列、排序、去重

python

运行

df["总分"] = df["语文"] + df["数学"] df.sort_values("成绩",ascending=False) df.drop_duplicates()

三、Matplotlib 核心(画图)

基础导入

python

运行

import matplotlib.pyplot as plt

常用图表

  1. 折线图:趋势变化

python

运行

x = [1,2,3,4] y = [10,20,15,30] plt.plot(x,y) plt.show()
  1. 柱状图:对比大小

python

运行

plt.bar(x,y) plt.show()
  1. 饼图:占比

python

运行

plt.pie(y,labels=x) plt.show()
  1. 直方图:数据分布

python

运行

plt.hist(y) plt.show()

通用配置

python

运行

plt.title("标题") plt.xlabel("X轴") plt.ylabel("Y轴") plt.legend() # 图例 plt.grid() # 网格

四、三者关系一句话

  1. NumPy提供底层数值数组
  2. Pandas基于 NumPy 做表格数据处理
  3. Matplotlib把 Pandas/NumPy 数据可视化出图

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询