怎么用python读取excel

发布时间：2021-08-12 15:33:34 来源：亿速云阅读：296 作者：chen 栏目：大数据

怎么用Python读取Excel

在日常的数据处理和分析工作中，Excel文件是最常见的数据存储格式之一。Python作为一种强大的编程语言，提供了多种库来读取和处理Excel文件。本文将详细介绍如何使用Python读取Excel文件，并介绍一些常用的库和方法。

1. 常用的Python库

在Python中，有多个库可以用来读取Excel文件，其中最常用的包括：

pandas：一个强大的数据处理库，提供了简单易用的接口来读取和操作Excel文件。
openpyxl：一个专门用于处理Excel文件的库，支持读写Excel 2010及以上版本的文件（.xlsx）。
xlrd：一个用于读取Excel文件的库，支持Excel 2003及以下版本的文件（.xls）。
xlwt：一个用于写入Excel文件的库，支持Excel 2003及以下版本的文件（.xls）。
xlutils：一个用于操作Excel文件的工具库，通常与xlrd和xlwt一起使用。

本文将重点介绍如何使用pandas和openpyxl这两个库来读取Excel文件。

2. 使用pandas读取Excel文件

pandas是Python中最常用的数据处理库之一，它提供了read_excel()函数来读取Excel文件。pandas依赖于openpyxl或xlrd来读取Excel文件，因此在安装pandas时，通常会自动安装这些依赖库。

2.1 安装pandas

如果你还没有安装pandas，可以使用以下命令进行安装：

pip install pandas

2.2 读取Excel文件

使用pandas读取Excel文件非常简单，只需要调用read_excel()函数即可。以下是一个简单的示例：

import pandas as pd # 读取Excel文件 df = pd.read_excel('example.xlsx') # 显示前5行数据 print(df.head())

在这个示例中，pd.read_excel('example.xlsx')会读取名为example.xlsx的Excel文件，并将其内容存储在一个DataFrame对象中。DataFrame是pandas中用于存储和操作表格数据的主要数据结构。

2.3 读取指定工作表

默认情况下，read_excel()函数会读取Excel文件中的第一个工作表。如果你想读取指定的工作表，可以使用sheet_name参数：

# 读取指定工作表 df = pd.read_excel('example.xlsx', sheet_name='Sheet2') # 显示前5行数据 print(df.head())

2.4 读取指定列

有时候，我们只需要读取Excel文件中的某些列。可以使用usecols参数来指定需要读取的列：

# 读取指定列 df = pd.read_excel('example.xlsx', usecols=['A', 'C']) # 显示前5行数据 print(df.head())

2.5 处理缺失值

在读取Excel文件时，可能会遇到一些缺失值。pandas提供了多种方法来处理缺失值。例如，你可以使用dropna()函数删除包含缺失值的行，或者使用fillna()函数填充缺失值：

# 删除包含缺失值的行 df = df.dropna() # 填充缺失值 df = df.fillna(0)

3. 使用openpyxl读取Excel文件

openpyxl是一个专门用于处理Excel文件的库，支持读写Excel 2010及以上版本的文件（.xlsx）。与pandas相比，openpyxl提供了更底层的操作接口，适合需要精细控制Excel文件的场景。

3.1 安装openpyxl

如果你还没有安装openpyxl，可以使用以下命令进行安装：

pip install openpyxl

3.2 读取Excel文件

使用openpyxl读取Excel文件的基本步骤如下：

打开Excel文件。
选择工作表。
读取单元格数据。

以下是一个简单的示例：

from openpyxl import load_workbook # 打开Excel文件 wb = load_workbook('example.xlsx') # 选择工作表 ws = wb['Sheet1'] # 读取单元格数据 cell_value = ws['A1'].value print(cell_value)

在这个示例中，load_workbook('example.xlsx')会打开名为example.xlsx的Excel文件，并返回一个Workbook对象。wb['Sheet1']选择名为Sheet1的工作表，并返回一个Worksheet对象。ws['A1'].value读取单元格A1的值。

3.3 遍历工作表

你可以使用iter_rows()或iter_cols()方法来遍历工作表中的行或列：

# 遍历行 for row in ws.iter_rows(min_row=1, max_col=3, max_row=5): for cell in row: print(cell.value)

在这个示例中，iter_rows(min_row=1, max_col=3, max_row=5)会遍历第1行到第5行，第1列到第3列的单元格。

3.4 读取整个工作表

如果你想读取整个工作表的数据，可以使用values属性：

# 读取整个工作表 data = list(ws.values) for row in data: print(row)

ws.values会返回一个生成器，生成器中的每个元素是一个元组，表示工作表中的一行数据。

4. 总结

本文介绍了如何使用Python读取Excel文件，重点介绍了pandas和openpyxl这两个库的使用方法。pandas提供了简单易用的接口，适合快速读取和处理Excel文件；而openpyxl提供了更底层的操作接口，适合需要精细控制Excel文件的场景。

无论你是进行数据分析还是自动化办公，掌握如何使用Python读取Excel文件都是非常有用的技能。希望本文能帮助你更好地理解和应用这些工具。

向AI问一下细节