怎么用python提取字符串中的数字

发布时间：2022-01-28 13:35:25 来源：亿速云阅读：9143 作者：iii 栏目：开发技术

# 怎么用Python提取字符串中的数字 ## 目录 1. [引言](#引言) 2. [基础方法](#基础方法) - [2.1 使用isdigit()方法](#21-使用isdigit方法) - [2.2 遍历字符串](#22-遍历字符串) 3. [正则表达式方法](#正则表达式方法) - [3.1 re.findall()基础用法](#31-refindall基础用法) - [3.2 匹配不同数字格式](#32-匹配不同数字格式) 4. [处理复杂场景](#处理复杂场景) - [4.1 带符号的数字](#41-带符号的数字) - [4.2 科学计数法](#42-科学计数法) - [4.3 数字与单位组合](#43-数字与单位组合) 5. [性能优化](#性能优化) - [5.1 编译正则表达式](#51-编译正则表达式) - [5.2 方法选择建议](#52-方法选择建议) 6. [实战案例](#实战案例) - [6.1 日志文件分析](#61-日志文件分析) - [6.2 网页数据抓取](#62-网页数据抓取) 7. [常见问题](#常见问题) 8. [总结](#总结) ## 引言 在数据处理和文本分析中，从字符串中提取数字是一项常见但关键的任务。Python作为数据处理的首选语言，提供了多种高效的方法来完成这项工作。本文将全面介绍Python中提取字符串数字的各类方法，包括基础字符串操作、正则表达式高级技巧以及处理特殊场景的解决方案。 ## 基础方法 ### 2.1 使用isdigit()方法 `isdigit()`是字符串对象的内置方法，用于检测字符串是否只包含数字字符（0-9）： ```python text = "订单12345金额678元" digits = [char for char in text if char.isdigit()] result = ''.join(digits) print(result) # 输出: 12345678

注意事项： - 只能识别0-9的数字字符 - 无法识别负数符号、小数点等特殊字符 - 对于全角数字（如”１２３”）会返回False

2.2 遍历字符串

手动遍历字符串是最基础的方法，适合简单场景：

text = "温度25.6℃ 湿度70%" numbers = [] current_num = "" for char in text: if char.isdigit() or char == '.': current_num += char elif current_num: numbers.append(float(current_num)) current_num = "" # 处理最后可能存在的数字 if current_num: numbers.append(float(current_num)) print(numbers) # 输出: [25.6, 70]

适用场景： - 数字格式简单且统一 - 不需要处理复杂符号 - 对性能要求不高的小规模数据处理

正则表达式方法

3.1 re.findall()基础用法

正则表达式是处理复杂模式匹配的利器：

import re text = "服务器内存使用率85%，CPU负载2.5" numbers = re.findall(r'\d+\.?\d*', text) print(numbers) # 输出: ['85', '2.5']

模式说明： - \d+ 匹配1个或多个数字 - \.? 匹配0或1个小数点 - \d* 匹配0个或多个数字

3.2 匹配不同数字格式

扩展正则表达式以处理更多数字格式：

text = "收入:+123.45元 支出:-78.90 USD 科学计数:1.23e-4" pattern = r'[-+]?\d*\.?\d+(?:[eE][-+]?\d+)?' numbers = re.findall(pattern, text) print(numbers) # 输出: ['+123.45', '-78.90', '1.23e-4']

模式解析： - [-+]? 可选的正负号 - \d*\.?\d+ 整数或小数部分 - (?:[eE][-+]?\d+)? 可选的科学计数法部分

处理复杂场景

4.1 带符号的数字

处理包含货币符号、千位分隔符的数字：

text = "价格: $1,234.56 ¥789.00" pattern = r'[$¥]?[,\d]+\.?\d+' numbers = re.findall(pattern, text) cleaned = [num.replace('$', '').replace('¥', '').replace(',', '') for num in numbers] print(cleaned) # 输出: ['1234.56', '789.00']

4.2 科学计数法

精确匹配科学计数法表示的数字：

text = "常量: 6.022e23 1.6E-19" pattern = r'[-+]?\d*\.?\d+(?:[eE][-+]?\d+)' numbers = re.findall(pattern, text) print(numbers) # 输出: ['6.022e23', '1.6E-19']

4.3 数字与单位组合

提取带单位的数字并保留关联：

text = "距离: 5km 重量: 2.5kg" pattern = r'(\d+\.?\d*)\s*([a-zA-Z]+)' matches = re.findall(pattern, text) print(matches) # 输出: [('5', 'km'), ('2.5', 'kg')]

性能优化

5.1 编译正则表达式

对于需要重复使用的模式，预编译可提升性能：

import re texts = ["数据1: 123", "数据2: 456", ...] * 1000 pattern = re.compile(r'\d+') # 单次编译多次使用 for text in texts: numbers = pattern.findall(text)

性能对比： - 编译后速度可提升2-5倍 - 在循环处理大量文本时效果显著

5.2 方法选择建议

场景	推荐方法	时间复杂度
简单数字提取	isdigit()	O(n)
固定格式数字	字符串方法	O(n)
复杂模式匹配	正则表达式	O(n)
超大规模数据	编译后的正则	O(n)

实战案例

6.1 日志文件分析

处理服务器日志中的状态码和响应时间：

log = """ [2023-01-01 12:00:00] GET /api 200 345ms [2023-01-01 12:00:01] POST /login 404 210ms """ # 提取状态码和响应时间(毫秒) pattern = r'\b(\d{3})\s(\d+)ms' matches = re.findall(pattern, log) for status, time in matches: print(f"状态码: {status}, 响应时间: {time}ms")

6.2 网页数据抓取

从HTML中提取产品价格信息：

html = """ <div class="price">￥1,299.00</div> <span class="discount">8.5折</span> """ # 提取价格和折扣 price = re.search(r'￥([\d,]+\.\d{2})', html).group(1) discount = re.search(r'(\d\.\d)折', html).group(1) print(f"价格: {price.replace(',', '')}, 折扣: {float(discount)*10}%")

常见问题

Q1: 如何区分数字编号和真正需要计算的数值？ A: 结合上下文判断，或使用更精确的正则模式，例如：

# 只匹配特定格式的数值 pattern = r'\b\d+\.\d{2}\b' # 匹配xx.xx格式的价格

Q2: 处理混合编码文本时数字提取失败？ A: 先统一编码：

text = "数据：１２３".encode('utf-8').decode('unicode-escape')

Q3: 超大文本内存不足怎么办？ A: 使用流式处理：

with open('large_file.txt') as f: for line in f: numbers = re.findall(pattern, line) process(numbers)

总结

Python提供了从简单到复杂的多种数字提取方案： 1. 对于简单需求，isdigit()和基本字符串操作足够高效 2. 正则表达式是处理复杂模式的终极武器 3. 性能关键场景应考虑预编译正则表达式 4. 特殊格式需要定制化解决方案

选择合适的方法需要综合考虑：数据规模、数字格式复杂度、性能要求和开发效率。掌握这些技术后，你将能轻松应对各类文本数据中的数字提取需求。

扩展学习： - 官方re模块文档：https://docs.python.org/3/library/re.html - 正则表达式可视化工具：https://regex101.com/ - Pandas文本处理：pd.Series.str.extract() “`

向AI问一下细节