使用 Python 过滤 100万行数据

2024 年 03 月 30 日

1055 次浏览

2579字数

在 Python 中，filter() 是一个内置函数，用于从函数返回 True 的可迭代元素中构造一个迭代器。换句话说，filter() 允许您处理一个可迭代元素（如列表或元组），并只提取满足特定条件的项，而丢弃不满足条件的项。

filter(function, iterable)

函数：测试可迭代元素中的每个元素是否满足条件的函数。函数需要返回 True 或 False。如果传递 None 作为函数，filter() 将从可迭代表中删除为 False 或等价于 False 的项目（例如 None、0、""等）。
iterable：可迭代项，如列表、元组或字符串，将根据函数过滤其中的元素。
返回值：已过滤的迭代器

使用示例

过滤偶数

# Define a function that checks if a number is even
def is_even(num):
    return num % 2 == 0

# A list of numbers
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# Use filter to extract even numbers
even_numbers = filter(is_even, numbers)

# Convert the filter object to a list to print it
print(list(even_numbers))

使用含有 None 的 filter()

# A list containing integers and None values
data = [1, None, 4, None, 7, 8]

# Filtering out None values
filtered_data = filter(None, data)

# Convert the filter object to a list to print it
print(list(filtered_data))

由于 filter() 返回的是一个迭代器，因此在你遍历它（例如使用 for 循环或使用 list() 将其转换为列表）之前，它不会实际计算过滤后的结果。这种行为使得 filter() 特别适用于处理大型数据集，因为它可以一次处理一个项目，而不是一次性创建一个潜在的大型结果列表，从而提高处理内存的效率。

因此，要在 Python 中高效过滤 100 万行数据，需要仔细考虑所使用的数据结构和库。从数据量来看，性能可能是个问题，因此使用能有效处理大型数据集的工具和技术非常重要。下面介绍几种方法，重点介绍用于表格数据的 Pandas 和 NumPy，以及用于更一般情况的 Python 内置功能。

使用 Pandas

Pandas 在性能方面进行了高度优化，为过滤大型数据集提供了便捷高效的方法。

将数据载入数据帧。
假设您的数据是 CSV 文件：

import pandas as pd  
df = pd.read_csv('your_data.csv')

您可以根据条件过滤数据行。例如，保留 "年龄 "列中值大于 30 的行：

filtered_df = df[df['age'] > 30]

在应用条件时，Pandas 会在引擎盖下使用矢量化操作，因此这种方法比手动迭代行要快得多。不过，如果要加载一个有 100 万行的 csv 文件，那就祝你好运了。

使用 NumPy

对于数值数据，NumPy 甚至比 Pandas 更快，因为它的操作级别更低，开销更少。

将数据载入 NumPy 数组。
如果你的数据已经是数组格式，或者你正在处理数值数据，你可以直接使用 NumPy：

import numpy as np  
# Assuming data is a NumPy array 
data = np.loadtxt('your_data.csv', delimiter=',', skiprows=1)

与 Pandas 类似，您也可以使用条件来过滤数据：

# Assuming age is in the second column
filtered_data = data[data[:, 1] > 30]

使用 Python 内置特性

对于非表格数据，或者如果您不想使用外部库，可以使用 Python 的内置特性，如列表理解。

加载数据。
这取决于数据的格式。如果是文件，则需要逐行或分块读取。
过滤数据。
如果数据是字典列表，则可以使用列表理解：

filtered_data = [row for row in data if row['age'] > 30]

对于超大数据集，可考虑使用生成器表达式来节省内存，或分块处理数据。

大型数据集的注意事项

内存使用：过滤 100 万行可能会占用大量内存。Pandas 和 NumPy 等工具已对效率进行了优化，但仍需注意系统内存。分块处理数据有助于缓解内存问题。

矢量化：在可能的情况下，使用 Pandas 和 NumPy 提供的矢量化操作，其速度明显快于行迭代。

并行处理：对于超大数据集或复杂的过滤逻辑，可考虑使用并行处理技术或 Dask 等库，Dask 专为并行计算而设计，可与 Pandas 类似的数据帧协同工作。

数据存储：如果数据集过大，内存无法容纳，可考虑使用专为处理大量数据而设计的数据库。SQL 数据库或 NoSQL 数据库（如 MongoDB）可高效过滤数百万行数据，并可通过 Python 进行访问。

通过为您的特定场景选择正确的工具和方法，即使是在相对一般的硬件上，您也可以在 Python 中高效地过滤 100 万行。

使用 Python 过滤 100万行数据

简讯 • 2024 年 03 月 30 日

使用 Python 过滤 100万行数据

使用示例

使用 Pandas

使用 NumPy

使用 Python 内置特性

大型数据集的注意事项

发表评论取消回复
使用 Cookie 技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款。

经典回归！《植物大战僵尸》年度加强版，童年回忆全面升级

使用 openpyxl 操作 Excel

playwright配合docker的browserless使用

如何提高代码编写速度？

使用 Async IO 在 Python 中进行异步编程的介绍

如何提高代码编写速度？

你真的会网购吗？1年轻松节省10000元的方法！

Python 列表推导式用错了？这 3 种写法更高效更优雅

现在开始！永久使用 DALL3、Midjourney！

使用 Python 请求进行 HTTP 调用的 3 种方法

使用 Python 过滤 100万行数据

使用示例

使用 Pandas

使用 NumPy

使用 Python 内置特性

大型数据集的注意事项

发表评论 取消回复 使用 Cookie 技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款。

使用 Python 过滤 100万行数据

发表评论取消回复
使用 Cookie 技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款。