内存和IO接口#

本节将向您介绍 PyArrow 内存管理和 IO 系统中的主要概念

缓冲区
内存池
类文件和类流对象

引用和分配内存#

pyarrow.Buffer#

Buffer 对象包装了 C++ arrow::Buffer 类型，它是 Apache Arrow 在 C++ 中进行内存管理的主要工具。它允许更高级别的数组类安全地与它们可能拥有或不拥有的内存进行交互。arrow::Buffer 可以进行零拷贝切片，以便 Buffer 可以廉价地引用其他 Buffer，同时保持内存生命周期和清晰的父子关系。

arrow::Buffer 有许多实现，但它们都提供了一个标准接口：一个数据指针和长度。这类似于 Python 内置的 buffer protocol 和 memoryview 对象。

可以通过调用 py_buffer() 函数从任何实现 buffer 协议的 Python 对象创建一个 Buffer。让我们考虑一个 bytes 对象

In [1]: import pyarrow as pa

In [2]: data = b'abcdefghijklmnopqrstuvwxyz'

In [3]: buf = pa.py_buffer(data)

In [4]: buf
Out[4]: <pyarrow.Buffer address=0x7f9d83bece10 size=26 is_cpu=True is_mutable=False>

In [5]: buf.size
Out[5]: 26

以这种方式创建 Buffer 不会分配任何内存；它是从 data bytes 对象导出的内存上的零拷贝视图。

也可以使用 foreign_buffer() 函数引用原始指针和大小形式的外部内存。

Buffer 可用于需要 Python buffer 或 memoryview 的情况，并且此类转换是零拷贝的

In [6]: memoryview(buf)
Out[6]: <memory at 0x7f9d84182e00>

Buffer 的 to_pybytes() 方法将 Buffer 的数据转换为 Python 字节串（从而创建数据的副本）

In [7]: buf.to_pybytes()
Out[7]: b'abcdefghijklmnopqrstuvwxyz'

内存池#

所有内存分配和释放（例如 C 中的 malloc 和 free）都在 MemoryPool 的实例中进行跟踪。这意味着我们可以精确地跟踪已分配的内存量

In [8]: pa.total_allocated_bytes()
Out[8]: 56320

让我们从默认池中分配一个可调整大小的 Buffer

In [9]: buf = pa.allocate_buffer(1024, resizable=True)

In [10]: pa.total_allocated_bytes()
Out[10]: 57344

In [11]: buf.resize(2048)

In [12]: pa.total_allocated_bytes()
Out[12]: 58368

默认分配器以 64 字节的最小增量请求内存。如果 buffer 被垃圾回收，则所有内存都会被释放

In [13]: buf = None

In [14]: pa.total_allocated_bytes()
Out[14]: 56320

除了默认的内置内存池外，可能还有其他内存池可供选择（例如 jemalloc），具体取决于 Arrow 的构建方式。可以获取内存池的后端名称

>>> pa.default_memory_pool().backend_name
'mimalloc'

另请参阅

内存池的 API 文档.

另请参阅

使用 Arrow 的可选 CUDA 集成的 GPU 上的缓冲区。

输入和输出#

Arrow C++ 库有几个用于不同类型 IO 对象的抽象接口

只读流
支持随机访问的只读文件
只写流
支持随机访问的只写文件
支持读取、写入和随机访问的文件

为了使这些对象的行为更像 Python 内置的 file 对象，我们定义了一个 NativeFile 基类，它实现了与常规 Python 文件对象相同的 API。

NativeFile 有一些重要的特性，使其在可能的情况下优于使用带有 PyArrow 的 Python 文件

其他 Arrow 类可以本机访问内部 C++ IO 对象，而无需获取 Python GIL
Native C++ IO 可能能够进行零拷贝 IO，例如使用内存映射

有几种 NativeFile 选项可用

OSFile，一个使用操作系统文件描述符的本机文件
MemoryMappedFile，用于使用内存映射进行读取（零拷贝）和写入
BufferReader，用于将 Buffer 对象作为文件读取
BufferOutputStream，用于在内存中写入数据，并在最后生成一个 Buffer
FixedSizeBufferWriter，用于将数据写入已分配的 Buffer
HdfsFile，用于读取和写入数据到 Hadoop 文件系统
PythonFile，用于在 C++ 中与 Python 文件对象交互
CompressedInputStream 和 CompressedOutputStream，用于从另一个流进行实时压缩或解压缩

还有一些高级 API 可以更轻松地实例化常见的流类型。

高级 API#

输入流#

input_stream() 函数允许从各种来源创建可读的 NativeFile。

如果传递 Buffer 或 memoryview 对象，将返回 BufferReader

In [15]: buf = memoryview(b"some data")

In [16]: stream = pa.input_stream(buf)

In [17]: stream.read(4)
Out[17]: b'some'

如果传递字符串或文件路径，它将打开磁盘上的给定文件以进行读取，从而创建一个 OSFile。可以选择压缩该文件：如果其文件名以公认的扩展名（如 .gz）结尾，则其内容将在读取时自动解压缩。

In [18]: import gzip

In [19]: with gzip.open('example.gz', 'wb') as f:
   ....:     f.write(b'some data\n' * 3)
   ....: 

In [20]: stream = pa.input_stream('example.gz')

In [21]: stream.read()
Out[21]: b'some data\nsome data\nsome data\n'

如果传递 Python 文件对象，它将被包装在 PythonFile 中，以便 Arrow C++ 库可以从中读取数据（但会产生轻微的开销）。

输出流#

output_stream() 是输出流的等效函数，允许创建可写的 NativeFile。它具有与上述 input_stream() 相同的功能，例如能够写入缓冲区或进行实时压缩。

In [22]: with pa.output_stream('example1.dat') as stream:
   ....:     stream.write(b'some data')
   ....: 

In [23]: f = open('example1.dat', 'rb')

In [24]: f.read()
Out[24]: b'some data'

磁盘上和内存映射的文件#

PyArrow 包括两种与磁盘上的数据交互的方式：标准操作系统级文件 API 和内存映射文件。在常规 Python 中，我们可以写

In [25]: with open('example2.dat', 'wb') as f:
   ....:     f.write(b'some example data')
   ....: 

使用 pyarrow 的 OSFile 类，您可以写

In [26]: with pa.OSFile('example3.dat', 'wb') as f:
   ....:     f.write(b'some example data')
   ....: 

对于读取文件，您可以使用 OSFile 或 MemoryMappedFile。它们之间的区别在于 OSFile 在每次读取时都会分配新的内存，就像 Python 文件对象一样。在从内存映射读取时，该库构造一个引用映射内存的 buffer，而无需任何内存分配或复制

In [27]: file_obj = pa.OSFile('example2.dat')

In [28]: mmap = pa.memory_map('example3.dat')

In [29]: file_obj.read(4)
Out[29]: b'some'

In [30]: mmap.read(4)
Out[30]: b'some'

read 方法实现了标准的 Python 文件 read API。要读取到 Arrow Buffer 对象，请使用 read_buffer

In [31]: mmap.seek(0)
Out[31]: 0

In [32]: buf = mmap.read_buffer(4)

In [33]: print(buf)
<pyarrow.Buffer address=0x7f9e1a8d1000 size=4 is_cpu=True is_mutable=False>

In [34]: buf.to_pybytes()
Out[34]: b'some'

PyArrow 中的许多工具，特别是 Apache Parquet 接口以及文件和流消息传递工具，在使用这些 NativeFile 类型时比使用普通 Python 文件对象时更有效。

内存中读取和写入#

为了协助内存中数据的序列化和反序列化，我们提供了可以读取和写入 Arrow Buffer 的文件接口。

In [35]: writer = pa.BufferOutputStream()

In [36]: writer.write(b'hello, friends')
Out[36]: 14

In [37]: buf = writer.getvalue()

In [38]: buf
Out[38]: <pyarrow.Buffer address=0x200000601c0 size=14 is_cpu=True is_mutable=True>

In [39]: buf.size
Out[39]: 14

In [40]: reader = pa.BufferReader(buf)

In [41]: reader.seek(7)
Out[41]: 7

In [42]: reader.read(7)
Out[42]: b'friends'

这些具有与 Python 内置的 io.BytesIO 类似的语义。