Apache Arrow Python Cookbook¶

Apache Arrow Cookbook 是一个食谱集,展示了如何解决用户在使用 Arrow 数据时可能需要执行的许多常见任务。 本食谱中的示例也将作为这些任务的强大且高效的解决方案。

本食谱已在 pyarrow 14.0.0 上测试。

内容

  • 读取和写入数据
    • 写入 Parquet 文件
    • 读取 Parquet 文件
    • 读取 Parquet 数据的子集
    • 将 Arrow 数组保存到磁盘
    • 从磁盘内存映射 Arrow 数组
    • 写入 CSV 文件
    • 增量写入 CSV 文件
    • 读取 CSV 文件
    • 写入分区数据集
    • 读取分区数据
    • 从 S3 读取分区数据
    • 写入 Feather 文件
    • 读取 Feather 文件
    • 读取行分隔 JSON
    • 写入压缩数据
    • 读取压缩数据
  • 创建 Arrow 对象
    • 创建数组
    • 创建表
    • 从普通类型创建表
    • 创建记录批次
    • 存储分类数据
  • 使用模式
    • 设置 Arrow 数组的数据类型
    • 设置表的模式
    • 合并多个模式
  • 数据操作
    • 计算数组的平均值/最小值/最大值
    • 计算元素的出现次数
    • 将算术函数应用于数组。
    • 将表追加到现有表
    • 向现有表添加列
    • 替换现有表中的列
    • 对表进行分组
    • 对表进行排序
    • 在数组中搜索与谓词匹配的值
    • 使用掩码过滤数组
  • Arrow Flight
    • 使用 Arrow Flight 的简单 Parquet 存储服务
    • 流式 Parquet 存储服务
    • 使用用户名/密码进行身份验证
    • 使用 TLS 保护连接
    • 传播 OpenTelemetry 跟踪

索引和表¶

  • 索引

  • 模块索引

  • 搜索页面

Logo

导航

内容

  • 读取和写入数据
  • 创建 Arrow 对象
  • 使用模式
  • 数据操作
  • Arrow Flight

  • 用户指南
  • API 参考

相关主题

  • 文档概述
    • 下一步:读取和写入数据

快速搜索

©2022, Apache 软件基金会。 | 由 Sphinx 7.2.6 & Alabaster 0.7.13 提供支持 | 页面源代码