Apache Arrow 0.15.0 (2019年10月5日)
这是一个涵盖超过3个月开发的重大版本。
下载
贡献者
此版本包含来自 80 位不同贡献者的 672 次提交。
$ git shortlog -sn apache-arrow-0.14.0..apache-arrow-0.15.0
96 Wes McKinney
63 Antoine Pitrou
59 tianchen
55 Sutou Kouhei
46 liyafan82
38 Neal Richardson
34 Joris Van den Bossche
29 Krisztián Szűcs
24 Andy Grove
20 Benjamin Kietzman
18 Prudhvi Porandla
17 Micah Kornfield
15 François Saint-Jacques
13 David Li
12 Yosuke Shiro
9 Pindikura Ravindra
8 Romain Francois
7 Omer Ozarslan
7 Praveen
6 Renjie Liu
5 ptaylor
5 Kenta Murata
5 Hatem Helal
5 Bryan Cutler
4 Marco Neumann
4 Uwe L. Korn
4 Eric Erhardt
3 ARF1
3 Chao Sun
3 Paddy Horan
2 James Lamb
2 andyscho
2 Ryan Murray
2 Martin Radev
2 Sebastien Binet
1 Zhuo Peng
1 b-rms
1 czxrrr
1 emkornfield
1 lihalite
1 mmaclach
1 psuman
1 roshie548
1 shengjun.li
1 tianchen92
1 Ádám Lippai
1 Aaron Opfer
1 Adam Lippai
1 Artem Alekseev
1 Chen Li
1 Eric Liang
1 Galuh Sahid
1 Hengruo Zhang
1 Ingo Mueller
1 Ingvar-Y
1 Itamar Turner-Trauring
1 Jeka Pats
1 Johan Peltenburg
1 Kenneth Jung
1 Liya Fan
1 Marcin Juszkiewicz
1 Marius Seritan
1 Mark Harris
1 Mark Mikofski
1 Neville Dipale
1 Paul Taylor
1 Philipp Moritz
1 Richard Liaw
1 Rok
1 Ruslan Kuprieiev
1 TP Boudreau
1 Takuya Kato
1 Tao He
1 Thomas Elvey
1 Tobias Mayer
1 Ulzii Otgonbaatar
1 Yuan Zhou
1 Yuqi Gu
1 Zeyuan Shang
1 Zherui Cao
补丁提交者
以下 Apache 提交者将贡献的补丁合并到代码库中。
$ git shortlog -csn apache-arrow-0.14.0..apache-arrow-0.15.0
214 Wes McKinney
85 Sutou Kouhei
82 Micah Kornfield
70 Antoine Pitrou
44 Pindikura Ravindra
32 Krisztián Szűcs
29 François Saint-Jacques
25 Neal Richardson
19 Andy Grove
12 Yosuke Shiro
10 Benjamin Kietzman
10 Bryan Cutler
10 Paddy Horan
9 Praveen
6 Neville Dipale
4 Uwe L. Korn
3 Philipp Moritz
3 GitHub
1 Romain Francois
1 ptaylor
1 Chao Sun
1 emkornfield
1 Kenta Murata
变更日志
新功能和改进
- ARROW-1324 - [C++] 在 Windows / MSVC 上支持 ARROW_BOOST_VENDORED
- ARROW-1561 - [C++] “isin”(集合包含)的内核实现
- ARROW-1566 - [C++] 实现非物化排序内核
- ARROW-1741 - [C++] DictionaryArray 的比较函数,用于确定索引是否“兼容”
- ARROW-1789 - [格式] 合并规范文档并提高新实现作者的清晰度
- ARROW-1875 - [Java] 在集成测试 JSON 文件中将 64 位整数写为字符串
- ARROW-2769 - [C++][Python] 弃用并重命名 add_metadata 方法
- ARROW-2931 - [Crossbow] Windows 构建正在尝试运行 linux 和 osx 打包任务
- ARROW-3032 - [Python] 清理与 NumPy 相关的 C++ 头文件
- ARROW-3204 - [R] 使程序包在 CRAN 上可用
- ARROW-3243 - [C++] 将 jemalloc 升级到版本 5
- ARROW-3246 - [Python][Parquet] 直接读/写 parquet 中的 pandas 类别
- ARROW-3325 - [Python] 支持将 Parquet 二进制/字符串列直接读取为 DictionaryArray
- ARROW-3531 - [Python] 弃用 Schema.field_by_name,改为使用 __getitem__
- ARROW-3538 - [Python] 能够在写入数据集时覆盖自动分配给文件名的 uuid
- ARROW-3579 - [Crossbow] 当远程分支未推送时,错误消息不直观
- ARROW-3643 - [Rust] 优化 `BufferBuilder` 的 `push_slice`
\` - ARROW-3710 - [Crossbow][Python] 对 pandas master 运行夜间测试
- ARROW-3772 - [C++] 将 Parquet 字典编码的 ColumnChunks 直接读入 Arrow DictionaryArray
- ARROW-3777 - [C++] 实现模拟“高延迟”文件系统
- ARROW-3817 - [R] RecordBatch 的 $ 方法
- ARROW-3829 - [Python] 支持从第三方类中提取 Arrow 对象的协议
- ARROW-3943 - [R] 为 R 包编写 vignette
- ARROW-4036 - [C++] 使状态代码可插拔
- ARROW-4095 - [C++] 对字典是统一字典前缀的字典统一实现优化
- ARROW-4111 - [Python] 从 Python 整数序列创建时间类型
- ARROW-4218 - [Rust] [Parquet] 实现 ColumnReader
- ARROW-4220 - [Python] 添加具有模拟高延迟 IO 的缓冲输入和输出流 ASV 基准测试
- ARROW-4365 - [Rust] [Parquet] 实现 RecordReader
- ARROW-4398 - [Python] 为 Arrow<>Parquet BYTE_ARRAY 序列化(读写)添加基准测试
- ARROW-4473 - [网站] 添加测试部署 Arrow 网站和修复错误的说明
- ARROW-4507 - [格式] 为新文档创建大纲和简介
- ARROW-4508 - [格式] 将内容从 Layout.rst 复制到新文档
- ARROW-4509 - [格式] 将内容从 Metadata.rst 复制到新文档
- ARROW-4510 - [格式] 将内容从 IPC.rst 复制到新文档
- ARROW-4511 - [格式] 将所有内容移动后,删除单个文档,改为使用新文档
- ARROW-453 - [C++] 为 Amazon S3 添加文件系统实现
- ARROW-4648 - [C++/问题] cpp 代码库中的命名/组织不一致
- ARROW-4649 - [C++/CI/R] 添加构建 `brew install apache-arrow –HEAD` 的(夜间)作业
- ARROW-4752 - [Rust] 为除法内核添加显式 SIMD 向量化
- ARROW-4810 - [格式][C++] 添加具有 64 位偏移量的“LargeList”类型
- ARROW-4841 - [C++] 在生成的 CMake 配置中持久化 CMake 选项
- ARROW-5134 - [R][CI]针对多个 R 版本运行夜间测试
- ARROW-517 - [C++] 详细的 Array::Equals
- ARROW-5211 - [格式] MetaData 页面上的“字典编码”部分缺少文档
- ARROW-5216 - [CI] 将 Appveyor 徽章添加到 README
- ARROW-5307 - [CI][GLib] 启用 GTK-Doc
- ARROW-5343 - [C++] 考虑在 DictionaryType::Unify 中使用 Buffer for transpose maps 而不是 std::vector
- ARROW-5344 - [C++] 在 compute/kernels/cast.cc 中使用 ArrayDataVisitor 实现字典解包
- ARROW-5351 - [Rust] 添加对 take 内核函数的支持
- ARROW-5358 - [Rust] 为 ArrayData 和 Array 实现相等性检查
- ARROW-5380 - [C++] 修复并启用 UBSan 以进行未对齐访问
- ARROW-5439 - [Java] 在文件格式中使用流 EOS
- ARROW-5444 - [发布][网站] 0.14 发布后,更新什么是“官方”发布
- ARROW-5458 - [C++] ARMv8 并行 CRC32c 计算优化
- ARROW-5480 - [Python] Pandas 类别类型在 parquet 往返后无法保留
- ARROW-5483 - [Java] 添加采用 Field 对象的 ValueVector 构造函数
- ARROW-5494 - [Python] 创建 FileSystem 绑定
- ARROW-5505 - [R] 停止屏蔽基本 R 函数/重新思考命名空间
- ARROW-5527 - [C++] HashTable/MemoTable 应使用 Buffer(s)/Builder(s) 作为堆数据
- ARROW-5558 - [C++] 支持对具有非零偏移量的数组进行 Array::View
- ARROW-5559 - [C++] 引入 IpcOptions 结构对象,以便在添加新选项时更好地实现 API 稳定性
- ARROW-5564 - [C++] 将 uriparser 添加到 conda-forge
- ARROW-5579 - [Java] shade flatbuffer 依赖项
- ARROW-5580 - [C++][Gandiva] 在 Gandiva 中更正时间戳函数的定义
- ARROW-5588 - [C++] 更好地支持构建 UnionArrays
- ARROW-5594 - [C++] 向 Take and Filter 添加对 UnionArrays 的支持
- ARROW-5610 - [Python] 在 Python 中定义扩展类型 API 以“接收”或“发送”外部扩展类型
- ARROW-5646 - [Crossbow][文档] 将用户指南移至 Sphinx 文档
- ARROW-5681 - [FlightRPC] 包装 gRPC 异常/状态
- ARROW-5686 - [R] 审查 R Windows CI 构建
- ARROW-5716 - [开发者] 改进合并 PR 脚本以确认共同作者
- ARROW-5717 - [Python] 在将变量字典转换为 pandas 时支持字典统一
- ARROW-5719 - [Java] 支持就地向量排序
- ARROW-5722 - [Rust] 为 ListArray、BinaryArray 和 StructArray 实现 std::fmt::Debug
- ARROW-5734 - [Python] 从 pyarrow.table 工厂函数分派到 Table.from_arrays
- ARROW-5736 - [格式][C++] 在稀疏张量中支持小位宽索引
- ARROW-5741 - [JS] 使函数生成的数值向量与 TypedArray.from 一致
- ARROW-5743 - [C++] 添加 CMake 选项以启用“大内存”单元测试
- ARROW-5746 - [网站] 将网站源码从 apache/arrow 中移出
- ARROW-5747 - [C++] 在 CSV 读取器中更好地支持列名和标题
- ARROW-5758 - [C++][Gandiva] 支持 decimal 类型与 varchar 类型之间的转换
- ARROW-5762 - [集成][JS] Map 类型的集成测试
- ARROW-5777 - [C++] BasicDecimal128 是一个小对象,并不总是需要通过 const ref 传递
- ARROW-5778 - [Java] 将向量数据复制的逻辑提取到超类中
- ARROW-5784 - [发布][GLib] 在 dev/release/02-source.sh 中运行 c_glib/autogen.sh 后替换 c_glib/
- ARROW-5786 - [发布] 在 dev/release/01-prepare.sh 中使用 arrow-jni 配置文件
- ARROW-5788 - [Rust] 对 arrow 和 parquet 依赖项使用 { version = “…”, path = “../…” }
- ARROW-5789 - [C++] 小的警告/链接清理
- ARROW-5792 - [Rust] [Parquet] 用于 parquet 类型的访问者特征
- ARROW-5798 - [打包][deb] 更新文档架构
- ARROW-5800 - [R] 将 R Travis CI 测试 Docker 化,以便可以通过 docker-compose 在任何地方运行它们
- ARROW-5803 - [C++] 使用 clang 7 Travis CI 将 C++ 单元测试逻辑 Docker 化
- ARROW-5812 - [Java] 重构 BaseIntVector 中的方法名和参数类型
- ARROW-5813 - [C++] 支持检查不同连续张量的相等性
- ARROW-5814 - [Java] 为 DictionaryEncoder 实现一个 <Object, int> HashMap
- ARROW-5827 - [C++] 需要 c-ares CMake 配置
- ARROW-5828 - [C++] 添加 Protocol Buffers 版本检查
- ARROW-5830 - [C++] 停止在 TensorEquals 中使用 memcmp
- ARROW-5832 - [Java] 支持向量数据的搜索操作
- ARROW-5833 - [C++] 将状态复制代码从 cast.cc 中分离出来
- ARROW-5834 - [Java] 在 DictionaryEncoder 中应用新的哈希映射
- ARROW-5835 - [Java] 支持二进制类型的字典编码
- ARROW-5841 - [网站] 添加 0.14.0 发行说明
- ARROW-5842 - [Java] 修改 ListVector 中 lastSet 的语义
- ARROW-5843 - [Java] 提高 BitVectorHelper#getNullCount 的可读性和性能
- ARROW-5844 - [Java] 支持更多数值类型的比较和排序
- ARROW-5846 - [Java] 创建 Avro 适配器模块并添加依赖项
- ARROW-5853 - [Python] 在 Array 上公开布尔过滤内核
- ARROW-5861 - [Java] 初步实现转换具有基本类型的 Avro 记录
- ARROW-5862 - [Java] 提供字典构建器
- ARROW-5864 - [Python] 简化 Result 的 Cython 包装
- ARROW-5865 - [发布] 用于将打开的拉取请求重新基于 master 的辅助脚本
- ARROW-5866 - [C++] 删除 cpp/Brewfile 中的重复库
- ARROW-5867 - [C++][Gandiva] 添加对将 int 转换为 decimal 的支持
- ARROW-5872 - 在 Gandiva 中支持 mod(double, double) 方法
- ARROW-5876 - [FlightRPC] 在所有语言中实现基本身份验证
- ARROW-5877 - [FlightRPC] 修复 Python/Java 之间的身份验证不兼容问题
- ARROW-5880 - [C++] 更新 arrow parquet 写入器以使用 TypedBufferBuilder
- ARROW-5881 - [Java] 提供有效地确定有效性缓冲区是否完全为 1 位/0 位的功能
- ARROW-5883 - [Java] 支持 List 和 Struct 类型的字典编码
- ARROW-5888 - [Python][C++] 添加元数据以在 Parquet 文件元数据中存储 Arrow 时区
- ARROW-5891 - [C++][Gandiva] 删除函数注册表中的重复项
- ARROW-5892 - [C++][Gandiva] 支持函数别名
- ARROW-5893 - [C++] 从 C++ 库中删除 arrow::Column 类
- ARROW-5897 - [Java] 删除 MapVector 中的重复逻辑
- ARROW-5898 - [Java] 提供有效计算任意内存段哈希码的功能
- ARROW-5900 - [Gandiva] [Java] Decimal 精度、比例边界检查
- ARROW-5901 - [Rust] 实现 PartialEq 以比较数组和 json 值
- ARROW-5902 - [Java] 为字典编码实现哈希表以及 equals 和 hashCode API
- ARROW-5903 - [Java] DecimalVector 中的 Set 方法很慢
- ARROW-5904 - [Java] [Plasma] 修复 Plasma Java 客户端的编译问题
- ARROW-5906 - [CI] 在 Travis CI 中运行的构建中设置 -DARROW_VERBOSE_THIRDPARTY_BUILD=OFF,可能默认情况下所有 docker-compose 构建都设置
- ARROW-5908 - [C#] ArrowStreamWriter 不将缓冲区与 8 字节对齐
- ARROW-5909 - [Java] 优化 ByteFunctionHelpers equals 和 compare 逻辑
- ARROW-5911 - [Java] 使 ListVector 和 MapVector 延迟创建读取器
- ARROW-5917 - [Java] 重新设计字典编码器
- ARROW-5918 - [Java] 向 BaseIntVector 接口添加 get 方法
- ARROW-5919 - [R] 添加夜间测试,用于使用 conda-forge 中的依赖项构建 r-arrow
- ARROW-5920 - [Java] 支持所有可变宽度向量的排序和比较
- ARROW-5924 - [C++][Plasma] 释放 GPU 对象不方便
- ARROW-5934 - [Python] 将 arrow 的 LICENSE 与 wheel 包捆绑在一起
- ARROW-5937 - [发布] 停止并行二进制文件上传
- ARROW-5938 - [发布] 创建分支以自动添加发行说明
- ARROW-5939 - [发布] 添加对单独生成投票电子邮件模板的支持
- ARROW-5940 - [发布] 添加对重新上传二进制工件的签名/校验和的支持
- ARROW-5941 - [发布] 避免重新上传已上传的二进制工件
- ARROW-5943 - [GLib][Gandiva] 添加对函数别名的支持
- ARROW-5944 - [C++][Gandiva] 删除“divide”的别名“div”
- ARROW-5945 - [Rust] [DataFusion] 表特征应支持构建完整的查询
- ARROW-5947 - [Rust] [DataFusion] 删除 serde_json 依赖项
- ARROW-5948 - [Rust] [DataFusion] create_logical_plan 不应调用优化器
- ARROW-5955 - [Plasma] 支持为每个 plasma 客户端设置内存配额以实现更好的隔离
- ARROW-5957 - [C++][Gandiva] 在 Gandiva 中实现 div 函数
- ARROW-5958 - [Python] 在 wheel 包中静态链接 zlib
- ARROW-5961 - [R] 即使没有 C++ 库也能运行仅 R 测试
- ARROW-5962 - [CI][Python] 不要在 Travis CI 中测试 manylinux1 wheel 包
- ARROW-5967 - [Java] DateUtility#timeZoneList 不正确
- ARROW-5970 - [Java] 提供指向 Arrow 缓冲区的指针
- ARROW-5974 - [Python][C++] 使 CSV 读取器能够从连接的 gzip 流中读取
- ARROW-5975 - [C++][Gandiva] 添加将日期(以毫秒为单位)转换为时间戳的方法
- ARROW-5976 - [C++] RETURN_IF_ERROR(ctx) 应该是命名空间化的
- ARROW-5977 - [C++] [Python] 用于限制读取哪些列的 read_csv 方法?
- ARROW-5979 - [FlightRPC] 公开协议类型的(反)序列化
- ARROW-5985 - [开发者] 不要建议在 dev/merge_arrow_pr.py 中为点版本设置修复版本
- ARROW-5986 - [Java] 字典编码的代码清理
- ARROW-5988 - [Java] Avro 适配器实现简单的记录类型
- ARROW-5997 - [Java] 支持联合类型的字典编码
- ARROW-5998 - [Java] 打开一个文档来跟踪 API 更改
- ARROW-6000 - [Python] 公开 LargeBinaryType 和 LargeStringType
- ARROW-6008 - [发布] 不要并行化 bintray 上传脚本
- ARROW-6009 - [发布][JS] 在 javascript 发布脚本中忽略 NPM 错误
- ARROW-6013 - [Java] 支持范围搜索器
- ARROW-6017 - [FlightRPC] 允许创建具有未知方案的位置
- ARROW-6020 - [Java] 使用新添加的 ArrowBufHasher 重构 ByteFunctionHelper#hash
- ARROW-6021 - [Java] 将 copyFrom 和 copyFromSafe 方法提取到 ValueVector 接口
- ARROW-6022 - [Java] 在 ValueVector 中支持 equals API 以比较两个向量是否相等
- ARROW-6023 - [C++][Gandiva] 在 Gandiva 中添加函数
- ARROW-6024 - [Java] 提供更多哈希算法
- ARROW-6026 - [文档] 添加 CONTRIBUTING.md
- ARROW-6030 - [Java] 高效地计算 ArrowBufPointer 的哈希码
- ARROW-6031 - [Java] 支持通过 ArrowBufPointer 迭代向量
- ARROW-6034 - [C++][Gandiva] 在 Gandiva 中添加字符串函数
- ARROW-6035 - [Java] Avro 适配器支持转换可空值
- ARROW-6036 - [GLib] 添加对跳过行和 column_names CSV 读取选项的支持
- ARROW-6037 - [GLib] 添加缺少的版本宏
- ARROW-6039 - [GLib] 添加 garrow_array_filter()
- ARROW-6041 - [网站] 发布 R 包的博客文章
- ARROW-6042 - [C++] 实现另一种 DictionaryBuilder,它总是产生 int32 索引
- ARROW-6045 - [C++] Parquet 浮点数和 NaN 编码/解码的基准测试
- ARROW-6048 - [C++] 添加 ChunkedArray::View,它调用 Array::View
- ARROW-6049 - [C++] 支持使用兼容字典类型到另一种类型的 Array::View
- ARROW-6053 - [Python] RecordBatchStreamReader::Open2 cdef 类型签名与 C++ 不匹配
- ARROW-6063 - [FlightRPC] 为 DoPut 实现“半关闭”语义
- ARROW-6065 - [C++] 重组 parquet/arrow/reader.cc,删除代码重复,提高可读性
- ARROW-6069 - [Rust] [Parquet] 实现将记录读取器转换为 arrow 原始数组的转换器。
- ARROW-6070 - [Java] 避免在 IPC 发送之前创建新的模式
- ARROW-6077 - [C++][Parquet] 构建将 Arrow 字段映射到 Parquet 模式级别的逻辑模式树
- ARROW-6078 - [Java] 为 List 类型实现/测试字典编码的子字段
- ARROW-6079 - [Java] 为 FixedSizeListVector 实现/测试 UnionFixedSizeListWriter
- ARROW-6080 - [Java] 支持 BaseRepeatedValueVector 的比较和搜索操作
- ARROW-6083 - [Java] 重构 Jdbc 适配器消费逻辑
- ARROW-6084 - [Python] 支持 LargeList
- ARROW-6085 - [Rust] [DataFusion] 为物理查询计划创建特征
- ARROW-6086 - [Rust] [DataFusion] 为 parquet 扫描实现并行执行
- ARROW-6087 - [Rust] [DataFusion] 为 CSV 扫描实现并行执行
- ARROW-6088 - [Rust] [DataFusion] 为投影实现并行执行
- ARROW-6089 - [Rust] [DataFusion] 为选择实现并行执行
- ARROW-6090 - [Rust] [DataFusion] 为哈希聚合实现并行执行
- ARROW-6093 - [Java] 减少 VectorRangeSearcher 中第一次匹配算法的分支
- ARROW-6094 - [格式][Flight] 将 GetFlightSchema 添加到 Flight RPC
- ARROW-6096 - [C++] 有条件地依赖 boost regex 库
- ARROW-6097 - [Java] Avro 适配器实现联合类型
- ARROW-6100 - [Rust] 固定到特定的 Rust nightly 版本
- ARROW-6101 - [Rust] [DataFusion] 从逻辑计划创建物理计划
- ARROW-6104 - [Rust] [DataFusion] 不允许 bare_trait_objects
- ARROW-6105 - [C++][Parquet][Python] 添加测试用例,显示嵌套类型中字典编码的子字段
- ARROW-6113 - [Java] 支持向量去重功能
- ARROW-6115 - [Python] 在转换为 pandas 时支持 LargeList、LargeString、LargeBinary
- ARROW-6118 - [Java] 将 google Preconditions 替换为 Arrow Preconditions
- ARROW-6121 - [工具] 改善合并工具 cli 的人体工程学
- ARROW-6125 - [Python] 删除 0.14.x 之前弃用的任何 API
- ARROW-6127 - [网站] 添加网站图标和元标记
- ARROW-6128 - [C++] 由于 class-memaccess 警告,无法使用 g++ 8.3.0 构建
- ARROW-6130 - [发布] 使用 0.15.0 作为下一个版本
- ARROW-6134 - [C++][Gandiva] 在 Gandiva 中添加 concat 函数
- ARROW-6137 - [C++][Gandiva] 更改 Gandiva 中 castVARCHAR(timestamp) 的输出格式
- ARROW-6138 - [C++] 添加 Dataset 的基本(单个 RecordBatch)实现
- ARROW-6139 - [文档][R] 构建 R 文档 (pkgdown) 站点并添加到 arrow-site
- ARROW-6141 - [C++] 启用内存映射从文件开头偏移的文件区域
- ARROW-6142 - [R] linux 上的安装说明可以更清晰
- ARROW-6143 - [Java] 统一所有向量的 copyFrom 和 copyFromSafe 方法
- ARROW-6144 - [C++][Gandiva] 在 Gandiva 中实现随机函数
- ARROW-6155 - [Java] 为元素位于连续内存段中的向量提取一个超级接口
- ARROW-6156 - [Java] 支持 ArrowBufPointer 的比较语义
- ARROW-6161 - [C++] 实现 dataset::ParquetFile 和相关的 Scan 结构
- ARROW-6162 - [C++][Gandiva] 当 out_len 参数为零时,不要在 castVARCHAR_varchar 中截断字符串
- ARROW-6172 - [Java] 提供使用不同方法设置 IntVector 的基准测试
- ARROW-6177 - [C++] 添加 Array::Validate()
- ARROW-6180 - [C++] 创建一个 InputStream,它是 RandomAccessFile 段的隔离读取器
- ARROW-6181 - [R] 只允许 R 包在 linux 上安装而无需 libarrow
- ARROW-6183 - [R] 记录如果您不想,则不必使用 tidyselect
- ARROW-6185 - [Java] 提供基于哈希表的字典构建器
- ARROW-6187 - [C++] 将 ExtensionType 写入 Parquet 时回退到存储类型
- ARROW-6188 - [GLib] 添加 garrow_array_is_in()
- ARROW-6192 - [GLib] 使用与 C++ 相同的 SO 版本
- ARROW-6194 - [Java] 在 DictionaryEncoder 中添加非静态方法,使其易于扩展和重用
- ARROW-6196 - [Ruby] 添加对使用 .new 构建 Arrow::TimeNNArray 的支持
- ARROW-6197 - [GLib] 添加 garrow_decimal128_rescale()
- ARROW-6199 - [Java] Avro 适配器避免潜在的资源泄漏。
- ARROW-6203 - [GLib] 添加 garrow_array_sort_to_indices()
- ARROW-6204 - [GLib] 添加 garrow_array_is_in_chunked_array()
- ARROW-6206 - [Java][文档] 记录环境变量/java 属性
- ARROW-6209 - [Java] 将 set null 方法提取到固定宽度向量的基类
- ARROW-6212 - [Java] 支持向量排名操作
- ARROW-6216 - [C++] 允许用户选择压缩级别
- ARROW-6217 - [网站] 删除不必要的 _site/ 目录
- ARROW-6219 - [Java] 为 JDBC 适配器添加 API,一次可以转换少于完整结果集的数据。
- ARROW-6220 - [Java] 向 avro 适配器添加 API 以限制一次返回的行数。
- ARROW-6225 - [网站] 更新 arrow-site/README 和任何其他地方,为网站贡献者指明正确的方向
- ARROW-6229 - [C++] 添加扫描目录的 DataSource 实现
- ARROW-6230 - [R] 读取 Parquet 文件比在 R 中读取 fst 文件慢 20 倍
- ARROW-6231 - [C++][Python] 考虑在读取 CSV 文件和 header_rows=0 时分配默认列名
- ARROW-6232 - [C++] 将 Argsort 内核重命名为 SortToIndices
- ARROW-6237 - [R] 添加在使用 $ARROW_R_CXXFLAGS 编译 R 包时设置 CXXFLAGS 的选项
- ARROW-6238 - [C++] 实现 SimpleDataSource/SimpleDataFragment
- ARROW-6240 - [Ruby] Arrow::Decimal128Array 返回 BigDecimal
- ARROW-6242 - [C++] 实现基本的 Dataset/Scanner/ScannerBuilder
- ARROW-6243 - [C++] 实现基本的 Filter 表达式类
- ARROW-6244 - [C++] 实现分区 DataSource
- ARROW-6246 - [网站] 添加到 R 文档站点的链接
- ARROW-6247 - [Java] 为 float4 和 float8 向量提供通用接口
- ARROW-6249 - [Java] 删除无用的类 ByteArrayWrapper
- ARROW-6250 - [Java] 实现 ApproxEqualsVisitor 对浮点数进行近似比较
- ARROW-6252 - [Python] 添加 pyarrow.Array.diff 方法以公开 arrow::Diff
- ARROW-6253 - [Python] 在 pyarrow.parquet.read_table 中公开 parquet::ReaderProperties 的 “enable_buffered_stream” 选项
- ARROW-6258 - [R] 添加 macOS 构建脚本
- ARROW-6260 - [网站] 在 Travis 上使用部署密钥来构建并推送到 asf-site
- ARROW-6262 - [开发者] 在合并前显示 JIRA 问题
- ARROW-6264 - [Java] ArrowBufHasher 中无需考虑字节顺序
- ARROW-6265 - [Java] Avro 适配器实现 Array/Map/Fixed 类型
- ARROW-6267 - [Ruby] 为 Arrow::Time{32,64}DataType 值添加 Arrow::Time
- ARROW-6271 - [Rust] [DataFusion] 添加针对 Parquet 运行 SQL 的示例
- ARROW-6272 - [Rust] [DataFusion] 向 ExecutionContext 添加 register_parquet 便利方法
- ARROW-6278 - [R] 从原始向量读取 parquet 文件
- ARROW-6279 - [Python] 添加 Table.slice 方法或允许在 __getitem__ 中使用切片
- ARROW-6284 - [C++] 将元组转换为箭头数组时允许 std::tuple 中的引用
- ARROW-6287 - [Rust] [DataFusion] 重构 TableProvider 以返回线程安全的 BatchIterator
- ARROW-6288 - [Java] 实现 TypeEqualsVisitor 比较向量类型是否相等,同时考虑名称和元数据
- ARROW-6289 - [Java] 在 UnionVector 中添加 empty() 以创建实例
- ARROW-6292 - [C++] 添加使用 mimalloc 构建的选项
- ARROW-6294 - [C++] 为 plasma-store-server 可执行文件使用连字符
- ARROW-6296 - [Java] 清理 JDBC 接口并消除二进制/varchar 字段的一次内存复制
- ARROW-6297 - [Java] 使用无符号整数比较 ArrowBufPointers
- ARROW-6300 - [C++] 添加 io::OutputStream::Abort()
- ARROW-6303 - [Rust] 添加禁用 SIMD 的功能
- ARROW-6304 - [Java] 为每个 maven 工件添加描述
- ARROW-6306 - [Java] 通过稳定的比较器支持稳定排序
- ARROW-6310 - [C++] 在 JSON 集成测试文件中将 64 位整数写成字符串
- ARROW-6311 - [Java] 使 ApproxEqualsVisitor 接受 DiffFunction 以使其更灵活
- ARROW-6313 - [格式] 跟踪以确保 flatbuffer 序列化值在流/文件中对齐。
- ARROW-6314 - [C++] 实施更改以确保 flatbuffer 对齐。
- ARROW-6315 - [Java] 进行更改以确保 flatbuffer 读取对齐
- ARROW-6316 - [Go] 进行更改以确保 flatbuffer 读取对齐
- ARROW-6317 - [JS] 实施更改以确保 flatbuffer 对齐
- ARROW-6318 - [集成] 更新集成测试以使用生成的二进制文件以确保向后兼容性
- ARROW-6319 - [C++] 提取 NumericTensor 的核心
::Value as Tensor::Value - ARROW-6326 - [C++] 将 std::tuple 转换为 Table 时的可空字段
- ARROW-6328 Click.option-s 应该有帮助文本
- ARROW-6329 - [格式] 向 IPC 消息格式添加 4 字节“流继续”以对齐 Flatbuffers
- ARROW-6331 - [Java] 将 ErrorProne 合并到 Java 构建中
- ARROW-6334 - [Java] 改进字典构建器 API 以返回字典中值的位置
- ARROW-6335 - [Java] 提高 DictionaryHashTable 的性能
- ARROW-6336 - [Python] 阐明 pyarrow.serialize/deserialize 文档字符串与 Arrow IPC 协议的关系
- ARROW-6337 - [R] R API 中的 as_tibble 是一个用词不当
- ARROW-6338 - [R] 类型函数名称与类型名称不匹配
- ARROW-6342 - [Python] 添加 pyarrow.record_batch 工厂函数,其基本 API/语义与 pyarrow.table 相同
- ARROW-6346 - [GLib] 添加 garrow_array_view()
- ARROW-6347 - [GLib] 添加 garrow_array_diff_unified()
- ARROW-6350 - [Ruby] 删除 Arrow::Struct 并改用 Hash
- ARROW-6351 - [Ruby] 提高 Arrow#values 性能
- ARROW-6353 - [Python] 允许用户在 pyarrow.parquet.write_table 中选择压缩级别
- ARROW-6355 - [Java] 使范围相等访问器可重用
- ARROW-6356 - [Java] Avro 适配器实现枚举类型和嵌套记录类型
- ARROW-6357 - [C++] S3:允许后台写入
- ARROW-6358 - [C++] FileSystem::DeleteDir 应使删除目录本身成为可选
- ARROW-6360 - [R] 更新对压缩的支持
- ARROW-6362 - [C++] S3:更灵活的凭证选项
- ARROW-6365 - [R] 应该能够使用模式将数字强制转换为整数
- ARROW-6366 - [Java] 将字段向量显式设置为 final
- ARROW-6368 - [C++] 添加 RecordBatch 投影功能
- ARROW-6373 - [C++] 使 FixedWidthBinaryBuilder 与其他原始固定宽度构建器一致
- ARROW-6375 - [C++] 扩展 ConversionTraits 以允许在 STL API 中有效地追加列表值
- ARROW-6379 - [C++] 为 IPC 序列化 NullType 时不追加任何缓冲区
- ARROW-6381 - [C++] BufferOutputStream::Write 对于许多小写入速度很慢
- ARROW-6383 - [Java] 在父分配器关闭时报告未完成的子分配器
- ARROW-6384 - [C++] 提升依赖项
- ARROW-6385 - [C++] 调研 xxh3
- ARROW-6391 - [Python][Flight] 在 FlightServerBase 上添加内置方法以启动服务器并等待它可用
- ARROW-6397 - [C++][CI] 修复 S3 minio 故障
- ARROW-6401 - [Java] 为 Struct 类型实现字典编码的子字段
- ARROW-6402 - [C++] 使用 g++ 9.2.1 抑制符号比较警告
- ARROW-6403 - [Python] 将 FileReader::ReadRowGroups() 公开给 Python
- ARROW-6408 - [Rust] 在 SIMD 内核实现中使用“if cfg!”模式
- ARROW-6413 - [R] 支持自动生成列名
- ARROW-6415 - [R] 删除 R CMD config CXXCPP 的使用
- ARROW-6416 - [Python] 关于 chunksizes 的 API 和文档令人困惑
- ARROW-6419 - [网站] 关于 0.15.x 版本中即将推出的 Parquet 字典性能工作的博客文章
- ARROW-6422 - [Gandiva] 修复 double-conversion 链接器问题
- ARROW-6426 - [FlightRPC] 在 Flight 中公开 gRPC 配置旋钮
- ARROW-6427 - [GLib] 添加对列名自动生成 CSV 读取选项的支持
- ARROW-6438 - [R] 为文件系统 API 添加绑定
- ARROW-6447 - [C++] 使用 ARROW_JEMALLOC=ON 构建在构建任何 libarrow .cc 文件之前等待 jemalloc_ep 完成
- ARROW-6450 - [C++] 在 arrow::BufferBuilder 中使用 2 倍重新分配策略而不是 1.5 倍
- ARROW-6451 - [格式] 对 Columnar.rst 中关于 Varbinary 或 List 数组中“null”槽内容的说明进行澄清
- ARROW-6453 - [C++] 来自 S3 的更具 информативности 错误消息
- ARROW-6454 - [开发者] 由于软件包中的二进制文件重新分发,将 LLVM 许可证添加到 LICENSE.txt
- ARROW-6458 - [Java] 删除 ApproxEqualsVisitor 的值装箱/拆箱
- ARROW-6460 - [Java] 为 avro 适配器添加基准测试和大型虚假数据 UT
- ARROW-6462 - [C++] 无法在 CentOS 6 x86_64 上使用捆绑的 double-conversion 进行构建
- ARROW-6465 - [Python] 改进 Windows 构建说明
- ARROW-6474 - [Python] 提供 python 写出旧格式的机制
- ARROW-6475 - [C++] 不要尝试对字典数组进行字典编码
- ARROW-6477 - [打包][Crossbow] 使用 Azure Pipelines 构建 linux 软件包
- ARROW-6480 - [开发者] 添加为 Crossbow 运行生成并发送电子邮件报告的命令
- ARROW-6484 - [Java] 根据字典值计数启用为 DictionaryEncoding 创建 indexType
- ARROW-6487 - [Rust] [DataFusion] 创建测试 utils 模块
- ARROW-6489 - [开发者][文档] 修复合并脚本和自述文件
- ARROW-6490 - [Java] 记录分配器关闭时泄漏的错误
- ARROW-6491 - [Java] 修复由 ErrorProne 引起的主构建失败
- ARROW-6494 - [C++][Dataset] 实现基本的 PartitionScheme
- ARROW-6504 - [Python][打包] 为更好的性能在 conda 包中添加 mimalloc
- ARROW-6505 - [网站] 添加新的提交者
- ARROW-6518 - [打包][Python] Flight 在 OSX Python wheel 构建中失败
- ARROW-6519 - [Java] 使用 IPC 延续令牌标记 EOS
- ARROW-6524 - [开发者][打包] 夜间构建报告的主题应包含 Arrow
- ARROW-6525 - [C++] CloseFromDestructor() 可能不应该崩溃
- ARROW-6526 - [C++] 在 PoolBuffer 析构函数中污染数据
- ARROW-6527 - [C++] 添加 OutputStream::Write() 变体,使用自有缓冲区
- ARROW-6531 - [Python] 为缓冲流添加 detach() 方法
- ARROW-6532 - [R] 使用压缩写入 parquet 文件
- ARROW-6533 - [R] 压缩编解码器应使用 “级别” 参数
- ARROW-6534 - [Java] 修复拼写错误
- ARROW-6539 - [R] 提供写出旧格式的机制
- ARROW-6540 - [R] 添加 Validate() 方法
- ARROW-6541 - [格式][C++] 使用两部分 EOS 并修改格式文档
- ARROW-6542 - [R] 为数组类型添加 View() 方法
- ARROW-6544 - [R] 0.15 版本的文档/润色
- ARROW-6545 - [Go] 根据邮件列表讨论,更新 Go IPC 写入器以使用两部分 EOS
- ARROW-6546 - [C++] 添加缺少的 FlatBuffers 源代码依赖项
- ARROW-6549 - [C++] 切换回最新的 jemalloc 5.x
- ARROW-6556 - [Python] 准备发布不带 SparseDataFrame 的 pandas 版本
- ARROW-6557 - [Python] 始终从 Array/ChunkedArray.to_pandas 返回 pandas.Series,将字段名称从 RecordBatch、Table 传播到 Series
- ARROW-6558 - [C++] 将迭代器重构为类型擦除句柄
- ARROW-6559 - [开发者][C++] 添加 “archery” 选项以指定 C++ 构建的系统工具链
- ARROW-6563 - [Rust] [DataFusion] 创建 “合并” 执行计划
- ARROW-6569 - [网站] 添加对 GitHub Actions 自动部署的支持
- ARROW-6570 - [Python] 使用 MemoryPool 为 to_pandas 调用中的 NumPy 数组分配内存
- ARROW-6580 - [Java] 支持无符号整数比较
- ARROW-6584 - [Python][Wheel] 再次将 zlib 与 Windows wheels 捆绑在一起
- ARROW-6588 - [C++] 使用 g++ 9.2.1 抑制 class-memaccess 警告
- ARROW-6589 - [C++] 在 MakeArrayOfNull 中支持 BinaryType
- ARROW-6590 - [C++] 当 ARROW_IPC=ON 时,不要求 ARROW_JSON=ON
- ARROW-6591 - [R] 在源代码控制中忽略 .Rhistory 文件
- ARROW-6599 - [Rust] [DataFusion] 实现 SUM 聚合表达式
- ARROW-6601 - [Java] 提高 JDBC 适配器性能并添加基准测试
- ARROW-6605 - [C++] 向 fs::Selector 添加递归深度控制
- ARROW-6606 - [C++] 从 std::vector<fs::FileStats> 构建树结构
- ARROW-6609 - [C++] 添加最小构建 Dockerfile 示例
- ARROW-6610 - [C++] 添加 ARROW_FILESYSTEM=ON/OFF CMake 配置标志
- ARROW-6613 - [C++] 删除对 boost::filesystem 的依赖
- ARROW-6614 - [C++][Dataset] 实现 FileSystemDataSourceDiscovery
- ARROW-6621 - [Rust][DataFusion] DataFusion 的示例未在 CI 中执行
- ARROW-6629 - [文档][C++] 记录 FileSystem API
- ARROW-6630 - [文档][C++] 记录文件读取器(CSV、JSON、Parquet 等)
- ARROW-6644 - [JS] 修改 NullType IPC 协议以不追加缓冲区
- ARROW-6647 - [C++] 由于 shared_ptr 的成员初始化器,无法在 CentOS 7 上使用 g++ 4.8.5 构建
- ARROW-6648 - [Go] 公开 bitutil 包
- ARROW-6649 - [R] Table、RecordBatch 等的 print() 方法
- ARROW-6653 - [开发者] 添加对拉取请求上自动 JIRA 链接的支持
- ARROW-6655 - [Python] S3 的文件系统绑定
- ARROW-6664 - [C++] 添加不使用 SSE4.2 构建的选项
- ARROW-6665 - [Rust] [DataFusion] 实现数值字面量表达式
- ARROW-6667 - [Python] 避免 pyarrow.parquet 中的循环引用
- ARROW-6668 - [Rust] [DataFusion] 实现 CAST 表达式
- ARROW-6669 - [Rust] [DataFusion] 为二元表达式实现物理表达式
- ARROW-6675 - [JS] 向 dataFrame 和 filteredDataframe 添加 scanReverse 函数
- ARROW-6683 - [Python] 添加单元测试,以验证安装 fastparquet 时与 pyarrow.parquet 的交叉兼容性
- ARROW-6725 - [CI] 禁用第三方 fuzzit 夜间构建
- ARROW-6735 - [C++] 使用 g++ 9.2.1 抑制符号比较警告
- ARROW-6752 - [Go] 为 Null 数组实现 Stringer
- ARROW-6755 - [发布] 改进 Windows 版本验证脚本
- ARROW-6771 - [打包][Python] conda 和 wheel 构建中缺少 pytest 依赖项
- ARROW-750 - [格式] 添加 LargeBinary 和 LargeString 类型
错误修复
- ARROW-1184 - [Java] Dictionary.equals 无法正常工作
- ARROW-2317 - [Python] 修复 C 链接警告
- ARROW-2490 - [C++] 输入流锁不一致
- ARROW-3176 - [Python] Date32 列转换为 pandas 时溢出
- ARROW-3203 - [C++] 在 Debian Buster 上构建错误
- ARROW-3651 - [Python] 无法反序列化来自非 DateTimeIndex 的日期时间
- ARROW-3652 - [Python] 读取 CategoricalIndex 后丢失
- ARROW-3762 - [C++] 当超过 BinaryArray 的容量时,Parquet arrow::Table 读取错误
- ARROW-3933 - [Python] 从 GNOMAD 读取 Parquet 文件时出现段错误
- ARROW-4187 - [C++] file-benchmark 使用……
- ARROW-4746 - [C++/Python] PyDataTime_Date 错误地转换为 PyDataTime_DateTime
- ARROW-4836 - [Python] 使用 RecordBatchStreamWriter 时出现 “无法判断压缩流”
- ARROW-4848 - [C++] 静态 libparquet 未在 Windows 上使用 -DARROW_STATIC 编译
- ARROW-4880 - [Python] 在 CMake 重构后,python/asv-build.sh 可能已损坏
- ARROW-4883 - [Python] 如果在文本模式下提供文件对象,read_csv() 将返回垃圾数据
- ARROW-5028 - [Python][C++] 使用 pyarrow.array 创建列表……
可能会导致子构建器溢出 - ARROW-5085 - [Python/C++] 使用 RowGroups 时,字典编码的空列的转换在 parquet 写入中失败
- ARROW-5086 - [Python] ParquetFile.read_row_group() 中的内存泄漏
- ARROW-5089 - [C++/Python] 使用块大小时,将字典编码的列写入 parquet 非常慢
- ARROW-5125 - [Python] 无法通过 pyarrow 往返极端日期
- ARROW-5220 - [Python] Table.from_pandas 中指定架构中的索引/未知列
- ARROW-5292 - [C++] 在 AppVeyor 上构建静态库
- ARROW-5300 - [C++] 使用选项 -DARROW_NO_DEFAULT_MEMORY_POOL 构建 0.13 失败
- ARROW-5374 - [Python] 在完整的 IPC 流上调用 pyarrow.read_record_batch 时,错误消息具有误导性
- ARROW-5414 - [C++] 使用 “Ninja” 构建系统生成器会覆盖 Windows 上的默认 Release 构建类型
- ARROW-5450 - [Python] TimestampArray.to_pylist() 因 OverflowError 失败:Python int 太大,无法转换为 C long
- ARROW-5471 - [C++][Gandiva]Gandiva 投影中忽略了数组偏移量
- ARROW-5522 - [打包][文档] python/manylinux1/build_arrow.sh 中的注释已过期
- ARROW-5525 - [C++][CI] 启用持续模糊测试
- ARROW-5560 - [C++][Plasma] 内存不足错误后无法创建 Plasma 对象
- ARROW-5562 - [C++][Parquet] parquet 写入器无法正确处理负零
- ARROW-5630 - [Python][Parquet] 嵌套数组的表无法往返
- ARROW-5638 - [C++] 启用 Gandiva JNI 绑定时,cmake 无法生成 Xcode 项目
- ARROW-5651 - [Python] 指定其他类型时,来自跨步 Numpy 数组的转换不正确
- ARROW-5682 - [Python] from_pandas 转换将值转换为字符串的方式不一致
- ARROW-5731 - [CI] Turbodbc 集成测试失败
- ARROW-5753 - [Rust] 修复 CI 代码覆盖率中的测试失败
- ARROW-5772 - [GLib][Plasma][CUDA] Plasma::Client#refer_object 测试失败
- ARROW-5775 - [C++] StructArray:缓存的盒装字段不是线程安全的
- ARROW-5776 - [Gandiva][Crossbow] 恢复模板以包含提交 ID。
- ARROW-5790 - [Python] 将零维 numpy 数组传递给 pa.array 会导致段错误
- ARROW-5817 - [Python] 将 pytest 标记用于 Flight 测试,以避免由于导入失败而静默跳过单元测试
- ARROW-5823 - [Rust] CI 脚本缺少 --all-targets cargo 参数
- ARROW-5824 - [Gandiva] [C++] 修复十进制空值
- ARROW-5836 - [Java][OSX] Flight 测试失败:地址已在使用中
- ARROW-5838 - [C++][Flight][OSX] 构建第三方 grpc 找不到 OpenSSL
- ARROW-5848 - [C++] 1.0.0 版本发布后,SO 版本控制架构
- ARROW-5849 - [C++] mingw-w64 上的编译器警告
- ARROW-5851 - [C++] 参考基准测试的编译失败
- ARROW-5856 - [Python] 自 0.14.0 起,将第三方 cython 模块链接到 pyarrow 失败
- ARROW-5860 - [Java] [Vector] 修复十进制字节设置器
- ARROW-5863 - [Python] 通过 pytest-runner 导致段错误
- ARROW-5868 - [Python] manylinux2010 wheel 对共享库 liblz4 有依赖性
- ARROW-5870 - [C++] 开发编译说明需要包含 “make”
- ARROW-5873 - [Python] 将 schema 与 None 比较时出现段错误
- ARROW-5874 - [Python] pyarrow 0.14.0 macOS wheel 依赖于 /usr/local/opt 下的共享库
- ARROW-5878 - [Python][C++] Parquet 读取器与没有时区的时间戳不向前兼容
- ARROW-5884 - [Java] 修复 StructVector 的 get 方法
- ARROW-5886 - [Python][Packaging] libz 的 Manylinux1/2010 兼容性问题
- ARROW-5887 - [C#] ArrowStreamWriter 以错误的顺序写入 FieldNode
- ARROW-5889 - [Python][C++] Parquet 与没有时区的时间戳的向后兼容性被破坏
- ARROW-5894 - [C++] libgandiva.so.14 正在导出 libstdc++ 符号
- ARROW-5899 - [Python][Packaging] 在 Windows wheel 中捆绑 uriparser.dll
- ARROW-5910 - [Python] read_tensor() 在不可查找的流上失败
- ARROW-5921 - [C++][Fuzzing] IPC 中缺少 nullptr 检查
- ARROW-5923 - [C++] 修复 int96 注释
- ARROW-5925 - [Gandiva][C++] 将十进制转换为整数应该向上舍入
- ARROW-5930 - [FlightRPC] [Python] Flight CI 测试失败
- ARROW-5935 - [C++] 不稳健地支持具有可变类型的 ArrayBuilder
- ARROW-5946 - [Rust] [DataFusion] 使用聚合进行投影下推产生不正确的结果
- ARROW-5952 - [Python] 将带有类别的空表读取为 pandas dataframe 时出现段错误
- ARROW-5959 - [C++][CI] Fuzzit 不知道分支 + 提交哈希
- ARROW-5960 - [C++] Boost 依赖项的指定顺序错误
- ARROW-5963 - [R] R Appveyor 作业不测试 C++ 库中的更改
- ARROW-5964 - [C++][Gandiva] 将 double 转换为带舍入的十进制返回 0
- ARROW-5966 - [Python] 将大型 UTF32 numpy 数组转换为 arrow 数组时出现容量错误
- ARROW-5968 - [Java] 删除 JDBC 适配器中重复的 Preconditions 检查
- ARROW-5969 - [CI] [R] Lint 错误
- ARROW-5973 - [Java] 当基础数据为空时,可变宽度向量的 get 方法应返回 null
- ARROW-5978 - [FlightRPC] [Java] 集成测试客户端未关闭缓冲区
- ARROW-5989 - [C++][Python] 使用 openjdk-8 时出现 pyarrow.lib.ArrowIOError:无法加载 libjvm
- ARROW-5990 - [Python] RowGroupMetaData.column 缺少边界检查
- ARROW-5992 - [C++] Array::View 对于字符串/utf8 作为二进制文件失败
- ARROW-5996 - [Java] 避免 flight 服务中的资源泄漏
- ARROW-5999 - [C++] 使用 -DARROW_DATASET=OFF 构建时缺少必需的头文件
- ARROW-6002 - [C++][Gandiva] TestCastFunctions 未测试 int64 转换
- ARROW-6004 - [C++] CSV 读取器 ignore_empty_lines 选项不处理空行
- ARROW-6005 - [C++] 自 ARROW-1012 以来,parquet::arrow::FileReader::GetRecordBatchReader() 的行为与文档不符
- ARROW-6006 - [C++] 包含字典的空 IPC 流已损坏
- ARROW-6012 - [C++] Thrift 下载回退到已知的 Apache 镜像
- ARROW-6016 - [Python] pyarrow get_library_dirs 断言错误
- ARROW-6029 - [R] 改进关于如何修复库版本不匹配的 R 文档
- ARROW-6032 - [C++] CountSetBits 不确保 64 位对齐访问
- ARROW-6038 - [Python] 如果任何批次为空,pyarrow.Table.from_batches 会生成损坏的表
- ARROW-6040 - [Java] 即使为空,IPC 流中也需要字典条目
- ARROW-6046 - [C++] 使用偏移量 0 对 String 数组的 RecordBatch 进行切片会返回整个批次
- ARROW-6047 - [Rust] Rust nightly 1.38.0 构建失败
- ARROW-6050 - [Java] 更新过时的 java/flight/README.md
- ARROW-6054 - pyarrow.serialize 应该遵循 numpy 的结构化 dtype 的值
- ARROW-6058 - [Python][Parquet] 使用 s3fs 从 S3 读取 Parquet 文件时出错
- ARROW-6060 - [Python] 使用 use_threads=True 的 pyarrow.parquet.read_table 内存成本过高
- ARROW-6061 - [C++] 没有 rapidjson 无法构建 libarrow
- ARROW-6066 - [Website] 修复博客文章作者标题
- ARROW-6067 - [Python] 大内存测试失败
- ARROW-6068 - [Python] Hypothesis 测试失败,添加接受字段向量的 StructType::Make
- ARROW-6073 - [C++] Decimal128Builder 未在 Finish() 中重置
- ARROW-6082 - [Python] 使用非整数索引类型创建 pa.dictionary() 类型会导致崩溃
- ARROW-6092 - [C++] Python 2.7:arrow_python_test 失败
- ARROW-6095 - [C++] Python 子项目忽略 ARROW_TEST_LINKAGE
- ARROW-6108 - [C++] Appveyor Build_Debug 配置在 C++ 单元测试中挂起
- ARROW-6116 - [C++][Gandiva] 修复 TimedTestFilterAdd2 中的错误
- ARROW-6117 - [Java] 修复 FixedSizeBinaryVector 的 set 方法
- ARROW-6120 - [C++][Gandiva] 包含某些头文件会导致 decimal_test 失败
- ARROW-6126 - [C++] IPC 流读取器处理空流可能不稳健
- ARROW-6132 - [Python] ListArray.from_arrays 不检查输入数组的有效性
- ARROW-6135 - [C++] KeyValueMetadata::Equals 不应区分顺序
- ARROW-6136 - [FlightRPC][Java] 不要重复关闭响应流
- ARROW-6145 - [Java] MinorType#getNewVector 创建的 UnionVector 无法正确保留字段类型信息
- ARROW-6148 - [C++][Packaging] 改进 aarch64 支持
- ARROW-6152 - [C++][Parquet] 将 arrow::Array 直接写入 parquet::TypedColumnWriter
- ARROW-6153 - [R] 解决 parquet 弃用警告
- ARROW-6158 - [Python] 可以创建类型与子数组类型冲突的 StructArray
- ARROW-6159 - [C++] arrow::Schema 的 PrettyPrint 缺少第一行的缩进
- ARROW-6160 - [Java] AbstractStructVector#getPrimitiveVectors 无法处理复杂的子向量
- ARROW-6166 - [Go] 切片的切片导致索引超出范围的恐慌
- ARROW-6167 - [R] CRAN 上的 macOS 二进制 R 包没有 arrow_available
- ARROW-6170 - [R] “docker-compose build r” 速度很慢
- ARROW-6171 - [R] “docker-compose run r” 失败
- ARROW-6174 - [C++] 在 ChunkedArray::Validate 中验证块
- ARROW-6175 - [Java] 修复 MapVector#getMinorType 并扩展 AbstractContainerVector addOrGet 复杂向量 API
- ARROW-6178 - [Developer] 不要在多作者 PR 中的错误主要作者输入的合并脚本中失败
- ARROW-6182 - [R] 在 README 中添加关于 r-arrow conda 安装的注释
- ARROW-6186 - [Packaging][C++] ubuntu-xenial libplasma-dev debian 软件包中未包含 Plasma 头文件
- ARROW-6190 - [C++] 无论 NDEBUG 如何都定义和声明函数
- ARROW-6193 - [GLib] 在测试中添加缺少的 require
- ARROW-6200 - [Java] BaseRepeatedValueVector/ListVector 中的 Method getBufferSizeFor 不正确
- ARROW-6202 - [Java] 线程 “main” 中的异常 org.apache.arrow.memory.OutOfMemoryException:由于内存限制,无法分配大小为 4 的缓冲区。当前分配:2147483646
- ARROW-6205 - [C++] 从 CUDA (.cu) 源包含 io/interfaces.h 时出现 ARROW_DEPRECATED 警告
- ARROW-6208 - [Java] 在 ByteFunctionHelpers 中进行比较之前更正字节顺序
- ARROW-6210 - [Java] 从 ValueVector 中删除 equals API
- ARROW-6211 - [Java] 从 ValueVector 接口中删除对 RangeEqualsVisitor 的依赖
- ARROW-6214 - [R] 通过 R 绑定触发清理器错误
- ARROW-6215 - [Java] RangeEqualVisitor 未正确比较 ZeroVector
- ARROW-6218 - [Java] 在集成中添加 UINT 类型测试以避免潜在的溢出
- ARROW-6223 - [C++] Anaconda Python 3.7.4 配置错误
- ARROW-6224 - [Python] 剩余使用 ‘data’ 属性(来自之前的 Column)导致警告
- ARROW-6227 - [Python] pyarrow.array() 不应该将 np.nan 强制转换为字符串
- ARROW-6234 - [Java] ListVector hashCode() 不正确
- ARROW-6241 - [Java] master 分支上的错误
- ARROW-6259 - [C++][CI] macOS 上 CI 中与 Flatbuffers 相关的错误
- ARROW-6263 - [Python] RecordBatch.from_arrays 不检查数组类型是否与传递的模式匹配
- ARROW-6266 - [Java] 解决 RangeEqualsVisitor 中不明确的方法重载
- ARROW-6268 - 空缓冲区应该有一个有效的地址
- ARROW-6269 - [C++][Fuzzing] IPC 读取不检查十进制精度
- ARROW-6270 - [C++][Fuzzing] IPC 读取不检查缓冲区索引
- ARROW-6290 - [Rust] [DataFusion] 运行 sql_csv 示例时出错
- ARROW-6291 - [C++] CMake 忽略 ARROW_PARQUET
- ARROW-6301 - [Python] atexit: pyarrow.lib.ArrowKeyError: ‘找不到名为 arrow.py_extension_type 的类型扩展’
- ARROW-6302 - [Python][Parquet] 使用序列化 Arrow 模式读取字典类型不会恢复 “ordered” 类型属性
- ARROW-6309 - [C++] Parquet 测试和可执行文件被静态链接
- ARROW-6323 - [R] 传递给读取器时扩展文件路径
- ARROW-6325 - [Python] 包含布尔值的 DataFrame 的转换错误
- ARROW-6330 - [C++] 在 api.h 中包含缺少的头文件
- ARROW-6332 - [Java][C++][Gandiva] 正确处理 varchar 向量的大小
- ARROW-6339 - [Python][C++] pd.NaT 数组的行组统计信息定义不明确
- ARROW-6343 - [Java] [Vector] 修复分配助手
- ARROW-6344 - [C++][Gandiva] substring 不处理多字节字符
- ARROW-6345 - [C++][Python] 比较 DictionaryType 值是否相等时,似乎没有考虑 “ordered” 标志
- ARROW-6348 - [R] 未加载包时 arrow::read_csv_arrow 命名空间错误
- ARROW-6354 - [C++] 不使用 Parquet 构建失败
- ARROW-6363 - [R] Table__from_dots 在出现意外模式时出现段错误
- ARROW-6364 - [R] 处理 time64() 等的意外输入
- ARROW-6369 - [Python] 在 Array.to_pandas 转换中支持布尔值列表
- ARROW-6371 - [Doc] 行到列转换示例在注释中提到了 arrow::Column
- ARROW-6372 - [Rust][Datafusion] 不支持从无符号整数到有符号整数的转换
- ARROW-6376 - [Developer] PR 合并脚本硬编码了 “master” 目标引用
- ARROW-6387 - [Archery] make 出错
- ARROW-6392 - [Python][Flight] list_actions 服务器 RPC 在 test_flight.py 中未测试,返回值也未验证
- ARROW-6406 - [C++] 离线构建 jemalloc_ep 失败
- ARROW-6411 - [C++][Parquet] DictEncoderImpl
::PutIndicesTyped 在某些系统上性能不佳 - ARROW-6412 - [C++] arrow-flight-test 可能因端口分配而崩溃
- ARROW-6418 - [C++] Plasma cmake 目标未导出
- ARROW-6423 - [Python] 当 compression='snappy' 时,pyarrow.CompressedOutputStream() 永远不会完成
- ARROW-6424 - [C++][Fuzzing] Fuzzit nightly 坏了
- ARROW-6428 - [CI][Crossbow] 夜间 turbodbc 作业失败
- ARROW-6431 - [Python] 未安装 pandas 时测试套件失败
- ARROW-6432 - [CI][Crossbow] 删除 alpine crossbow 作业
- ARROW-6433 - [CI][Crossbow] 夜间 java docker 作业失败
- ARROW-6434 - [CI][Crossbow] 夜间 HDFS 集成作业失败
- ARROW-6435 - [CI][Crossbow] 夜间 dask 集成作业失败
- ARROW-6440 - [CI][Crossbow] 夜间 ubuntu、debian 和 centos 软件包构建失败
- ARROW-6441 - [CI][Crossbow] 夜间 Centos 6 作业失败
- ARROW-6443 - [CI][Crossbow] 夜间 conda osx 构建失败
- ARROW-6445 - [CI][Crossbow] 夜间 Gandiva jar trusty 作业失败
- ARROW-6446 - [OSX][Python][Wheel] 在 wheel 构建脚本中关闭 ORC 功能
- ARROW-6449 - [R] io “tell()” 方法命名不一致且未测试
- ARROW-6457 - [C++] 使用 MSVC 2015 构建生成器本地 CMake 构建失败
- ARROW-6461 - [Java] EchoServer 可以在客户端完成读取之前关闭套接字
- ARROW-6472 - [Java] ValueVector#accept 可能存在潜在的强制转换异常
- ARROW-6476 - [Java][CI] Travis java all-jdks 作业已损坏
- ARROW-6478 - [C++] 回滚到 jemalloc stable-4 分支,直到解决 5.2.x 中的性能问题
- ARROW-6481 - [Python][C++] read_csv() 与 column_types 的性能不佳
- ARROW-6488 - [Python] pyarrow.NULL 等于自身
- ARROW-6492 - [Python] 使用最新的 fastparquet 编写的文件无法使用最新的 pyarrow 读取
- ARROW-6502 - [GLib][CI] CI 中的 MinGW 故障
- ARROW-6506 - [C++] 嵌套类型的 ExtensionType 验证失败
- ARROW-6509 - [C++][Gandiva] 重新启用 Gandiva JNI 测试并修复 Travis CI 故障
- ARROW-6520 - [Python] 写入具有固定大小二进制字段的表时出现段错误
- ARROW-6522 - [Python] 使用 pandas 0.23.4、pytest 3.8.1 时测试套件失败
- ARROW-6530 - [CI][Crossbow][R] 夜间 R 作业未安装所有依赖项
- ARROW-6550 - [C++] 过滤表达式 PR 导致 manylinux 软件包构建失败
- ARROW-6552 - [C++] STL 测试中的 boost::optional 在 gcc 4.8.2 中编译失败
- ARROW-6560 - [Python] *-nopandas 集成测试失败
- ARROW-6561 - [Python] pandas-master 集成测试失败
- ARROW-6562 - [GLib] 修复 GArrowBuffer 错误的切片数据
- ARROW-6564 - [Python] 调用 Array.__array__ 不需要 pandas
- ARROW-6565 - [Rust] [DataFusion] 由于临时目录已存在,测试间歇性失败
- ARROW-6568 - [C++][Python][Parquet] pyarrow.parquet 写入零块字典类型列时崩溃
- ARROW-6572 - [C++] 读取某些 Parquet 数据可能返回未初始化的内存
- ARROW-6573 - [Python] 写入 parquet 时出现段错误
- ARROW-6576 - [R] 修复 sparklyr 集成测试
- ARROW-6597 - [Python] 使用 Python 2.7 时 test_pandas 中出现段错误
- ARROW-6618 - [Python] 读取零大小缓冲区可能导致段错误
- ARROW-6622 - [C++][R] Windows 上的 SubTreeFileSystem 路径错误
- ARROW-6623 - [CI][Python] Dask docker 集成测试可能因与统计相关的更改而损坏
- ARROW-6639 - [Packaging][RPM] 添加对 aarch64 上的 CentOS 7 的支持
- ARROW-6640 - [C++] BufferedInputStream Peek 超过缓冲字节数时出错
- ARROW-6642 - [Python] 对 ParquetDataset 元数据的链式访问导致段错误
- ARROW-6651 - [R] 修复 R conda 作业
- ARROW-6652 - [Python] to_pandas 转换会从类型中删除时区
- ARROW-6660 - [Rust] [DataFusion] 0.15.0 版本的文档小幅更新
- ARROW-6670 - [CI][R] 修复 R 夜间作业的修复
- ARROW-6674 - [Python] 修复或忽略测试警告
- ARROW-6677 - [FlightRPC][C++] 记录在 C++ 中使用 Flight
- ARROW-6678 - [C++] ARROW-3246 引入了 Parquet 文件兼容性回归
- ARROW-6679 - [RELEASE] LICENSE.txt 中的 autobrew 许可证不可接受
- ARROW-6682 - [C#] Arrow R/C++ 读取 C# 生成的二进制文件时挂起
- ARROW-6687 - [Rust] [DataFusion] 查询返回错误的行数
- ARROW-6701 - [C++][R] R cpp 代码上的 Lint 失败
- ARROW-6703 - [Packaging][Linux] 恢复 ARROW_VERSION 环境变量
- ARROW-6705 - [Rust] [DataFusion] README 中的 github URL 无效
- ARROW-6709 - [JAVA] 当值为 null 时,Jdbc 适配器 currentIndex 应递增
- ARROW-6714 - [R] 修复未经测试的 RecordBatchWriter 案例
- ARROW-6716 - [CI] [Rust] 新的 1.40.0 nightly 导致构建失败
- ARROW-6751 - [持续集成] ccache 在 Travis-CI 上无法缓存
- ARROW-6760 - [C++] JSON: 当列类型发生变化时改进错误消息
- ARROW-6762 - [C++] JSON 读取器在换行符处出现段错误
- ARROW-6773 - [C++] 使用数组切片进行过滤时,过滤器内核返回无效数据