Apache Arrow 0.15.0 (2019 年 10 月 5 日)
这是一个主要版本,涵盖了超过 3 个月的开发。
下载
贡献者
此版本包含来自 80 位不同贡献者的 672 次提交。
$ git shortlog -sn apache-arrow-0.14.0..apache-arrow-0.15.0
96 Wes McKinney
63 Antoine Pitrou
59 tianchen
55 Sutou Kouhei
46 liyafan82
38 Neal Richardson
34 Joris Van den Bossche
29 Krisztián Szűcs
24 Andy Grove
20 Benjamin Kietzman
18 Prudhvi Porandla
17 Micah Kornfield
15 François Saint-Jacques
13 David Li
12 Yosuke Shiro
9 Pindikura Ravindra
8 Romain Francois
7 Omer Ozarslan
7 Praveen
6 Renjie Liu
5 ptaylor
5 Kenta Murata
5 Hatem Helal
5 Bryan Cutler
4 Marco Neumann
4 Uwe L. Korn
4 Eric Erhardt
3 ARF1
3 Chao Sun
3 Paddy Horan
2 James Lamb
2 andyscho
2 Ryan Murray
2 Martin Radev
2 Sebastien Binet
1 Zhuo Peng
1 b-rms
1 czxrrr
1 emkornfield
1 lihalite
1 mmaclach
1 psuman
1 roshie548
1 shengjun.li
1 tianchen92
1 Ádám Lippai
1 Aaron Opfer
1 Adam Lippai
1 Artem Alekseev
1 Chen Li
1 Eric Liang
1 Galuh Sahid
1 Hengruo Zhang
1 Ingo Mueller
1 Ingvar-Y
1 Itamar Turner-Trauring
1 Jeka Pats
1 Johan Peltenburg
1 Kenneth Jung
1 Liya Fan
1 Marcin Juszkiewicz
1 Marius Seritan
1 Mark Harris
1 Mark Mikofski
1 Neville Dipale
1 Paul Taylor
1 Philipp Moritz
1 Richard Liaw
1 Rok
1 Ruslan Kuprieiev
1 TP Boudreau
1 Takuya Kato
1 Tao He
1 Thomas Elvey
1 Tobias Mayer
1 Ulzii Otgonbaatar
1 Yuan Zhou
1 Yuqi Gu
1 Zeyuan Shang
1 Zherui Cao
补丁提交者
以下 Apache 提交者将贡献的补丁合并到存储库中。
$ git shortlog -csn apache-arrow-0.14.0..apache-arrow-0.15.0
214 Wes McKinney
85 Sutou Kouhei
82 Micah Kornfield
70 Antoine Pitrou
44 Pindikura Ravindra
32 Krisztián Szűcs
29 François Saint-Jacques
25 Neal Richardson
19 Andy Grove
12 Yosuke Shiro
10 Benjamin Kietzman
10 Bryan Cutler
10 Paddy Horan
9 Praveen
6 Neville Dipale
4 Uwe L. Korn
3 Philipp Moritz
3 GitHub
1 Romain Francois
1 ptaylor
1 Chao Sun
1 emkornfield
1 Kenta Murata
变更日志
新特性和改进
- ARROW-1324 - [C++] 在 Windows / MSVC 上支持 ARROW_BOOST_VENDORED
- ARROW-1561 - [C++] “isin”(集合包含)的内核实现
- ARROW-1566 - [C++] 实现非物化排序内核
- ARROW-1741 - [C++] DictionaryArray 的比较函数,用于确定索引是否“兼容”
- ARROW-1789 - [Format] 整合规范文档并提高新实现作者的清晰度
- ARROW-1875 - [Java] 在集成测试 JSON 文件中将 64 位整数写为字符串
- ARROW-2769 - [C++][Python] 弃用并重命名 add_metadata 方法
- ARROW-2931 - [Crossbow] Windows 构建正在尝试运行 linux 和 osx 打包任务
- ARROW-3032 - [Python] 清理与 NumPy 相关的 C++ 头文件
- ARROW-3204 - [R] 启用可在 CRAN 上获得的包
- ARROW-3243 - [C++] 将 jemalloc 升级到版本 5
- ARROW-3246 - [Python][Parquet] 在 parquet 中直接读取/写入 pandas 分类数据
- ARROW-3325 - [Python] 支持直接将 Parquet 二进制/字符串列读取为 DictionaryArray
- ARROW-3531 - [Python] 弃用 Schema.field_by_name,而改用 __getitem__
- ARROW-3538 - [Python] 允许在写入数据集时覆盖自动分配给文件名的 uuid
- ARROW-3579 - [Crossbow] 未推送远程分支时出现不直观的错误消息
- ARROW-3643 - [Rust] 优化 `BufferBuilder
\` - ARROW-3710 - [Crossbow][Python] 针对 pandas master 运行夜间测试
- ARROW-3772 - [C++] 直接将 Parquet 字典编码的 ColumnChunks 读取到 Arrow DictionaryArray 中
- ARROW-3777 - [C++] 实现模拟的“高延迟”文件系统
- ARROW-3817 - [R] RecordBatch 的 $ 方法
- ARROW-3829 - [Python] 支持从第三方类提取 Arrow 对象的协议
- ARROW-3943 - [R] 为 R 包编写小插曲
- ARROW-4036 - [C++] 使状态代码可插拔
- ARROW-4095 - [C++] 实现字典统一的优化,其中字典是统一字典的前缀
- ARROW-4111 - [Python] 从 Python 整数序列创建时间类型
- ARROW-4218 - [Rust] [Parquet] 实现 ColumnReader
- ARROW-4220 - [Python] 添加具有模拟高延迟 IO 的缓冲输入和输出流 ASV 基准测试
- ARROW-4365 - [Rust] [Parquet] 实现 RecordReader
- ARROW-4398 - [Python] 为 Arrow<>Parquet BYTE_ARRAY 序列化(读取和写入)添加基准测试
- ARROW-4473 - [Website] 添加执行 Arrow 网站的测试部署并修复错误的说明
- ARROW-4507 - [Format] 为新文档创建大纲和简介。
- ARROW-4508 - [Format] 将内容从 Layout.rst 复制到新文档。
- ARROW-4509 - [Format] 将内容从 Metadata.rst 复制到新文档。
- ARROW-4510 - [Format] 将内容从 IPC.rst 复制到新文档。
- ARROW-4511 - [Format] 移动所有内容后,删除单个文档,而支持新文档
- ARROW-453 - [C++] 为 Amazon S3 添加文件系统实现
- ARROW-4648 - [C++/Question] cpp 代码库中的命名/组织不一致
- ARROW-4649 - [C++/CI/R] 添加(夜间)作业,该作业构建 `brew install apache-arrow –HEAD`
- ARROW-4752 - [Rust] 为除法内核添加显式 SIMD 向量化
- ARROW-4810 - [Format][C++] 添加具有 64 位偏移量的“LargeList”类型
- ARROW-4841 - [C++] 在生成的 CMake 配置中持久保存 CMake 选项
- ARROW-5134 - [R][CI] 针对多个 R 版本运行夜间测试
- ARROW-517 - [C++] 详细的 Array::Equals
- ARROW-5211 - [Format] MetaData 页面上“字典编码”部分下缺少文档
- ARROW-5216 - [CI] 向 README 添加 Appveyor 徽章
- ARROW-5307 - [CI][GLib] 启用 GTK-Doc
- ARROW-5343 - [C++] 考虑使用 Buffer 进行 DictionaryType::Unify 中转置映射,而不是 std::vector
- ARROW-5344 - [C++] 在 compute/kernels/cast.cc 中使用 ArrayDataVisitor 实现字典解包
- ARROW-5351 - [Rust] 添加对 take 内核函数的支持
- ARROW-5358 - [Rust] 实现 ArrayData 和 Array 的相等性检查
- ARROW-5380 - [C++] 修复并启用 UBSan 以进行未对齐的访问。
- ARROW-5439 - [Java] 在文件格式中利用流 EOS
- ARROW-5444 - [Release][Website] 在 0.14 版本发布后,更新什么是“官方”版本
- ARROW-5458 - [C++] ARMv8 并行 CRC32c 计算优化
- ARROW-5480 - [Python] Pandas 分类类型无法通过 parquet 的往返
- ARROW-5483 - [Java] 添加采用 Field 对象的 ValueVector 构造函数
- ARROW-5494 - [Python] 创建 FileSystem 绑定
- ARROW-5505 - [R] 停止屏蔽基本 R 函数/重新考虑命名空间
- ARROW-5527 - [C++] HashTable/MemoTable 应该使用 Buffer(s)/Builder(s) 进行堆数据处理
- ARROW-5558 - [C++] 支持在具有非零偏移量的数组上进行 Array::View
- ARROW-5559 - [C++] 引入 IpcOptions struct 对象,以便在添加新选项时获得更好的 API 稳定性
- ARROW-5564 - [C++] 将 uriparser 添加到 conda-forge
- ARROW-5579 - [Java] 隐藏 flatbuffer 依赖项
- ARROW-5580 - [C++][Gandiva] 更正 Gandiva 中时间戳函数的定义
- ARROW-5588 - [C++] 更好地支持构建 UnionArrays
- ARROW-5594 - [C++] 将 UnionArrays 的支持添加到 Take 和 Filter
- ARROW-5610 - [Python] 在 Python 中定义扩展类型 API 以“接收”或“发送”外部扩展类型
- ARROW-5646 - [Crossbow][Documentation] 将用户指南移动到 Sphinx 文档
- ARROW-5681 - [FlightRPC] 包装 gRPC 异常/状态
- ARROW-5686 - [R] 检查 R Windows CI 构建
- ARROW-5716 - [Developer] 改进合并 PR 脚本以确认共同作者
- ARROW-5717 - [Python] 在将可变字典转换为 pandas 时支持字典统一
- ARROW-5719 - [Java] 支持就地向量排序
- ARROW-5722 - [Rust] 为 ListArray、BinaryArray 和 StructArray 实现 std::fmt::Debug
- ARROW-5734 - [Python] 从 pyarrow.table 工厂函数调度到 Table.from_arrays
- ARROW-5736 - [格式][C++] 在稀疏张量中支持小位宽索引
- ARROW-5741 - [JS] 使从函数创建的数值向量与 TypedArray.from 一致
- ARROW-5743 - [C++] 添加 CMake 选项以启用“大内存”单元测试
- ARROW-5746 - [网站] 将网站源代码移出 apache/arrow
- ARROW-5747 - [C++] 在 CSV 读取器中提供更好的列名和标题支持
- ARROW-5758 - [C++][Gandiva] 支持将 decimals 转换为 varchar,反之亦然
- ARROW-5762 - [集成][JS] Map 类型的集成测试
- ARROW-5777 - [C++] BasicDecimal128 是一个小对象,按 const 引用传递并不总是合适
- ARROW-5778 - [Java] 将向量数据复制的逻辑提取到父类中
- ARROW-5784 - [发布][GLib] 在 dev/release/02-source.sh 中运行 c_glib/autogen.sh 后替换 c_glib/
- ARROW-5786 - [发布] 在 dev/release/01-prepare.sh 中使用 arrow-jni profile
- ARROW-5788 - [Rust] 对于 arrow 和 parquet 依赖项,使用 { version = "…", path = "../…" }
- ARROW-5789 - [C++] 小型警告/链接清理
- ARROW-5792 - [Rust] [Parquet] Parquet 类型的 visitor trait。
- ARROW-5798 - [打包][deb] 更新 doc 架构
- ARROW-5800 - [R] 将 R Travis CI 测试 Docker 化,以便可以通过 docker-compose 在任何地方运行
- ARROW-5803 - [C++] 使用 clang 7 Travis CI 单元测试逻辑将 C++ Docker 化
- ARROW-5812 - [Java] 重构 BaseIntVector 中的方法名称和参数类型
- ARROW-5813 - [C++] 支持检查不同连续张量的相等性
- ARROW-5814 - [Java] 为 DictionaryEncoder 实现一个 <Object, int> HashMap
- ARROW-5827 - [C++] 需要 c-ares CMake 配置
- ARROW-5828 - [C++] 添加 Protocol Buffers 版本检查
- ARROW-5830 - [C++] 停止在 TensorEquals 中使用 memcmp
- ARROW-5832 - [Java] 支持向量数据的搜索操作
- ARROW-5833 - [C++] 从 cast.cc 中分解出状态复制代码
- ARROW-5834 - [Java] 在 DictionaryEncoder 中应用新的哈希映射
- ARROW-5835 - [Java] 支持二进制类型的字典编码
- ARROW-5841 - [网站] 添加 0.14.0 发布说明
- ARROW-5842 - [Java] 修改 ListVector 中 lastSet 的语义
- ARROW-5843 - [Java] 提高 BitVectorHelper#getNullCount 的可读性和性能
- ARROW-5844 - [Java] 支持更多数值类型的比较和排序
- ARROW-5846 - [Java] 创建 Avro 适配器模块并添加依赖项
- ARROW-5853 - [Python] 在 Array 上公开布尔过滤器内核
- ARROW-5861 - [Java] 实现第一个将 Avro 记录转换为原始类型的实现
- ARROW-5862 - [Java] 提供字典构建器
- ARROW-5864 - [Python] 简化 Result 的 cython 包装
- ARROW-5865 - [发布] 用于在 master 上重新设置未决拉取请求的基础的 Helper 脚本
- ARROW-5866 - [C++] 删除 cpp/Brewfile 中的重复库
- ARROW-5867 - [C++][Gandiva] 添加对将 int 转换为 decimal 的支持
- ARROW-5872 - 在 Gandiva 中支持 mod(double, double) 方法
- ARROW-5876 - [FlightRPC] 在所有语言中实现基本身份验证
- ARROW-5877 - [FlightRPC] 修复 Python/Java 之间的身份验证不兼容问题
- ARROW-5880 - [C++] 更新 arrow parquet writer 以使用 TypedBufferBuilder
- ARROW-5881 - [Java] 提供高效确定有效性缓冲区是否完全为 1 位/0 位的功能
- ARROW-5883 - [Java] 支持 List 和 Struct 类型的字典编码
- ARROW-5888 - [Python][C++] 添加元数据以将 Arrow 时区存储在 Parquet 文件元数据中
- ARROW-5891 - [C++][Gandiva] 删除函数注册表中的重复项
- ARROW-5892 - [C++][Gandiva] 支持函数别名
- ARROW-5893 - [C++] 从 C++ 库中删除 arrow::Column 类
- ARROW-5897 - [Java] 删除 MapVector 中的重复逻辑
- ARROW-5898 - [Java] 提供高效计算任意内存段哈希代码的功能
- ARROW-5900 - [Gandiva] [Java] Decimal 精度,比例界限检查
- ARROW-5901 - [Rust] 实现 PartialEq 以比较数组和 json 值
- ARROW-5902 - [Java] 为字典编码实现哈希表以及 equals & hashCode API
- ARROW-5903 - [Java] DecimalVector 中的 Set 方法很慢
- ARROW-5904 - [Java] [Plasma] 修复 Plasma Java 客户端的编译
- ARROW-5906 - [CI] 在 Travis CI 中运行的构建中设置 -DARROW_VERBOSE_THIRDPARTY_BUILD=OFF,可能默认情况下所有 docker-compose 构建都这样做
- ARROW-5908 - [C#] ArrowStreamWriter 未将缓冲区与 8 字节对齐
- ARROW-5909 - [Java] 优化 ByteFunctionHelpers equals & compare 逻辑
- ARROW-5911 - [Java] 使 ListVector 和 MapVector 惰性创建读取器
- ARROW-5917 - [Java] 重新设计字典编码器
- ARROW-5918 - [Java] 添加 get 到 BaseIntVector 接口
- ARROW-5919 - [R] 为使用来自 conda-forge 的依赖项构建 r-arrow 添加夜间测试
- ARROW-5920 - [Java] 支持所有可变宽度向量的排序和比较
- ARROW-5924 - [C++][Plasma] 释放 GPU 对象不方便
- ARROW-5934 - [Python] 将 arrow 的 LICENSE 与 wheels 捆绑在一起
- ARROW-5937 - [发布] 停止并行二进制上传
- ARROW-5938 - [发布] 创建分支以自动添加发布说明
- ARROW-5939 - [发布] 添加对单独生成投票电子邮件模板的支持
- ARROW-5940 - [发布] 添加对重新上传二进制工件的签名/校验和的支持
- ARROW-5941 - [发布] 避免重新上传已上传的二进制工件
- ARROW-5943 - [GLib][Gandiva] 添加对函数别名的支持
- ARROW-5944 - [C++][Gandiva] 删除 ‘div’ 作为 ‘divide’ 的别名
- ARROW-5945 - [Rust] [DataFusion] Table trait 应该支持构建完整的查询
- ARROW-5947 - [Rust] [DataFusion] 删除 serde_json 依赖项
- ARROW-5948 - [Rust] [DataFusion] create_logical_plan 不应该调用优化器
- ARROW-5955 - [Plasma] 支持为每个 plasma 客户端设置内存配额,以实现更好的隔离
- ARROW-5957 - [C++][Gandiva] 在 Gandiva 中实现 div 函数
- ARROW-5958 - [Python] 在 wheels 中静态链接 zlib
- ARROW-5961 - [R] 即使没有 C++ 库,也能够运行仅 R 的测试
- ARROW-5962 - [CI][Python] 不要在 Travis CI 中测试 manylinux1 wheels
- ARROW-5967 - [Java] DateUtility#timeZoneList 不正确
- ARROW-5970 - [Java] 提供指向 Arrow 缓冲区的指针
- ARROW-5974 - [Python][C++] 启用 CSV 读取器以从连接的 gzip 流中读取
- ARROW-5975 - [C++][Gandiva] 添加将 Date(以毫秒为单位)转换为时间戳的方法
- ARROW-5976 - [C++] RETURN_IF_ERROR(ctx) 应该被命名空间化
- ARROW-5977 - [C++] [Python] read_csv 的方法限制读取哪些列?
- ARROW-5979 - [FlightRPC] 公开协议类型的(反)序列化
- ARROW-5985 - [开发者] 不要建议在 dev/merge_arrow_pr.py 中为 point release 设置 Fix Version
- ARROW-5986 - [Java] 字典编码的代码清理
- ARROW-5988 - [Java] Avro 适配器实现简单的 Record 类型
- ARROW-5997 - [Java] 支持 Union 类型的字典编码
- ARROW-5998 - [Java] 打开一个文档来跟踪 API 更改
- ARROW-6000 - [Python] 公开 LargeBinaryType 和 LargeStringType
- ARROW-6008 - [发布] 不要并行化 bintray 上传脚本
- ARROW-6009 - [发布][JS] 在 javascript 发布脚本中忽略 NPM 错误
- ARROW-6013 - [Java] 支持范围搜索器
- ARROW-6017 - [FlightRPC] 允许创建具有未知模式的位置
- ARROW-6020 - [Java] 使用新添加的 ArrowBufHasher 重构 ByteFunctionHelper#hash
- ARROW-6021 - [Java] 提取 copyFrom 和 copyFromSafe 方法到 ValueVector 接口
- ARROW-6022 - [Java] 在 ValueVector 中支持 equals API 以比较两个向量是否相等
- ARROW-6023 - [C++][Gandiva] 在 Gandiva 中添加函数
- ARROW-6024 - [Java] 提供更多哈希算法
- ARROW-6026 - [Doc] 添加 CONTRIBUTING.md
- ARROW-6030 - [Java] 有效地计算 ArrowBufPointer 的哈希码
- ARROW-6031 - [Java] 支持通过 ArrowBufPointer 迭代向量
- ARROW-6034 - [C++][Gandiva] 在 Gandiva 中添加字符串函数
- ARROW-6035 - [Java] Avro 适配器支持转换可为空的值
- ARROW-6036 - [GLib] 添加跳过行和 column_names CSV 读取选项的支持
- ARROW-6037 - [GLib] 添加缺失的版本宏
- ARROW-6039 - [GLib] 添加 garrow_array_filter()
- ARROW-6041 - [Website] 宣布 R 包发布的博客文章
- ARROW-6042 - [C++] 实现总是生成 int32 索引的替代 DictionaryBuilder
- ARROW-6045 - [C++] Parquet 浮点数和 NaN 编码/解码的基准测试
- ARROW-6048 - [C++] 添加 ChunkedArray::View,它调用 Array::View
- ARROW-6049 - [C++] 支持从兼容的字典类型到另一种字典类型使用 Array::View
- ARROW-6053 - [Python] RecordBatchStreamReader::Open2 cdef 类型签名与 C++ 不匹配
- ARROW-6063 - [FlightRPC] 为 DoPut 实现“半关闭”语义
- ARROW-6065 - [C++] 重新组织 parquet/arrow/reader.cc,删除代码重复,提高可读性
- ARROW-6069 - [Rust] [Parquet] 实现 Converter 将 record reader 转换为 arrow 原始数组。
- ARROW-6070 - [Java] 避免在 IPC 发送之前创建新的模式
- ARROW-6077 - [C++][Parquet] 构建逻辑模式树,将 Arrow 字段映射到 Parquet 模式级别
- ARROW-6078 - [Java] 为 List 类型实现字典编码的子字段
- ARROW-6079 - [Java] 为 FixedSizeListVector 实现/测试 UnionFixedSizeListWriter
- ARROW-6080 - [Java] 支持 BaseRepeatedValueVector 的比较和搜索操作
- ARROW-6083 - [Java] 重构 Jdbc 适配器消耗逻辑
- ARROW-6084 - [Python] 支持 LargeList
- ARROW-6085 - [Rust] [DataFusion] 为物理查询计划创建 traits
- ARROW-6086 - [Rust] [DataFusion] 实现 parquet 扫描的并行执行
- ARROW-6087 - [Rust] [DataFusion] 实现 CSV 扫描的并行执行
- ARROW-6088 - [Rust] [DataFusion] 实现 projection 的并行执行
- ARROW-6089 - [Rust] [DataFusion] 实现 selection 的并行执行
- ARROW-6090 - [Rust] [DataFusion] 实现哈希聚合的并行执行
- ARROW-6093 - [Java] 减少 VectorRangeSearcher 中第一次匹配算法的分支
- ARROW-6094 - [Format][Flight] 将 GetFlightSchema 添加到 Flight RPC
- ARROW-6096 - [C++] 有条件地依赖 boost regex 库
- ARROW-6097 - [Java] Avro 适配器实现 unions 类型
- ARROW-6100 - [Rust] 固定到特定的 Rust nightly 版本
- ARROW-6101 - [Rust] [DataFusion] 从逻辑计划创建物理计划
- ARROW-6104 - [Rust] [DataFusion] 不允许 bare_trait_objects
- ARROW-6105 - [C++][Parquet][Python] 添加测试用例,展示嵌套类型中字典编码的子字段
- ARROW-6113 - [Java] 支持向量去重功能
- ARROW-6115 - [Python] 支持 LargeList、LargeString、LargeBinary 转换为 pandas
- ARROW-6118 - [Java] 使用 Arrow Preconditions 替换 google Preconditions
- ARROW-6121 - [Tools] 改进合并工具 cli 人体工程学
- ARROW-6125 - [Python] 删除 0.14.x 之前的任何已弃用的 API
- ARROW-6127 - [Website] 添加网站图标和元标记
- ARROW-6128 - [C++] 无法通过 class-memaccess 警告使用 g++ 8.3.0 构建
- ARROW-6130 - [Release] 使用 0.15.0 作为下一个版本
- ARROW-6134 - [C++][Gandiva] 在 Gandiva 中添加 concat 函数
- ARROW-6137 - [C++][Gandiva] 更改 Gandiva 中 castVARCHAR(timestamp) 的输出格式
- ARROW-6138 - [C++] 添加 Dataset 的基本(单个 RecordBatch)实现
- ARROW-6139 - [Documentation][R] 构建 R 文档 (pkgdown) 站点并添加到 arrow-site
- ARROW-6141 - [C++] 允许内存映射从文件开头偏移的文件区域
- ARROW-6142 - [R] Linux 上的安装说明可以更清楚
- ARROW-6143 - [Java] 统一所有向量的 copyFrom 和 copyFromSafe 方法
- ARROW-6144 - [C++][Gandiva] 在 Gandiva 中实现随机函数
- ARROW-6155 - [Java] 为元素驻留在连续内存段中的向量提取一个超级接口
- ARROW-6156 - [Java] 支持 ArrowBufPointer 的比较语义
- ARROW-6161 - [C++] 实现 dataset::ParquetFile 和关联的 Scan 结构
- ARROW-6162 - [C++][Gandiva] 当 out_len 参数为零时,不要在 castVARCHAR_varchar 中截断字符串
- ARROW-6172 - [Java] 提供使用不同方法设置 IntVector 的基准测试
- ARROW-6177 - [C++] 添加 Array::Validate()
- ARROW-6180 - [C++] 创建 InputStream,它是 RandomAccessFile 的一个片段的隔离读取器
- ARROW-6181 - [R] 仅允许 R 包在 Linux 上安装,而无需 libarrow
- ARROW-6183 - [R] 说明如果您不想使用 tidyselect,则不必使用
- ARROW-6185 - [Java] 提供基于哈希表的字典构建器
- ARROW-6187 - [C++] 将 ExtensionType 写入 Parquet 时回退到存储类型
- ARROW-6188 - [GLib] 添加 garrow_array_is_in()
- ARROW-6192 - [GLib] 使用与 C++ 相同的 SO 版本
- ARROW-6194 - [Java] 在 DictionaryEncoder 中添加非静态方法,使其易于扩展和重用
- ARROW-6196 - [Ruby] 添加通过 .new 构建 Arrow::TimeNNArray 的支持
- ARROW-6197 - [GLib] 添加 garrow_decimal128_rescale()
- ARROW-6199 - [Java] Avro 适配器避免潜在的资源泄漏。
- ARROW-6203 - [GLib] 添加 garrow_array_sort_to_indices()
- ARROW-6204 - [GLib] 添加 garrow_array_is_in_chunked_array()
- ARROW-6206 - [Java][Docs] 文档环境变量/java 属性
- ARROW-6209 - [Java] 将设置 null 方法提取到固定宽度向量的基类
- ARROW-6212 - [Java] 支持向量排序操作
- ARROW-6216 - [C++] 允许用户选择压缩级别
- ARROW-6217 - [Website] 删除不必要的 _site/ 目录
- ARROW-6219 - [Java] 为 JDBC 适配器添加 API,该 API 可以一次转换少于完整的结果集。
- ARROW-6220 - [Java] 为 avro 适配器添加 API,以限制一次返回的行数。
- ARROW-6225 - [Website] 更新 arrow-site/README 和任何其他地方,以将网站贡献者指向正确的方向
- ARROW-6229 - [C++] 添加扫描目录的 DataSource 实现
- ARROW-6230 - [R] 在 R 中读取 Parquet 文件比读取 fst 文件慢 20 倍
- ARROW-6231 - [C++][Python] 考虑在读取 CSV 文件且 header_rows=0 时分配默认列名
- ARROW-6232 - [C++] 将 Argsort kernel 重命名为 SortToIndices
- ARROW-6237 - [R] 添加在用 $ARROW_R_CXXFLAGS 编译 R 包时设置 CXXFLAGS 的选项
- ARROW-6238 - [C++] 实现 SimpleDataSource/SimpleDataFragment
- ARROW-6240 - [Ruby] Arrow::Decimal128Array 返回 BigDecimal
- ARROW-6242 - [C++] 实现基本 Dataset/Scanner/ScannerBuilder
- ARROW-6243 - [C++] 实现基本 Filter 表达式类
- ARROW-6244 - [C++] 实现 Partition DataSource
- ARROW-6246 - [Website] 添加到 R 文档站点的链接
- ARROW-6247 - [Java] 为 float4 和 float8 向量提供一个公共接口
- ARROW-6249 - [Java] 删除无用的类 ByteArrayWrapper
- ARROW-6250 - [Java] 实现 ApproxEqualsVisitor 比较浮点数近似值
- ARROW-6252 - [Python] 添加 pyarrow.Array.diff 方法,该方法公开 arrow::Diff
- ARROW-6253 - [Python] 在 pyarrow.parquet.read_table 中公开 parquet::ReaderProperties 中的“enable_buffered_stream”选项
- ARROW-6258 - [R] 添加 macOS 构建脚本
- ARROW-6260 - [网站] 使用 Travis 上的部署密钥来构建并推送到 asf-site
- ARROW-6262 - [开发者] 合并前显示 JIRA 问题
- ARROW-6264 - [Java] ArrowBufHasher 中不需要考虑字节序
- ARROW-6265 - [Java] Avro 适配器实现 Array/Map/Fixed 类型
- ARROW-6267 - [Ruby] 为 Arrow::Time{32,64}DataType 值添加 Arrow::Time
- ARROW-6271 - [Rust] [DataFusion] 添加针对 Parquet 运行 SQL 的示例
- ARROW-6272 - [Rust] [DataFusion] 向 ExecutionContext 添加 register_parquet 便利方法
- ARROW-6278 - [R] 从原始向量读取 parquet 文件
- ARROW-6279 - [Python] 添加 Table.slice 方法或允许在 __getitem__ 中使用切片
- ARROW-6284 - [C++] 将 tuple 转换为 arrow 数组时允许 std::tuple 中的引用
- ARROW-6287 - [Rust] [DataFusion] 重构 TableProvider 以返回线程安全的 BatchIterator
- ARROW-6288 - [Java] 实现 TypeEqualsVisitor,比较向量类型是否相等时考虑名称和元数据
- ARROW-6289 - [Java] 在 UnionVector 中添加 empty() 来创建实例
- ARROW-6292 - [C++] 添加一个使用 mimalloc 构建的选项
- ARROW-6294 - [C++] 对 plasma-store-server 可执行文件使用连字符
- ARROW-6296 - [Java] 清理 JDBC 接口并消除 binary/varchar 字段的一个内存拷贝
- ARROW-6297 - [Java] 通过 unsigned integers 比较 ArrowBufPointers
- ARROW-6300 - [C++] 添加 io::OutputStream::Abort()
- ARROW-6303 - [Rust] 添加禁用 SIMD 的特性
- ARROW-6304 - [Java] 向每个 maven artifact 添加描述
- ARROW-6306 - [Java] 支持通过稳定比较器进行稳定排序
- ARROW-6310 - [C++] 在 JSON 集成测试文件中将 64 位整数写为字符串
- ARROW-6311 - [Java] 使 ApproxEqualsVisitor 接受 DiffFunction 以使其更灵活
- ARROW-6313 - [Format] 跟踪以确保 flatbuffer 序列化值在流/文件中对齐。
- ARROW-6314 - [C++] 实施更改以确保 flatbuffer 对齐。
- ARROW-6315 - [Java] 进行更改以确保 flatbuffer 读取对齐
- ARROW-6316 - [Go] 进行更改以确保 flatbuffer 读取对齐
- ARROW-6317 - [JS] 实施更改以确保 flatbuffer 对齐
- ARROW-6318 - [集成] 更新集成测试以使用生成的二进制文件以确保向后兼容性
- ARROW-6319 - [C++] 提取 NumericTensor 的核心
::Value as Tensor::Value - ARROW-6326 - [C++] 将 std::tuple 转换为 Table 时的可空字段
- ARROW-6328 - Click.option-s 应该有帮助文本
- ARROW-6329 - [Format] 向 IPC 消息格式添加 4 字节的“流延续”以对齐 Flatbuffers
- ARROW-6331 - [Java] 将 ErrorProne 合并到 java 构建中
- ARROW-6334 - [Java] 改进字典构建器 API 以返回字典中值的位置
- ARROW-6335 - [Java] 提高 DictionaryHashTable 的性能
- ARROW-6336 - [Python] 澄清 pyarrow.serialize/deserialize docstrings 与 Arrow IPC 协议的关系
- ARROW-6337 - [R] R API 中的 as_tibble 是用词不当
- ARROW-6338 - [R] 类型函数名称与类型名称不匹配
- ARROW-6342 - [Python] 添加 pyarrow.record_batch 工厂函数,其基本 API / 语义与 pyarrow.table 相同
- ARROW-6346 - [GLib] 添加 garrow_array_view()
- ARROW-6347 - [GLib] 添加 garrow_array_diff_unified()
- ARROW-6350 - [Ruby] 移除 Arrow::Struct 并使用 Hash 代替
- ARROW-6351 - [Ruby] 提高 Arrow#values 性能
- ARROW-6353 - [Python] 允许用户在 pyarrow.parquet.write_table 中选择压缩级别
- ARROW-6355 - [Java] 使 range equal visitor 可重用
- ARROW-6356 - [Java] Avro 适配器实现 Enum 类型和嵌套 Record 类型
- ARROW-6357 - [C++] S3:允许后台写入
- ARROW-6358 - [C++] FileSystem::DeleteDir 应该可以选择是否删除目录本身
- ARROW-6360 - [R] 更新对压缩的支持
- ARROW-6362 - [C++] S3:更灵活的凭证选项
- ARROW-6365 - [R] 应该能够使用 schema 将数值强制转换为整数
- ARROW-6366 - [Java] 显式地将 field vectors 设置为 final
- ARROW-6368 - [C++] 添加 RecordBatch 投影功能
- ARROW-6373 - [C++] 使 FixedWidthBinaryBuilder 与其他原始固定宽度构建器保持一致
- ARROW-6375 - [C++] 扩展 ConversionTraits 以允许在 STL API 中高效地附加列表值
- ARROW-6379 - [C++] 为 IPC 序列化 NullType 时不附加任何缓冲区
- ARROW-6381 - [C++] 对于许多小写入,BufferOutputStream::Write 速度很慢
- ARROW-6383 - [Java] 在父分配器关闭时报告未完成的子分配器
- ARROW-6384 - [C++] 升级依赖
- ARROW-6385 - [C++] 调查 xxh3
- ARROW-6391 - [Python][Flight] 在 FlightServerBase 上添加内置方法以启动服务器并等待其可用
- ARROW-6397 - [C++][CI] 修复 S3 minio 故障
- ARROW-6401 - [Java] 为 Struct 类型实现字典编码的子字段
- ARROW-6402 - [C++] 使用 g++ 9.2.1 抑制符号比较警告
- ARROW-6403 - [Python] 将 FileReader::ReadRowGroups() 暴露给 Python
- ARROW-6408 - [Rust] 在 SIMD 内核实现中使用“if cfg!”模式
- ARROW-6413 - [R] 支持自动生成列名
- ARROW-6415 - [R] 移除 R CMD config CXXCPP 的使用
- ARROW-6416 - [Python] 关于 chunksizes 的令人困惑的 API & 文档
- ARROW-6419 - [网站] 关于 0.15.x 版本中 Parquet 字典性能工作的博客文章
- ARROW-6422 - [Gandiva] 修复双精度转换链接器问题
- ARROW-6426 - [FlightRPC] 在 Flight 中暴露 gRPC 配置旋钮
- ARROW-6427 - [GLib] 添加对列名自动生成 CSV 读取选项的支持
- ARROW-6438 - [R] 添加 filesystem API 的绑定
- ARROW-6447 - [C++] 使用 ARROW_JEMALLOC=ON 构建会等到 jemalloc_ep 完成后再构建任何 libarrow .cc 文件
- ARROW-6450 - [C++] 在 arrow::BufferBuilder 中使用 2 倍重新分配策略,而不是 1.5 倍
- ARROW-6451 - [Format] 添加对 Columnar.rst 的说明,关于 Varbinary 或 List 数组中“null”槽的内容
- ARROW-6453 - [C++] 来自 S3 的更丰富的信息性错误消息
- ARROW-6454 - [开发者] 由于包中的二进制再分发,将 LLVM 许可证添加到 LICENSE.txt
- ARROW-6458 - [Java] 移除 ApproxEqualsVisitor 的值装箱/拆箱
- ARROW-6460 - [Java] 为 avro 适配器添加基准测试和大型虚假数据 UT
- ARROW-6462 - [C++] 无法在 CentOS 6 x86_64 上使用捆绑的 double-conversion 构建
- ARROW-6465 - [Python] 改进 Windows 构建说明
- ARROW-6474 - [Python] 提供 python 写出旧格式的机制
- ARROW-6475 - [C++] 不要尝试对字典数组进行字典编码
- ARROW-6477 - [打包][Crossbow] 使用 Azure Pipelines 构建 Linux 包
- ARROW-6480 - [开发者] 添加命令以生成和发送 Crossbow 运行的电子邮件报告
- ARROW-6484 - [Java] 根据字典值计数启用 DictionaryEncoding 的 create indexType
- ARROW-6487 - [Rust] [DataFusion] 创建测试 utils 模块
- ARROW-6489 - [开发者][文档] 修复合并脚本和自述文件
- ARROW-6490 - [Java] 记录分配器关闭中的泄漏错误
- ARROW-6491 - [Java] 修复由 ErrorProne 引起的 master 构建失败
- ARROW-6494 - [C++][数据集] 实现基本 PartitionScheme
- ARROW-6504 - [Python][打包] 向 conda 包添加 mimalloc 以获得更好的性能
- ARROW-6505 - [网站] 添加新的提交者
- ARROW-6518 - [打包][Python] Flight 在 OSX Python wheel 构建中失败
- ARROW-6519 - [Java] 使用 IPC continuation token 标记 EOS
- ARROW-6524 - [开发者][打包] 夜间构建报告的主题应包含 Arrow
- ARROW-6525 - [C++] CloseFromDestructor() 也许不应该崩溃
- ARROW-6526 - [C++] 在 PoolBuffer 析构函数中毒化数据
- ARROW-6527 - [C++] 添加 OutputStream::Write() 变体,该变体接受拥有的缓冲区
- ARROW-6531 - [Python] 向缓冲流添加 detach() 方法
- ARROW-6532 - [R] 使用压缩写入 parquet 文件
- ARROW-6533 - [R] 压缩编解码器应采用“level”
- ARROW-6534 - [Java] 修复拼写错误和拼写
- ARROW-6539 - [R] 提供写出旧格式的机制
- ARROW-6540 - [R] 添加 Validate() 方法
- ARROW-6541 - [Format][C++] 使用两部分 EOS 并修改格式文档
- ARROW-6542 - [R] 向数组类型添加 View() 方法
- ARROW-6544 - [R] 0.15 版本的文档/润色
- ARROW-6545 - [Go] 更新 Go IPC 写入器以使用邮件列表讨论中的两部分 EOS
- ARROW-6546 - [C++] 添加缺少的 FlatBuffers 源代码依赖项
- ARROW-6549 - [C++] 切换回最新的 jemalloc 5.x
- ARROW-6556 - [Python] 为没有 SparseDataFrame 的 pandas 版本做准备
- ARROW-6557 - [Python] 始终从 Array/ChunkedArray.to_pandas 返回 pandas.Series,并将字段名称从 RecordBatch、Table 传播到 Series
- ARROW-6558 - [C++] 将 Iterator 重构为类型擦除句柄
- ARROW-6559 - [开发者][C++] 添加 “archery” 选项来为 C++ 构建指定系统工具链
- ARROW-6563 - [Rust] [DataFusion] 创建 “merge” 执行计划
- ARROW-6569 - [网站] 添加对 GitHub Actions 自动部署的支持
- ARROW-6570 - [Python] 在 to_pandas 调用中使用 MemoryPool 为 NumPy 数组分配内存
- ARROW-6580 - [Java] 支持对无符号整数进行比较
- ARROW-6584 - [Python][Wheel] 再次将 zlib 与 Windows wheels 捆绑在一起
- ARROW-6588 - [C++] 使用 g++ 9.2.1 抑制 class-memaccess 警告
- ARROW-6589 - [C++] 在 MakeArrayOfNull 中支持 BinaryType
- ARROW-6590 - [C++] 当 ARROW_IPC=ON 时,不需要 ARROW_JSON=ON
- ARROW-6591 - [R] 在源代码控制中忽略 .Rhistory 文件
- ARROW-6599 - [Rust] [DataFusion] 实现 SUM 聚合表达式
- ARROW-6601 - [Java] 改进 JDBC 适配器性能并添加基准测试
- ARROW-6605 - [C++] 向 fs::Selector 添加递归深度控制
- ARROW-6606 - [C++] 从 std::vector<fs::FileStats> 构造树结构
- ARROW-6609 - [C++] 添加最小构建 Dockerfile 示例
- ARROW-6610 - [C++] 添加 ARROW_FILESYSTEM=ON/OFF CMake 配置标志
- ARROW-6613 - [C++] 移除对 boost::filesystem 的依赖
- ARROW-6614 - [C++][Dataset] 实现 FileSystemDataSourceDiscovery
- ARROW-6621 - [Rust][DataFusion] DataFusion 的示例未在 CI 中执行
- ARROW-6629 - [文档][C++] 文档化 FileSystem API
- ARROW-6630 - [文档][C++] 文档化文件读取器 (CSV, JSON, Parquet, 等.)
- ARROW-6644 - [JS] 修改 NullType IPC 协议以不附加缓冲区
- ARROW-6647 - [C++] 无法在 CentOS 7 上使用 g++ 4.8.5 构建,因为共享指针的成员初始化器
- ARROW-6648 - [Go] 公开 bitutil 包
- ARROW-6649 - [R] Table, RecordBatch 等的 print() 方法
- ARROW-6653 - [开发者] 添加对拉取请求自动 JIRA 链接的支持
- ARROW-6655 - [Python] 用于 S3 的文件系统绑定
- ARROW-6664 - [C++] 添加不使用 SSE4.2 构建的选项
- ARROW-6665 - [Rust] [DataFusion] 实现数字字面量表达式
- ARROW-6667 - [Python] 避免 pyarrow.parquet 中的引用循环
- ARROW-6668 - [Rust] [DataFusion] 实现 CAST 表达式
- ARROW-6669 - [Rust] [DataFusion] 实现二元表达式的物理表达式
- ARROW-6675 - [JS] 向 dataFrame 和 filteredDataframe 添加 scanReverse 函数
- ARROW-6683 - [Python] 添加单元测试以验证安装 fastparquet 时与 pyarrow.parquet 的交叉兼容性
- ARROW-6725 - [CI] 禁用 3rdparty fuzzit 夜间构建
- ARROW-6735 - [C++] 使用 g++ 9.2.1 抑制 sign-compare 警告
- ARROW-6752 - [Go] 为 Null array 实现 Stringer
- ARROW-6755 - [发布] 改进 Windows 发布验证脚本
- ARROW-6771 - [打包][Python] conda 和 wheel 构建中缺少 pytest 依赖
- ARROW-750 - [Format] 添加 LargeBinary 和 LargeString 类型
Bug 修复
- ARROW-1184 - [Java] Dictionary.equals 无法正常工作
- ARROW-2317 - [Python] 修复 C 链接警告
- ARROW-2490 - [C++] 输入流锁定不一致
- ARROW-3176 - [Python] Date32 列转换为 pandas 时溢出
- ARROW-3203 - [C++] Debian Buster 上的构建错误
- ARROW-3651 - [Python] 无法反序列化来自非 DateTimeIndex 的 Datetimes
- ARROW-3652 - [Python] CategoricalIndex 在读回后丢失
- ARROW-3762 - [C++] Parquet arrow::Table 在溢出 BinaryArray 的容量时读取错误
- ARROW-3933 - [Python] 从 GNOMAD 读取 Parquet 文件时出现段错误
- ARROW-4187 - [C++] file-benchmark 使用
- ARROW-4746 - [C++/Python] PyDataTime_Date 错误地转换为 PyDataTime_DateTime
- ARROW-4836 - [Python] 使用 RecordBatchStreamWriter 时,“无法 tell() 压缩流”
- ARROW-4848 - [C++] 静态 libparquet 在 Windows 上未与 -DARROW_STATIC 一起编译
- ARROW-4880 - [Python] CMake 重构后 python/asv-build.sh 可能已损坏
- ARROW-4883 - [Python] 如果以文本模式提供文件对象,则 read_csv() 返回垃圾数据
- ARROW-5028 - [Python][C++] 创建列表
使用 pyarrow.array 可能会溢出子构建器 - ARROW-5085 - [Python/C++] 当使用 RowGroups 时,parquet 写入中字典编码的空列的转换失败
- ARROW-5086 - [Python] ParquetFile.read_row_group() 中的空间泄漏
- ARROW-5089 - [C++/Python] 当使用块大小时,将字典编码列写入 parquet 非常慢
- ARROW-5125 - [Python] 无法通过 pyarrow 往返极端日期
- ARROW-5220 - [Python] Table.from_pandas 中指定模式中的索引/未知列
- ARROW-5292 - [C++] 静态库在 AppVeyor 上构建
- ARROW-5300 - [C++] 0.13 无法使用选项 -DARROW_NO_DEFAULT_MEMORY_POOL 构建
- ARROW-5374 - [Python] 在完整的 IPC 流上调用 pyarrow.read_record_batch 时,出现误导性错误消息
- ARROW-5414 - [C++] 使用“Ninja”构建系统生成器覆盖 Windows 上的默认 Release 构建类型
- ARROW-5450 - [Python] TimestampArray.to_pylist() 失败,并显示 OverflowError: Python int 太大,无法转换为 C long
- ARROW-5471 - [C++][Gandiva] Array 偏移在 Gandiva 投影器中被忽略
- ARROW-5522 - [打包][文档] python/manylinux1/build_arrow.sh 中的注释已过时
- ARROW-5525 - [C++][CI] 启用持续模糊测试
- ARROW-5560 - [C++][Plasma] 在 OutOfMemory 错误后无法创建 Plasma 对象
- ARROW-5562 - [C++][Parquet] parquet 写入器无法正确处理负零
- ARROW-5630 - [Python][Parquet] 嵌套数组的 Table 无法往返
- ARROW-5638 - [C++] 当启用 Gandiva JNI 绑定时,cmake 无法生成 Xcode 项目
- ARROW-5651 - [Python] 当指定其他类型时,来自跨步 Numpy 数组的转换不正确
- ARROW-5682 - [Python] from_pandas 转换以不一致的方式将值转换为字符串
- ARROW-5731 - [CI] Turbodbc 集成测试失败
- ARROW-5753 - [Rust] 修复 CI 代码覆盖率中的测试失败
- ARROW-5772 - [GLib][Plasma][CUDA] Plasma::Client#refer_object 测试失败
- ARROW-5775 - [C++] StructArray:缓存的盒装字段不是线程安全的
- ARROW-5776 - [Gandiva][Crossbow] 恢复模板以包含提交 ID。
- ARROW-5790 - [Python] 将零维 numpy 数组传递给 pa.array 会导致段错误
- ARROW-5817 - [Python] 使用 pytest 标记进行 Flight 测试,以避免因导入失败而静默跳过单元测试
- ARROW-5823 - [Rust] CI 脚本缺少 –all-targets cargo 参数
- ARROW-5824 - [Gandiva] [C++] 修复十进制 null
- ARROW-5836 - [Java][OSX] Flight 测试失败:地址已被使用
- ARROW-5838 - [C++][Flight][OSX] 构建 3rdparty grpc 无法找到 OpenSSL
- ARROW-5848 - [C++] 1.0.0 版本后的 SO 版本控制方案
- ARROW-5849 - [C++] mingw-w64 上的编译器警告
- ARROW-5851 - [C++] 基准参考程序的编译失败
- ARROW-5856 - [Python] 自 0.14.0 以来,将第三方 cython 模块链接到 pyarrow 失败
- ARROW-5860 - [Java] [Vector] 修复十进制字节设置器
- ARROW-5863 - [Python] 通过 pytest-runner 产生段错误
- ARROW-5868 - [Python] manylinux2010 wheels 对 liblz4 有共享库依赖
- ARROW-5870 - [C++] 开发编译说明需要包含 “make”
- ARROW-5873 - [Python] 当 schema 与 None 比较时产生段错误
- ARROW-5874 - [Python] pyarrow 0.14.0 macOS wheels 依赖于 /usr/local/opt 下的共享库
- ARROW-5878 - [Python][C++] Parquet 读取器对于没有时区的时间戳不向前兼容
- ARROW-5884 - [Java] 修复 StructVector 的 get 方法
- ARROW-5886 - [Python][打包] Manylinux1/2010 与 libz 的兼容性问题
- ARROW-5887 - [C#] ArrowStreamWriter 以错误的顺序写入 FieldNodes
- ARROW-5889 - [Python][C++] Parquet 对没有时区的时间戳的向后兼容性被破坏
- ARROW-5894 - [C++] libgandiva.so.14 正在导出 libstdc++ 符号
- ARROW-5899 - [Python][打包] 在 Windows wheels 中捆绑 uriparser.dll
- ARROW-5910 - [Python] read_tensor() 在不可查找的流上失败
- ARROW-5921 - [C++][模糊测试] IPC 中缺少 nullptr 检查
- ARROW-5923 - [C++] 修复 int96 注释
- ARROW-5925 - [Gandiva][C++] 将 decimal 转换为 int 应该向上取整
- ARROW-5930 - [FlightRPC] [Python] Flight CI 测试失败
- ARROW-5935 - [C++] 不稳定支持具有可变类型的 ArrayBuilders
- ARROW-5946 - [Rust] [DataFusion] 投影下推与聚合产生不正确的结果
- ARROW-5952 - [Python] 将类别作为 pandas dataframe 读取空表时产生段错误
- ARROW-5959 - [C++][CI] Fuzzit 不知道分支 + commit 哈希
- ARROW-5960 - [C++] Boost 依赖项以错误的顺序指定
- ARROW-5963 - [R] R Appveyor job 不测试 C++ 库中的更改
- ARROW-5964 - [C++][Gandiva] 将 double 转换为 decimal 时四舍五入返回 0
- ARROW-5966 - [Python] 将大型 UTF32 numpy 数组转换为 arrow 数组时,内存成本过高
- ARROW-5968 - [Java] 移除 JDBC 适配器中重复的 Preconditions 检查
- ARROW-5969 - [CI] [R] Lint 失败
- ARROW-5973 - [Java] 当底层数据为 null 时,可变宽度向量的 get 方法应返回 null
- ARROW-5978 - [FlightRPC] [Java] 集成测试客户端不关闭缓冲区
- ARROW-5989 - [C++][Python] pyarrow.lib.ArrowIOError: 使用 openjdk-8 时无法加载 libjvm
- ARROW-5990 - [Python] RowGroupMetaData.column 缺少边界检查
- ARROW-5992 - [C++] Array::View 对字符串/utf8 作为二进制文件失败
- ARROW-5996 - [Java] 避免 flight service 中的资源泄漏
- ARROW-5999 - [C++] 使用 -DARROW_DATASET=OFF 构建时,缺少必需的头文件
- ARROW-6002 - [C++][Gandiva] TestCastFunctions 不测试 int64 转换
- ARROW-6004 - [C++] CSV reader ignore_empty_lines 选项不处理空行
- ARROW-6005 - [C++] parquet::arrow::FileReader::GetRecordBatchReader() 的行为与 ARROW-1012 之后的文档不符
- ARROW-6006 - [C++] 包含字典的空 IPC 流已损坏
- ARROW-6012 - [C++] 回退到已知的 Apache 镜像以进行 Thrift 下载
- ARROW-6016 - [Python] pyarrow get_library_dirs 断言错误
- ARROW-6029 - [R] 改进 R 文档,说明如何修复库版本不匹配的问题
- ARROW-6032 - [C++] CountSetBits 不确保 64 位对齐的访问
- ARROW-6038 - [Python] 如果任何批次为空,pyarrow.Table.from_batches 会生成损坏的表
- ARROW-6040 - [Java] 即使为空,IPC 流中也需要字典条目
- ARROW-6046 - [C++] 切片偏移量为 0 的 String 数组的 RecordBatch 返回整个批次
- ARROW-6047 - [Rust] Rust nightly 1.38.0 构建失败
- ARROW-6050 - [Java] 更新过时的 java/flight/README.md
- ARROW-6054 - pyarrow.serialize 应该尊重 numpy 的结构化 dtype 的值
- ARROW-6058 - [Python][Parquet] 使用 s3fs 从 S3 读取 Parquet 文件时失败
- ARROW-6060 - [Python] 使用 use_threads=True 的 pyarrow.parquet.read_table 内存成本过高
- ARROW-6061 - [C++] 无法在没有 rapidjson 的情况下构建 libarrow
- ARROW-6066 - [Website] 修复博客文章作者标题
- ARROW-6067 - [Python] 大型内存测试失败
- ARROW-6068 - [Python] Hypothesis 测试失败,添加接受字段向量的 StructType::Make
- ARROW-6073 - [C++] Decimal128Builder 未在 Finish() 中重置
- ARROW-6082 - [Python] 使用非整数索引类型创建 pa.dictionary() 类型崩溃
- ARROW-6092 - [C++] Python 2.7: arrow_python_test 失败
- ARROW-6095 - [C++] Python 子项目忽略 ARROW_TEST_LINKAGE
- ARROW-6108 - [C++] Appveyor Build_Debug 配置挂起在 C++ 单元测试中
- ARROW-6116 - [C++][Gandiva] 修复 TimedTestFilterAdd2 中的 bug
- ARROW-6117 - [Java] 修复 FixedSizeBinaryVector 的 set 方法
- ARROW-6120 - [C++][Gandiva] 包含某些标头会导致 decimal_test 失败
- ARROW-6126 - [C++] IPC 流读取器处理空流可能不够健壮
- ARROW-6132 - [Python] ListArray.from_arrays 不检查输入数组的有效性
- ARROW-6135 - [C++] KeyValueMetadata::Equals 不应区分顺序
- ARROW-6136 - [FlightRPC][Java] 不要双重关闭响应流
- ARROW-6145 - [Java] MinorType#getNewVector 创建的 UnionVector 无法正确保留字段类型信息
- ARROW-6148 - [C++][打包] 改进 aarch64 支持
- ARROW-6152 - [C++][Parquet] 将 arrow::Array 直接写入 parquet::TypedColumnWriter
- ARROW-6153 - [R] 解决 parquet 弃用警告
- ARROW-6158 - [Python] 可以创建与子数组类型冲突的 StructArray
- ARROW-6159 - [C++] arrow::Schema 的 PrettyPrint 缺少第一行的缩进
- ARROW-6160 - [Java] AbstractStructVector#getPrimitiveVectors 无法与复杂的子向量一起使用
- ARROW-6166 - [Go] 切片的切片导致索引超出范围 panic
- ARROW-6167 - [R] CRAN 上的 macOS 二进制 R 包没有 arrow_available
- ARROW-6170 - [R] “docker-compose build r” 速度很慢
- ARROW-6171 - [R] “docker-compose run r” 失败
- ARROW-6174 - [C++] 验证 ChunkedArray::Validate 中的块
- ARROW-6175 - [Java] 修复 MapVector#getMinorType 并扩展 AbstractContainerVector addOrGet 复杂向量 API
- ARROW-6178 - [Developer] 在多作者 PR 中,如果主要作者输入错误,则合并脚本不会失败
- ARROW-6182 - [R] 在 README 中添加关于 r-arrow conda 安装的说明
- ARROW-6186 - [Packaging][C++] Ubuntu-xenial libplasma-dev debian 包中未包含 Plasma 头文件
- ARROW-6190 - [C++] 定义和声明函数,无论 NDEBUG 是否设置
- ARROW-6193 - [GLib] 在测试中添加缺少的 require
- ARROW-6200 - [Java] BaseRepeatedValueVector/ListVector 中的方法 getBufferSizeFor 不正确
- ARROW-6202 - [Java] 线程“main”中的异常 org.apache.arrow.memory.OutOfMemoryException:由于内存限制,无法分配大小为 4 的缓冲区。当前分配:2147483646
- ARROW-6205 - [C++] 从 CUDA (.cu) 源代码包含 io/interfaces.h 时发出 ARROW_DEPRECATED 警告
- ARROW-6208 - [Java] 在 ByteFunctionHelpers 中比较之前更正字节顺序
- ARROW-6210 - [Java] 从 ValueVector 中移除 equals API
- ARROW-6211 - [Java] 从 ValueVector 接口中移除对 RangeEqualsVisitor 的依赖
- ARROW-6214 - [R] 通过 R 绑定触发的 Sanitizer 错误
- ARROW-6215 - [Java] RangeEqualVisitor 不正确地比较 ZeroVector
- ARROW-6218 - [Java] 在集成中添加 UINT 类型测试以避免潜在的溢出
- ARROW-6223 - [C++] Anaconda Python 3.7.4 中的配置错误
- ARROW-6224 - [Python] 剩余的 'data' 属性用法(来自之前的 Column)会导致警告
- ARROW-6227 - [Python] pyarrow.array() 不应强制将 np.nan 转换为字符串
- ARROW-6234 - [Java] ListVector hashCode() 不正确
- ARROW-6241 - [Java] 主分支上的失败
- ARROW-6259 - [C++][CI] macOS 上 CI 中与 Flatbuffers 相关的失败
- ARROW-6263 - [Python] RecordBatch.from_arrays 不会根据传递的 schema 检查数组类型
- ARROW-6266 - [Java] 解决 RangeEqualsVisitor 中的不明确方法重载
- ARROW-6268 - 空缓冲区应具有有效的地址
- ARROW-6269 - [C++][Fuzzing] IPC 读取不检查小数精度
- ARROW-6270 - [C++][Fuzzing] IPC 读取不检查缓冲区索引
- ARROW-6290 - [Rust] [DataFusion] 运行 sql_csv 示例时出错
- ARROW-6291 - [C++] CMake 忽略 ARROW_PARQUET
- ARROW-6301 - [Python] atexit: pyarrow.lib.ArrowKeyError: ‘未找到名为 arrow.py_extension_type 的类型扩展’
- ARROW-6302 - [Python][Parquet] 读取带有序列化 Arrow schema 的字典类型不会恢复 “ordered” 类型属性
- ARROW-6309 - [C++] Parquet 测试和可执行文件是静态链接的
- ARROW-6323 - [R] 传递给 readers 时展开文件路径
- ARROW-6325 - [Python] 具有布尔值的 DataFrame 的错误转换
- ARROW-6330 - [C++] 在 api.h 中包含缺失的 headers
- ARROW-6332 - [Java][C++][Gandiva] 正确处理 varchar vectors 的大小
- ARROW-6339 - [Python][C++] pd.NaT 数组的 Rowgroup 统计信息定义不明确
- ARROW-6343 - [Java] [Vector] 修复分配助手
- ARROW-6344 - [C++][Gandiva] substring 不处理多字节字符
- ARROW-6345 - [C++][Python] 比较 DictionaryType 值是否相等时,似乎没有考虑 “ordered” 标志
- ARROW-6348 - [R] 未加载软件包时出现 arrow::read_csv_arrow 命名空间错误
- ARROW-6354 - [C++] 在没有 Parquet 的情况下构建失败
- ARROW-6363 - [R] 具有意外 schema 的 Table__from_dots 中的 segfault
- ARROW-6364 - [R] 处理 time64() 等的意外输入
- ARROW-6369 - [Python] 在 Array.to_pandas 转换中支持 boolean 列表
- ARROW-6371 - [Doc] 行到列转换示例在注释中提到 arrow::Column
- ARROW-6372 - [Rust][Datafusion] 不支持从 Un-signed 到 Signed Integers 的转换
- ARROW-6376 - [Developer] PR 合并脚本具有硬编码的 “master” 目标引用
- ARROW-6387 - [Archery] make 的错误
- ARROW-6392 - [Python][Flight] list_actions Server RPC 未在 test_flight.py 中进行测试,并且未验证返回值
- ARROW-6406 - [C++] jemalloc_ep 在离线构建中失败
- ARROW-6411 - [C++][Parquet] DictEncoderImpl
::PutIndicesTyped 在某些系统上具有不良性能 - ARROW-6412 - [C++] arrow-flight-test 可能因端口分配而崩溃
- ARROW-6418 - [C++] Plasma cmake targets 未导出
- ARROW-6423 - [Python] pyarrow.CompressedOutputStream() 永远不会完成,压缩='snappy'
- ARROW-6424 - [C++][Fuzzing] Fuzzit nightly 已损坏
- ARROW-6428 - [CI][Crossbow] Nightly turbodbc 作业失败
- ARROW-6431 - [Python] 未安装 pandas 时测试套件失败
- ARROW-6432 - [CI][Crossbow] 删除 alpine crossbow 作业
- ARROW-6433 - [CI][Crossbow] Nightly java docker 作业失败
- ARROW-6434 - [CI][Crossbow] Nightly HDFS 集成作业失败
- ARROW-6435 - [CI][Crossbow] Nightly dask 集成作业失败
- ARROW-6440 - [CI][Crossbow] Nightly ubuntu, debian 和 centos 软件包构建失败
- ARROW-6441 - [CI][Crossbow] Nightly Centos 6 作业失败
- ARROW-6443 - [CI][Crossbow] Nightly conda osx 构建失败
- ARROW-6445 - [CI][Crossbow] Nightly Gandiva jar trusty 作业失败
- ARROW-6446 - [OSX][Python][Wheel] 关闭 wheel 构建脚本中的 ORC 功能
- ARROW-6449 - [R] io “tell()” 方法的命名不一致且未经测试
- ARROW-6457 - [C++] 使用 MSVC 2015 构建生成器在本地构建 CMake 失败
- ARROW-6461 - [Java] EchoServer 可以在客户端完成读取之前关闭套接字
- ARROW-6472 - [Java] ValueVector#accept 可能存在潜在的强制转换异常
- ARROW-6476 - [Java][CI] Travis java all-jdks 作业已损坏
- ARROW-6478 - [C++] 回滚到 jemalloc stable-4 分支,直到解决 5.2.x 中的性能问题
- ARROW-6481 - [Python][C++] 带有 column_types 的 read_csv() 的性能不佳
- ARROW-6488 - [Python] pyarrow.NULL 等于自身
- ARROW-6492 - [Python] 使用最新的 fastparquet 写入的文件无法使用最新的 pyarrow 读取
- ARROW-6502 - [GLib][CI] CI 中的 MinGW 失败
- ARROW-6506 - [C++] 嵌套类型的 ExtensionType 验证失败
- ARROW-6509 - [C++][Gandiva] 重新启用 Gandiva JNI 测试并修复 Travis CI 失败
- ARROW-6520 - [Python] 写入具有固定大小二进制字段的表时出现段错误
- ARROW-6522 - [Python] 测试套件在使用 pandas 0.23.4,pytest 3.8.1 时失败
- ARROW-6530 - [CI][Crossbow][R] Nightly R 作业未安装所有依赖项
- ARROW-6550 - [C++] 筛选表达式 PR 导致 manylinux 软件包构建失败
- ARROW-6552 - [C++] 在 gcc 4.8.2 中编译时,STL 测试中的 boost::optional 失败
- ARROW-6560 - [Python] *-nopandas 集成测试中的失败
- ARROW-6561 - [Python] pandas-master 集成测试失败
- ARROW-6562 - [GLib] 修复 GArrowBuffer 的错误切片数据
- ARROW-6564 - [Python] 调用 Array.__array__ 不需要 pandas
- ARROW-6565 - [Rust] [DataFusion] 由于临时目录已存在而导致间歇性测试失败
- ARROW-6568 - [C++][Python][Parquet] pyarrow.parquet 写入零块字典类型列时崩溃
- ARROW-6572 - [C++] 读取某些 Parquet 数据可能会返回未初始化的内存
- ARROW-6573 - [Python] 写入 parquet 时出现段错误
- ARROW-6576 - [R] 修复 sparklyr 集成测试
- ARROW-6597 - [Python] 使用 Python 2.7 在 test_pandas 中出现段错误
- ARROW-6618 - [Python] 读取零大小缓冲区可能导致段错误
- ARROW-6622 - [C++][R] Windows 上的 SubTreeFileSystem 路径错误
- ARROW-6623 - [CI][Python] Dask docker 集成测试可能因与统计信息相关的更改而损坏
- ARROW-6639 - [Packaging][RPM] 添加对 aarch64 上 CentOS 7 的支持
- ARROW-6640 - [C++] 当 BufferedInputStream Peek 超过缓冲的字节数时出错
- ARROW-6642 - [Python] 对 ParquetDataset 元数据的链式访问导致段错误
- ARROW-6651 - [R] 修复 R conda 作业
- ARROW-6652 - [Python] to_pandas 转换从类型中删除时区
- ARROW-6660 - [Rust] [DataFusion] 0.15.0 版本的次要文档更新
- ARROW-6670 - [CI][R] 修复 R nightly 作业的修复
- ARROW-6674 - [Python] 修复或忽略测试警告
- ARROW-6677 - [FlightRPC][C++] 文档使用 C++ 中的 Flight
- ARROW-6678 - [C++] 由 ARROW-3246 引入的 Parquet 文件兼容性回归
- ARROW-6679 - [RELEASE] LICENSE.txt 中的 autobrew 许可证不可接受
- ARROW-6682 - [C#] Arrow R/C++ 挂起读取 C# 生成的二进制文件
- ARROW-6687 - [Rust] [DataFusion] 查询返回不正确的行数
- ARROW-6701 - [C++][R] Lint 在 R cpp 代码上失败
- ARROW-6703 - [Packaging][Linux] 恢复 ARROW_VERSION 环境变量
- ARROW-6705 - [Rust] [DataFusion] README 具有无效的 github URL
- ARROW-6709 - [JAVA] 当值为 null 时,Jdbc 适配器 currentIndex 应递增
- ARROW-6714 - [R] 修复未经测试的 RecordBatchWriter 用例
- ARROW-6716 - [CI] [Rust] 新的 1.40.0 nightly 导致构建失败
- ARROW-6751 - [CI] ccache 不会在 Travis-CI 上缓存
- ARROW-6760 - [C++] JSON:改进列更改类型时的错误消息
- ARROW-6762 - [C++] JSON reader 在换行符上出现段错误
- ARROW-6773 - [C++] 使用数组切片进行筛选时,Filter kernel 返回无效数据