Apache Arrow 0.10.0 (2018 年 8 月 6 日)
这是一个主要版本。
下载
贡献者
$ git shortlog -sn apache-arrow-0.9.0..apache-arrow-0.10.0
70 Antoine Pitrou
49 Kouhei Sutou
40 Korn, Uwe
37 Wes McKinney
32 Krisztián Szűcs
30 Andy Grove
20 Philipp Moritz
13 Phillip Cloud
11 Bryan Cutler
11 yosuke shiro
7 Dimitri Vorona
6 Zhijun Fu
5 Bruce Mitchener
5 Joshua Storck
5 Robert Nishihara
5 ptaylor
4 Maximilian Roos
4 Sebastien Binet
3 Alex
3 Brian Hulette
3 Chao Sun
3 Dominik Moritz
3 Kenji Okimoto
3 Marco Neumann
3 Yuhong Guo
2 Abhi
2 Dhruv Madeka
2 Dmitry Kalinkin
2 Donal Simmie
2 Frank Wessels
2 Julius Neuffer
2 Manabu Ejima
2 Omer Katz
2 Paddy
2 Paddy Horan
2 Robert Gruener
2 Teddy Choi
2 Vanco Buca
2 Venki Korukanti
2 bomeng
2 fjetter
2 liurenjie1024
2 songqing
1 284km
1 Adrian Dorr
1 Albert Shieh
1 Alessandro Andrioni
1 Alok Singh
1 Aneesh Karve
1 Atul Dambalkar
1 Ben Wolfson
1 Brent Kerby
1 Daniel Chalef
1 Daniel Compton
1 Florian Rathgeber
1 Gatis Seja
1 HE, Tao
1 James Lamb
1 Jeff Zhang
1 Juan Paulo Gutierrez
1 Kane
1 Kee Chong Tan
1 Kelsey Jordahl
1 Kendall Willets
1 Li Jin
1 Licht-T
1 Lizhou Gao
1 Louis Potok
1 Markus Klein
1 Matt Topol
1 Matthew Topol
1 Michael Sarahan
1 Paul Taylor
1 Peter Schafhalter
1 Philipp Hoch
1 Renato Marroquin
1 Richard Gowers
1 Robbie Gruener
提交补丁者
以下 Apache 提交者向存储库提交了补丁。
$ git shortlog -csn apache-arrow-0.9.0..apache-arrow-0.10.0
120 Wes McKinney
119 Korn, Uwe
63 Antoine Pitrou
50 Uwe L. Korn
28 Kouhei Sutou
27 Philipp Moritz
15 Bryan Cutler
15 Phillip Cloud
8 Robert Nishihara
6 Sidd
4 Brian Hulette
2 GitHub
1 Your Name Here
1 ptaylor
更新日志
新功能和改进
- ARROW-1018 - [C++] 添加从 OS 文件描述符创建 FileOutputStream、ReadableFile 的选项
- ARROW-1163 - [Plasma][Java] Plasma 的 Java 客户端
- ARROW-1388 - [Python] 添加 Table.drop 方法以删除列
- ARROW-1454 - [Python] 尝试将不受支持的 Arrow 类型写入 Parquet 格式时,提供更丰富的信息性错误消息
- ARROW-1715 - [Python] 为 Column、ChunkedArray、RecordBatch、Table 实现序列化
- ARROW-1722 - [C++] 添加 lint 脚本以查找 C++/CLI 问题
- ARROW-1731 - [Python] 提供在 RecordBatch/Table.from_pandas 中选择要转换的列子集的功能
- ARROW-1744 - [Plasma] 提供 TensorFlow 运算符以从 plasma 读取张量
- ARROW-1780 - [Java] Apache Arrow 的 JDBC 适配器
- ARROW-1858 - [Python] 添加有关 parquet.write_to_dataset 和相关方法的文档
- ARROW-1868 - [Java] 将 vector getMinorType 更改为使用 MinorType 而不是 Types.MinorType
- ARROW-1886 - [Python] 添加将表中的结构“展平”的函数
- ARROW-1913 - [Java] 修复 JDK8 的 Javadoc 生成错误
- ARROW-1928 - [C++] 添加比较 internal::BitmapReader/Writer 与朴素方法性能的基准测试
- ARROW-1954 - [Python] 向 pyarrow.Field 添加元数据访问器
- ARROW-1964 - [Python] 公开 Builder 类
- ARROW-2014 - [Python] 记录 pyarrow.parquet 中的 read_pandas 方法
- ARROW-2055 - [Java] 升级到 Java 8
- ARROW-2060 - [Python] 使用 from_arrays 或字典序列创建 StructArray 的文档
- ARROW-2061 - [C++] 在 Travis CI 中运行 ASAN 构建
- ARROW-2074 - [Python] 允许对结构数组进行类型推断
- ARROW-2097 - [Python] 当没有错误时,在 Travis CI 构建中禁止 valgrind stdout/stderr
- ARROW-2100 - [Python] 删除 Python 3.4 支持
- ARROW-2140 - [Python] 从 Numpy float16 数组转换未实现
- ARROW-2141 - [Python] 从 Numpy 对象数组到 varsize 二进制的转换未实现
- ARROW-2147 - [Python] 类型推断不适用于 Numpy 数组列表
- ARROW-2207 - [GLib] 支持十进制类型
- ARROW-2222 - [C++] 添加验证 Flatbuffers 消息的选项
- ARROW-2224 - [C++] 摆脱 boost 正则表达式的使用
- ARROW-2241 - [Python] 用于在提交或标签处运行所有当前 ASV 基准测试的简单脚本
- ARROW-2264 - [Python] 有效地序列化具有 unicode 固定长度字符串 dtype 的 numpy 数组
- ARROW-2267 - Rust 绑定
- ARROW-2276 - [Python] Tensor 可以实现缓冲协议
- ARROW-2281 - [Python] 公开 MakeArray 以从缓冲区构造数组
- ARROW-2285 - [Python] 无法转换 Numpy 字符串数组
- ARROW-2286 - [Python] 允许下标 pyarrow.lib.StructValue
- ARROW-2287 - [Python] 分块数组不可迭代,不可索引
- ARROW-2299 - [Go] Go 语言实现
- ARROW-2301 - [Python] 将源发行版发布说明添加到包/发布管理文档中
- ARROW-2302 - [GLib] 在同一个 Travis CI 构建条目中运行 autotools 和 meson Linux 构建
- ARROW-2308 - 序列化的张量数据应为 64 字节对齐。
- ARROW-2315 - [C++/Python] 添加展平结构数组的方法
- ARROW-2319 - [C++] 添加实现 OutputStream 接口的缓冲输出类
- ARROW-2322 - 记录运行 dev/release/01-perform.sh 的要求
- ARROW-2325 - [Python] 更新 setup.py 以使用 Markdown 项目描述
- ARROW-2330 - [C++] 使用部分可完成的数组构建器优化增量缓冲区创建
- ARROW-2332 - [Python] 提供用于读取多个 Feather 文件的 API
- ARROW-2334 - [C++] 将 boost 更新到 1.66.0
- ARROW-2335 - [Go] 将 Go README 向上移动一个目录
- ARROW-2340 - [网站] 添加有关 Go 代码库捐赠的博客文章
- ARROW-2341 - [Python] pa.union() 模式参数不直观
- ARROW-2343 - [Java/打包] 在 API 文档构建中运行 mvn clean
- ARROW-2344 - [Go] 在 Travis CI 中运行 Go 单元测试
- ARROW-2345 - [文档] 修复 bundle exec 并将 sphinx nosidebar 设置为 True
- ARROW-2348 - [GLib] 删除 Go 示例
- ARROW-2350 - 缩小 spark_integration Docker 容器的大小
- ARROW-2353 - 测试 AppVeyor 上构建的 wheel 的正确性
- ARROW-2361 - [Rust] 启动本机 Rust 实现
- ARROW-2364 - [Plasma] PlasmaClient::Get() 可以接受对象 ID 向量
- ARROW-2376 - [Rust] Travis 应该为 Rust 库运行测试
- ARROW-2378 - [Rust] 使用 rustfmt 格式化源代码
- ARROW-2381 - [Rust] 缓冲区
应该有一个迭代器 - ARROW-2384 - Rust:使用 Trait 而不是直接定义方法
- ARROW-2385 - [Rust] 为 Field 和 DataType 实现 to_json()
- ARROW-2388 - [C++] Arrow::StringBuilder::Append() 使用 null_bytes 而不是 valid_bytes
- ARROW-2389 - [C++] 添加 StatusCode::OverflowError
- ARROW-2390 - [C++/Python] CheckPyError() 可以检查异常类型
- ARROW-2395 - [Python] 纠正 pyarrow/ 目录之外的 flake8 错误
- ARROW-2396 - 统一 Rust 错误
- ARROW-2397 - 记录 IPC.md 中张量编码的更改。
- ARROW-2398 - [Rust] 为类型安全的 Buffer 提供零拷贝构建器
- ARROW-2400 - [C++] Status 析构函数开销大
- ARROW-2401 - 支持对 Hive 分区 Parquet 文件进行筛选
- ARROW-2402 - [C++] FixedSizeBinaryBuilder::Append 缺少“const char*”重载
- ARROW-2404 - 修复 msvc 构建中“type_id”的声明隐藏类成员警告
- ARROW-2407 - [GLib] 添加 garrow_string_array_builder_append_values()
- ARROW-2408 - [Rust] 应该可以从 Builder 获取 &mut[T]
- ARROW-2411 - [C++] 添加将成批的以 null 结尾的字符串追加到 StringBuilder 的方法
- ARROW-2413 - [Rust] 删除对 `format!` 的无用使用
- ARROW-2414 - [文档] 修复各种文档错别字
- ARROW-2415 - [Rust] 修复模式匹配中使用引用
- ARROW-2416 - [C++] 支持系统 libprotobuf
- ARROW-2417 - [Rust] 审查 API 的安全性
- ARROW-2422 - [Python] 支持对 Hive 分区 Parquet 文件进行更多筛选运算符
- ARROW-2427 - [C++] ReadAt 实现欠佳
- ARROW-2430 - 基于分支的打包自动化的 MVP
- ARROW-2433 - [Rust] 添加 Builder.push_slice(&[T])
- ARROW-2434 - [Rust] 添加 Windows 支持
- ARROW-2435 - [Rust] 添加内存池抽象。
- ARROW-2436 - [Rust] 添加 Windows CI
- ARROW-2440 - [Rust] 实现 ListBuilder
- ARROW-2442 - [C++] 消除 Builder::Append 重载的歧义
- ARROW-2445 - [Rust] 添加文档并将一些字段设为私有
- ARROW-2448 - 当 plasma 客户端在缓冲区之前超出范围时发生段错误。
- ARROW-2451 - 在自定义 numpy 数组序列化程序中有效处理更多 dtype。
- ARROW-2453 - [Python] 改进 Table 列访问
- ARROW-2458 - [Plasma] PlasmaClient 使用全局变量
- ARROW-2463 - [C++] 将 flatbuffers 更新到 1.9.0
- ARROW-2464 - [Python] 使用 python_version 标记而不是条件判断
- ARROW-2469 - 在 ReadMessage API 中将输出参数放在最后。
- ARROW-2470 - [C++] FileGetSize() 不应执行 seek 操作
- ARROW-2472 - [Rust] Schema 和 Fields 类型不应具有公共属性
- ARROW-2477 - [Rust] 在 CI 中设置代码覆盖率
- ARROW-2478 - [C++] 引入一个 checked_cast 函数,在调试模式下执行 dynamic_cast
- ARROW-2479 - [C++] 拥有一个全局线程池
- ARROW-2480 - [C++] 允许将十进制值转换为 int32_t 或 int64_t
- ARROW-2481 - [Rust] 将 free() 的调用移动到 memory.rs
- ARROW-2482 - [Rust] 支持嵌套类型
- ARROW-2484 - [C++] 记录 ABI 兼容性检查
- ARROW-2485 - [C++] 当 run_clang_format.py 报告更改时输出差异
- ARROW-2486 - [C++/Python] 提供一个包含所有开发依赖项的 Docker 镜像
- ARROW-2488 - [C++] 将 Boost 1.67 列为受支持的版本
- ARROW-2493 - [Python] 添加对 buffers 和 arrays 的 pickle 支持
- ARROW-2494 - 从 PlasmaClient::Seal 返回状态码
- ARROW-2498 - [Java] 升级到 JDK 1.8
- ARROW-2499 - [C++] 为 Python 序列添加迭代器功能
- ARROW-2505 - [C++] 禁用 MSVC 警告 C4800
- ARROW-2506 - [Plasma] macOS 上的构建错误
- ARROW-2507 - [Rust] 在不需要时不要使用引用
- ARROW-2508 - [Python] pytest API 的更改导致测试失败
- ARROW-2513 - [Python] DictionaryType 应该可以访问索引类型和字典数组
- ARROW-2516 - AppVeyor 构建矩阵应特定于 PR 中所做的更改
- ARROW-2521 - [Rust] 重构 Rust API 以使用 traits 和泛型
- ARROW-2522 - [C++] 版本共享库文件
- ARROW-2525 - [GLib] 添加 garrow_struct_array_flatten()
- ARROW-2526 - [GLib] 更新 .gitignore
- ARROW-2527 - [GLib] 启用 GPU 文档
- ARROW-2529 - [C++] 在文档中将 clang-format 的提及更新到 5.0
- ARROW-2531 - [C++] 将 clang bits 更新到 6.0
- ARROW-2533 - [CI] 快速完成失败的 AppVeyor 构建
- ARROW-2536 - [Rust] ListBuilder 对偏移量构建器使用错误的初始大小
- ARROW-2537 - [Ruby] 导入
- ARROW-2539 - [Plasma] 使用 unique_ptr 而不是原始指针
- ARROW-2540 - [Plasma] 添加构造函数/析构函数以确保自动调用 dlfree
- ARROW-2541 - [Plasma] 清理宏的使用
- ARROW-2543 - [Rust] CI 应该缓存依赖项以加快构建速度
- ARROW-2544 - [CI] 在 Travis-CI 上使用两个作业运行 C++ 测试
- ARROW-2547 - [Format] 修复 List<List> 示例中的差一错误
示例 - ARROW-2548 - [Format] 澄清 `List\` Array 示例
Array 示例 - ARROW-2549 - [GLib] 将 arrow::StatusCodes 的更改应用于 GArrowError
- ARROW-2550 - [C++] 将缺少的状态码添加到 arrow::StatusCode::CodeAsString() 中
- ARROW-2551 - [Plasma] 改进通知逻辑
- ARROW-2553 - [Python] 在 wheel 构建中设置 MACOSX_DEPLOYMENT_TARGET
- ARROW-2558 - [Plasma] 当客户端断开连接时,避免遍历所有对象
- ARROW-2562 - [C++] 将覆盖率数据上传到 codecov.io
- ARROW-2563 - [Rust] Travis-CI 中的缓存不良
- ARROW-2566 - [CI] 将 codecov.io 徽章添加到 README
- ARROW-2567 - [C++/Python] 在比较 TimestampArrays 时忽略单位
- ARROW-2568 - [Python] 向 Python 公开线程池大小设置,并弃用“nthreads”
- ARROW-2569 - [C++] 改进线程池大小启发式
- ARROW-2574 - [CI] 收集并发布 Python 覆盖率
- ARROW-2576 - [GLib] 添加 Decimal128 的 abs 函数。
- ARROW-2577 - [Plasma] 添加 ASV 基准
- ARROW-2580 - [GLib] 修复 Decimal128 的 abs 函数
- ARROW-2582 - [GLib] 添加 Decimal128 的 negate 函数
- ARROW-2585 - [C++] 添加 Decimal128::FromBigEndian
- ARROW-2586 - [C++] 将 ListBuilder 和 StructBuilder 的子构建器设为 shared_ptr
- ARROW-2595 - [Plasma] operator[] 在 map 中创建条目
- ARROW-2596 - [GLib] 使用 GTK-Doc 的默认值
- ARROW-2597 - [Plasma] 删除 UniqueIDHasher
- ARROW-2604 - [Java] 为 VarCharVector.set(int,String) 添加方法重载
- ARROW-2608 - [Java/Python] 添加 pyarrow.{Array,Field}.from_jvm / jvm_buffer
- ARROW-2611 - [Python] Python 2 整数序列化
- ARROW-2612 - [Plasma] 修复已弃用的 PLASMA_DEFAULT_RELEASE_DELAY
- ARROW-2613 - [Docs] 更新 gen_apidocs docker 脚本
- ARROW-2614 - [CI] 删除 Travis 中的“group: deprecated”
- ARROW-2626 - [Python] pandas ArrowInvalid 消息应包含失败的列名
- ARROW-2634 - [Go] 为 Go 子项目添加 LICENSE 内容
- ARROW-2635 - [Ruby] LICENSE.txt 不适用
- ARROW-2636 - [Ruby] 缺少“非官方”包说明
- ARROW-2638 - [Python] 阻止直接调用扩展类构造函数
- ARROW-2639 - [Python] 删除不必要的 _check_nullptr 方法
- ARROW-2641 - [C++] 调查虚假的 memset() 调用
- ARROW-2645 - [Java] ArrowStreamWriter 累积 DictionaryBatch ArrowBlocks
- ARROW-2649 - [C++] 添加类似 std::generate() 的函数以加快位图写入速度
- ARROW-2656 - [Python] 改进 ParquetManifest 创建时间
- ARROW-2660 - [Python] 尝试零拷贝 pickle
- ARROW-2661 - [Python/C++] 允许通过 map/dict 传递 HDFS 配置值,而不是需要 hdfs-site.xml 文件
- ARROW-2662 - [Python] 向 ChunkedArray 添加 to_pandas / to_numpy
- ARROW-2663 - [Python] 使 dictionary_encode 和 unique 可以通过 Column / ChunkedArray 访问
- ARROW-2664 - [Python] 在 Buffer 上实现 __getitem__ / 切片
- ARROW-2666 - [Python] numpy.asarray 应该在 Array/ChunkedArray 上触发 to_pandas
- ARROW-2672 - [Python] 在 manylinux1 wheels 中构建 ORC 扩展
- ARROW-2674 - [Packaging] 开始构建 nightly 版本
- ARROW-2676 - [Packaging] 将构建工件部署到 github releases
- ARROW-2677 - [Python] 公开 Parquet ZSTD 压缩
- ARROW-2678 - [GLib] 添加有关 macOS 上常见构建问题的额外信息
- ARROW-2680 - [Python] 添加关于 Table.from_pandas 中类型推断的文档
- ARROW-2682 - [CI] 在 Slack 中通知有关损坏的构建
- ARROW-2689 - [Python] 从文档中删除对 timestamps_to_ms 参数的引用
- ARROW-2692 - [Python] 添加将字典编码列写入分块 Parquet 文件的测试
- ARROW-2695 - [Python] 阻止直接调用标量构造函数
- ARROW-2696 - [JAVA] 使用 onFailedAllocation() 调用增强 AllocationListener
- ARROW-2699 - [C++/Python] 添加 Table 方法,该方法使用新的提供的列替换列
- ARROW-2700 - [Python] 向 Array.cast 文档字符串添加简单示例
- ARROW-2701 - [C++] 使 MemoryMappedFile 可调整大小
- ARROW-2704 - [Java] IPC 流处理应该对底层处理更友好
- ARROW-2713 - [Packaging] 修复 linux 包构建
- ARROW-2717 - [Packaging] 用目标架构后缀 conda 工件
- ARROW-2718 - [Packaging] GPG 签名下载的工件
- ARROW-2724 - [Packaging] 确定是否上传了所有预期的工件
- ARROW-2725 - [JAVA] 使 Accountant.AllocationOutcome 公开可见
- ARROW-2729 - [GLib] 添加 decimal128 数组构建器
- ARROW-2731 - 允许使用外部 ORC 库
- ARROW-2732 - 更新 macOS 的 brew 包
- ARROW-2733 - [GLib] 将 garrow_decimal128 转换为 gint64
- ARROW-2738 - [GLib] 在安装过程中使用 Brewfile
- ARROW-2739 - [GLib] 对 GArrowDecimalDataType 和 GArrowDecimal128ArrayBuilder 使用 G_DECLARE_DERIVABLE_TYPE
- ARROW-2740 - [Python] 向 Buffer 添加 address 属性
- ARROW-2742 - [Python] 允许 Table.from_batches 使用 ArrowRecordBatches 的迭代器
- ARROW-2748 - [GLib] 添加 garrow_decimal_data_type_get_scale() (和 _precision())
- ARROW-2749 - [GLib] 将 *garrow_decimal128_array_get_value 重命名为 *garrow_decimal128_array_format_value
- ARROW-2751 - [GLib] 添加 garrow_table_replace_column()
- ARROW-2752 - [GLib] 记录 garrow_decimal_data_type_new()
- ARROW-2753 - [GLib] 添加 garrow_schema_*_field()
- ARROW-2755 - [Python] 允许使用 Ninja 构建扩展
- ARROW-2756 - [Python] 移除 parquet 测试中多余的导入和小的修复
- ARROW-2758 - [Plasma] 在 Plasma 中使用 Scope 枚举
- ARROW-2760 - [Python] 从 parquet 模块中移除旧的属性定义语法并对其进行测试
- ARROW-2761 - 支持在 Hive 分区 Parquet 文件上设置过滤器运算符
- ARROW-2763 - [Python] 使 parquet _metadata 文件可以从 ParquetDataset 访问
- ARROW-2780 - [Go] 运行代码覆盖率分析
- ARROW-2784 - [C++] MemoryMappedFile::WriteAt 允许写入超过末尾的位置
- ARROW-2790 - [C++] Buffers 包含未初始化的内存
- ARROW-2791 - [Packaging] 构建 Ubuntu 18.04 软件包
- ARROW-2792 - [Packaging] 考虑上传 tarball 以避免命名冲突
- ARROW-2794 - [Plasma] 添加用于删除多个对象的 Delete 方法
- ARROW-2798 - [Plasma] 使用考虑所有 UniqueID 字节的哈希函数
- ARROW-2802 - [Docs] 将发布管理指南移至项目 wiki
- ARROW-2804 - [Website] 从首页链接到开发者 wiki (Confluence)
- ARROW-2805 - [Python] 如果未安装 CUDA,TensorFlow 导入解决方法无法与 tensorflow-gpu 一起使用
- ARROW-2809 - [C++] 降低 Travis CI 中 lint 检查的详细程度
- ARROW-2811 - [Python] 测试序列化的确定性
- ARROW-2815 - [CI] 在 C++ CI 条目中构建 Java 库时,禁止 DEBUG 日志记录
- ARROW-2816 - [Python] 向 NativeFile 添加 __iter__ 方法
- ARROW-2821 - [C++] 仅在一个地方清零 BooleanBuilder 中的内存
- ARROW-2822 - [C++] 在 PoolBuffer::Resize 中清零填充字节
- ARROW-2824 - [GLib] 添加 garrow_decimal128_array_get_value()
- ARROW-2825 - [C++] 需要具有默认内存池的 AllocateBuffer / AllocateResizableBuffer 变体
- ARROW-2826 - [C++] 需要澄清 ArrayBuilder::Init()、Resize() 和 Reserve() 之间的关系
- ARROW-2827 - [C++] LZ4 和 Zstd 构建在并行构建中可能失败
- ARROW-2829 - [GLib] 添加 GArrowORCFileReader
- ARROW-2830 - [Packaging] 再次为 deb 软件包构建启用并行构建
- ARROW-2833 - [Python] Column.__repr__ 将会使用大型数据集锁定 Jupyter
- ARROW-2834 - [GLib] 从 Meson 选项中移除“enable_”前缀
- ARROW-2836 - [Packaging] 将构建矩阵扩展到多个任务
- ARROW-2837 - [C++] ArrayBuilder::null_bitmap 返回 PoolBuffer
- ARROW-2838 - [Python] 使用 Pandas 语义加速空值测试
- ARROW-2844 - [Packaging] 构建后测试 OSX wheel
- ARROW-2845 - [Packaging] 上传额外的 debian 工件
- ARROW-2846 - [Packaging] 在 crossbow 中更新 nightly 构建以及示例配置
- ARROW-2847 - [Packaging] 修复 conda forge 软件包的工件名称匹配
- ARROW-2848 - [Packaging] lib*.deb 软件包名称与版本不匹配
- ARROW-2849 - [Ruby] Arrow::Table#load 支持 ORC
- ARROW-2855 - [C++] 一篇博客文章,概述了使用 jemalloc 的好处
- ARROW-2859 - [Python] 在 open_stream、open_file 和 RecordBatch*Reader API 中处理导出 buffer 协议的对象
- ARROW-2861 - [Python] 添加关于使用 Parquet 存储无索引 pandas 数据的额外提示
- ARROW-2864 - [Plasma] 添加删除缓存,以便稍后删除对象
- ARROW-2868 - [Packaging] 修复 centos-7 构建
- ARROW-2869 - [Python] 添加 Array.to_numpy 的文档
- ARROW-2875 - [Packaging] 不要尝试在 linux 构建中下载 arrow 存档
- ARROW-2881 - [Website] 向网站添加 Community 选项卡
- ARROW-2884 - [Packaging] 从 apache 源代码存档构建软件包的选项
- ARROW-2886 - [Release] 存在未使用的变量
- ARROW-2890 - [Plasma] 使 Python PlasmaClient.release 私有化
- ARROW-2893 - [C++] 从公共 API 中删除 PoolBuffer 类,并将实现细节隐藏在工厂函数之后
- ARROW-2897 - 组织支持的 Ubuntu 版本
- ARROW-2898 - [Packaging] Setuptools_scm 刚刚发布了一个新版本,该版本无法解析 `apache-arrow-
\` 标签 - ARROW-2906 - [Website] 删除指向 slack 频道的链接
- ARROW-2907 - [GitHub] 改进“如何贡献补丁”
- ARROW-2908 - [Rust] 将版本更新到 0.10.0
- ARROW-2914 - [Integration] 将 WindowPandasUDFTests 添加到 Spark 集成
- ARROW-2915 - [Packaging] 从 ubuntu-trusty 构建中移除工件
- ARROW-2918 - [C++] 改进 Struct 漂亮打印的格式
- ARROW-2921 - [Release] 更新 .deb/.rpm changelos 以准备发布
- ARROW-2922 - [Release] 使 python 命令名称可自定义
- ARROW-2923 - [Doc] 添加运行 Spark 集成测试的说明
- ARROW-2924 - [Java] 当安装了较旧的 maven javadoc 插件时,mvn release 失败
- ARROW-2927 - [Packaging] AppVeyor wheel 任务在初始检出时失败
- ARROW-2928 - [Packaging] AppVeyor crossbow conda 构建正在获取 boost 1.63.0 而不是已安装的版本
- ARROW-2929 - [C++] ARROW-2826 破坏了 parquet-cpp 1.4.0 构建
- ARROW-2934 - [Packaging] 将校验和创建添加到 sign 子命令
- ARROW-2935 - [Packaging] 添加 verify_binary_artifacts 函数到 verify-release-candidate.sh
- ARROW-2937 - [Java] 对 ARROW-2704 的后续更改
- ARROW-2943 - [C++] 实现 BufferedOutputStream::Flush
- ARROW-2944 - [Format] Arrow 列式格式文档提到了不再存在的 VectorLayout
- ARROW-2946 - [Packaging] 停止在 debian/rules 中使用 PWD
- ARROW-2947 - [Packaging] 移除 Ubuntu Artful
- ARROW-2949 - [CI] repo.continuum.io 在构建中可能不稳定
- ARROW-2951 - [CI] format/ 中的更改应导致 Appveyor 构建运行
- ARROW-2953 - [Plasma] 存储内存使用情况
- ARROW-2954 - [Plasma] 仅在对象表中存储 object_id 一次
- ARROW-2962 - [Packaging] 不再需要 Bintray 描述符文件
- ARROW-2977 - [Packaging] 发布验证脚本也应检查 rust
- ARROW-2985 - [Ruby] 在 verify-release-candidate.sh 中运行单元测试
- ARROW-2988 - [Release] 在 Windows 上进行更自动化的发布验证
- ARROW-2990 - [GLib] 在 macOS 上使用 rpath 化的 Arrow C++ 构建失败
- ARROW-530 - C++/Python:提供子池以更好地跟踪内存分配
- ARROW-564 - [Python] 添加方法以返回原始 NumPy 数组(如果存在空值,则返回布尔掩码数组)
- ARROW-889 - [C++] 为 ChunkedArray 实现 arrow::PrettyPrint
- ARROW-902 - [C++] 从本地 tarball 构建包含第三方依赖项的 C++ 项目
- ARROW-906 - [C++] 将 Field 元数据序列化为 IPC 元数据
Bug 修复
- ARROW-2059 - [Python] Feather 读取/写入路径中可能存在的性能回归
- ARROW-2101 - [Python] from_pandas 将“str”类型读取为 Python 2 的二进制 Arrow 数据
- ARROW-2122 - [Python] Pyarrow 无法序列化带有时间戳的数据帧。
- ARROW-2182 - [Python] ASV 基准测试设置不考虑 C++ 库的更改
- ARROW-2193 - [Plasma] 当 ARROW_BOOST_USE_SHARED=on 时,plasma_store 具有对 Boost 共享库的运行时依赖性
- ARROW-2195 - [Plasma] 从 plasma store 中检索 RecordBatch 时出现段错误
- ARROW-2247 - [Python] 在 libarrow 和 libparquet 中静态链接 boost_regex 会导致段错误
- ARROW-2273 - 无法反序列化 pandas SparseDataFrame
- ARROW-2300 - [Python] python/testing/test_hdfs.sh 不再工作
- ARROW-2305 - [Python] Cython 0.25.2 编译失败
- ARROW-2314 - [Python] Union 数组切片有缺陷
- ARROW-2326 - [Python] 无法在 OS X (10.9) 上导入 pip 安装的 pyarrow
- ARROW-2328 - 使用 feather 写入切片时忽略偏移量
- ARROW-2331 - [Python] 修复索引实现
- ARROW-2333 - [Python] 在 setup.py 中 boost 打包失败
- ARROW-2342 - [Python] 感知时间戳类型无法序列化
- ARROW-2346 - [Python] PYARROW_CXXFLAGS 不接受多个选项
- ARROW-2349 - [Python] Boost 共享库打包在 MSVC 中损坏
- ARROW-2351 - [C++] StringBuilder::append(vector) 未实现
... - ARROW-2354 - [C++] PyDecimal_Check() 太慢
- ARROW-2355 - [Python] 无法在 OSX 上导入 pyarrow [0.9.0]
- ARROW-2357 - 基准测试 PandasObjectIsNull
- ARROW-2368 - DecimalVector#setBigEndian 对负值填充不正确
- ARROW-2369 - 通过 PyArrow 写入 Parquet 的大型(>~20 GB)文件损坏
- ARROW-2370 - [GLib] Meson 构建中的 include 路径错误
- ARROW-2371 - [GLib] 在 GNU Autotools 构建中不需要 gio-2.0
- ARROW-2372 - [Python] 读取 Parquet 文件时出现 ArrowIOError: Invalid argument
- ARROW-2375 - [Rust] Buffer 应该在被 drop 时释放内存
- ARROW-2377 - [GLib] Travis-CI 失败
- ARROW-2380 - [Python] 修复 numpy_to_arrow 转换例程中的问题
- ARROW-2382 - [Rust] List 没有安全地使用内存
was not using memory safely - ARROW-2383 - [C++] Debian 包需要依赖 libprotobuf
- ARROW-2387 - [Python] 负十进制值出现虚假的重新缩放错误
- ARROW-2391 - [Python] 将 Pandas datetime 列映射到 pyarrow.date64 时出现 PyArrow 段错误
- ARROW-2393 - [C++] arrow/status.h 没有定义 ARROW_CHECK,而 ARROW_CHECK_OK 需要它
- ARROW-2403 - [C++] arrow::CpuInfo::model_name_ 在退出时被销毁两次
- ARROW-2405 - [C++]
在 plasma/client.h 中缺失 - ARROW-2418 - [Rust] List builder 由于内存未正确预留而失败
- ARROW-2419 - [Site] 网站生成依赖于本地时区
- ARROW-2420 - [Rust] 内存永远不会被释放
- ARROW-2423 - [Python] PyArrow 数据类型在与非 PyArrow 对象进行相等性检查时引发 ValueError
- ARROW-2424 - [Rust] 缺失的导入导致构建中断
- ARROW-2425 - [Rust] Array::from 缺失 u8 类型的映射
- ARROW-2426 - [CI] glib 构建失败
- ARROW-2432 - [Python] 如果有 None 值,则从 pandas 转换十进制值会失败
- ARROW-2437 - [C++] arrow::ipc::ReadMessage 签名更改破坏了 ABI 兼容性
- ARROW-2441 - [Rust] Builder
::slice_mut 断言过于严格 - ARROW-2443 - [Python] 从 pandas 转换空分类数据时出现 ArrowInvalid 错误
- ARROW-2450 - [Python] 保存到 parquet 时,空列表会失败
- ARROW-2452 - [TEST] Spark 集成测试因权限错误而失败
- ARROW-2454 - [Python] 空分块数组切片崩溃
- ARROW-2455 - [C++] CudaContextImpl 中的 bytes_allocated_ 未初始化
- ARROW-2457 - garrow_array_builder_append_values() 不适用于大型数组
- ARROW-2459 - pyarrow: 使用 pyarrow.deserialize_pandas 时出现段错误
- ARROW-2462 - [C++] 从 Record Batch Stream 写入包含字典列的 parquet 表时出现段错误
- ARROW-2465 - [Plasma] plasma_store 无法找到 libarrow_gpu.so
- ARROW-2466 - [C++] FileOutputStream 中具有误导性的 “append” 标志
- ARROW-2468 - [Rust] Builder::slice_mut 应该接受 mut self
- ARROW-2471 - [Rust] 将值推送到零容量的 Builder/ListBuilder 时出现断言
- ARROW-2473 - [Rust] 零长度列表的列表断言错误
- ARROW-2474 - [Rust] 为内存池抽象添加 Windows 支持
- ARROW-2489 - [Plasma] test_plasma.py 崩溃
- ARROW-2491 - [Python] Array.from_buffers 不适用于 ListArray
- ARROW-2492 - [Python] 防止意外调用 pyarrow.Array 时发生段错误
- ARROW-2500 - [Java] IPC 写入器/读取器并非总是正确设置有效位
- ARROW-2502 - [Rust] 恢复 Windows 兼容性
- ARROW-2503 - [Python] pyarrow.parquet.ParquetFile 的 RowGroup 统计信息中的尾随空格字符
- ARROW-2509 - [CI] 间歇性 npm 失败
- ARROW-2511 - BaseVariableWidthVector.allocateNew 在无法分配内存时不会抛出 OOM
- ARROW-2514 - [Python] 推断/转换嵌套 Numpy 数组非常慢
- ARROW-2515 - ListArray 或其他 DictionaryArray 中的 DictionaryArray 错误
- ARROW-2518 - [Java] 将 Java 单元测试和 javadoc 测试恢复到 CI 矩阵
- ARROW-2530 - [GLib] 外部构建失败
- ARROW-2534 - [C++] libarrow.so 泄漏 zlib 符号
- ARROW-2545 - [Python] Arrow 无法链接到静态编译的 Python
- ARROW-2554 - pa.array 在使用 NS 时间戳时的类型推断错误
- ARROW-2557 - [Rust] 在 README 中添加代码覆盖率徽章
- ARROW-2561 - [C++] 启用覆盖率时 cuda 测试关闭时崩溃
- ARROW-2564 - [C++] Rowwise 教程已过期
- ARROW-2565 - [Plasma] 新订阅者无法接收有关现有对象的通知
- ARROW-2570 - [Python] 添加使用 LZ4 压缩写入 parquet 文件的支持
- ARROW-2571 - [C++] Lz4Codec 不能正确处理空数据
- ARROW-2575 - [Python] 读取 Parquet 数据集时排除隐藏文件
- ARROW-2578 - [Plasma] 与 std::random_device 相关的 Valgrind 错误
- ARROW-2589 - [Python] 使用 Pandas 0.23.0 的 test_parquet.py 回归
- ARROW-2593 - [Python] TypeError: 不理解数据类型“mixed-integer”
- ARROW-2594 - [Java] 向量重新分配不能正确清除重用的缓冲区
- ARROW-2601 - [Python] MemoryPool bytes_allocated 导致段错误
- ARROW-2603 - [Python] 对于日期(时间)子类,from pandas 引发 ArrowInvalid
- ARROW-2615 - [Rust] 重构引入了围绕字符串数组的错误
- ARROW-2629 - [Plasma] pending_notifications_ 的迭代器失效
- ARROW-2630 - [Java] 文档中的错别字
- ARROW-2632 - [Java] ArrowStreamWriter 累积 ArrowBlock 但不使用它们
- ARROW-2640 - JS Writer 应该序列化模式元数据
- ARROW-2643 - [C++] 启用 cpp 工具链时 Travis-CI 构建失败
- ARROW-2644 - [Python] parquet 绑定在 AppVeyor 上构建失败
- ARROW-2655 - [C++] 在 gcc 7.3.0 上使用 -Werror=conversion 失败
- ARROW-2657 - 在 Pyarrow 之后导入 TensorFlow 时出现段错误
- ARROW-2668 - [C++] 在 clang 6.0,Ubuntu 14.04 上使用 dlmalloc.c 时出现 -Wnull-pointer-arithmetic 警告
- ARROW-2669 - [C++] 构建 gbenchmark 时未传递 EP_CXX_FLAGS
- ARROW-2675 - 使用 clang-10 (Apple Clang / LLVM) 构建 Arrow 时出错
- ARROW-2683 - [Python] 使用 pyarrow.parquet.read_table() 时出现资源警告(未关闭的文件)
- ARROW-2690 - [C++] Plasma 没有遵循变量和函数名称的样式约定
- ARROW-2691 - [Rust] Travis 由于格式化差异而失败
- ARROW-2693 - [Python] pa.chunked_array 在空输入时导致段错误
- ARROW-2694 - [Python] ArrayValue 字符串转换返回表示形式而不是转换后的 python 对象字符串
- ARROW-2698 - [Python] 将字符串传递给 Table.column 时出现异常
- ARROW-2711 - [Python/C++] 当列表列的第一个元素为空时,Pandas-Arrow 不会往返
- ARROW-2716 - [Python] 使 manylinux1 基本映像独立于 Python 修补程序版本
- ARROW-2721 - [C++] 在 CentOS 7 上使用 -DARROW_ORC=ON 构建 Arrow C++ 时出现链接错误
- ARROW-2722 - [Python] 当从 pandas to_numeric 向下转换时,ndarray 到 arrow 的转换失败
- ARROW-2723 - [C++] 缺少 arrow-orc.pc
- ARROW-2726 - [C++] 最新的 Boost 版本错误
- ARROW-2727 - [Java] 无法构建 java/adapters 模块
- ARROW-2741 - [Python] 从 np.datetime[D] 创建 pa.array 并且 type=pa.date64 产生无效结果
- ARROW-2744 - [Python] 写入空的列表的 ListArray 到 parquet 文件时崩溃
- ARROW-2745 - [C++] ORC ExternalProject 需要声明对供应商提供的 protobuf 的依赖
- ARROW-2747 - [CI] [Plasma] Travis 上的巨型表测试失败
- ARROW-2754 - [Python] 通过 pip 安装 pyarrow 时,会创建一个调试版本
- ARROW-2770 - [打包] 在 conda 配方中考虑 conda-forge 编译器迁移
- ARROW-2773 - [Python] 更正 parquet 文档 partition_cols 参数名称
- ARROW-2781 - [Python] 在 manylinux1 镜像中使用 curl 下载 boost
- ARROW-2787 - [Python] 通过 cython 将表从 python 传递到 c++ 时的内存问题
- ARROW-2795 - [Python] 仅在 Linux 上运行 TensorFlow 导入解决方法
- ARROW-2806 - [Python] 对 np.nan 的处理不一致
- ARROW-2810 - [Plasma] Plasma 公共头文件泄漏 flatbuffers.h
- ARROW-2812 - [Ruby] StructArray#[] 引发 NoMethodError
- ARROW-2820 - [Python] RecordBatch.from_arrays 不会验证数组长度是否相等
- ARROW-2823 - [C++] 在以下位置搜索 flatbuffers:
/lib64 - ARROW-2841 - [Go] 修复 Travis CI 中最近的 Go 构建失败
- ARROW-2850 - [C++/Python] manylinux1 构建中缺少 PARQUET_RPATH_ORIGIN=ON
- ARROW-2851 - [C++] 更新新安装文件名的 RAT 排除项
- ARROW-2852 - [Rust] 将 Array 标记为 Sync 和 Send
- ARROW-2862 - [C++] 确保在 thirdparty/download_thirdparty.sh 中创建了第三方下载目录
- ARROW-2867 - [Python] Cython 用法的示例不正确
- ARROW-2871 - [Python] Array.to_numpy 对于布尔数组无效
- ARROW-2872 - [Python] 添加 pytest 标记以选择加入与 TensorFlow 相关的单元测试
- ARROW-2876 - [打包] 如果您使用 SSH 克隆,Crossbow 构建可能会挂起
- ARROW-2877 - [打包] crossbow 提交导致重复的 Travis CI 构建
- ARROW-2878 - [打包] README.md 没有提到在用户的 crossbow 仓库设置中设置 GitHub API 令牌
- ARROW-2883 - [Plasma] 编译警告
- ARROW-2891 - 在 write_to_dataset 中保留 schema
- ARROW-2894 - [Glib] 由于最近的重构,格式测试已损坏
- ARROW-2895 - [Ruby] 当 C++ 代码更改时,CI 没有运行
- ARROW-2896 - [GLib] 缺少导出
- ARROW-2901 - [Java] 构建在 Java9 上失败
- ARROW-2902 - [Python] HDFS Docker 集成测试遗留了由 root 创建的文件
- ARROW-2911 - [Python] 以 “\0” 结尾的 Parquet 二进制统计信息会截断最后一个字节
- ARROW-2917 - [Python] 需要梯度的张量不能使用 pyarrow.serialize 进行序列化
- ARROW-2920 - [Python] 使用 pytorch 0.4 时出现段错误
- ARROW-2926 - [Python] 在传递的 schema 和表 schema 不匹配的示例中,ParquetWriter 出现段错误
- ARROW-2930 - [C++] 尝试在不存在的 CMake 目标上设置目标属性
- ARROW-2940 - [Python] 使用 pytorch 0.3 时出现导入错误
- ARROW-2945 - [打包] 更新 02-source.sh 的参数检查
- ARROW-2955 - [Python] pyarrow 的 HDFS API 结果中的错别字
- ARROW-2963 - [Python] 在 fork-join 和 use_threads=True 期间出现死锁
- ARROW-2978 - [Rust] Travis CI 构建失败
- ARROW-2982 - “--show-progress” 选项仅在 wget 1.16 及更高版本中受支持
- ARROW-640 - [Python] Arrow 标量值应该具有合理的 __hash__ 和比较