Apache Arrow 0.10.0 (2018 年 8 月 6 日)
这是一个主要版本。
下载
贡献者
$ git shortlog -sn apache-arrow-0.9.0..apache-arrow-0.10.0
70 Antoine Pitrou
49 Kouhei Sutou
40 Korn, Uwe
37 Wes McKinney
32 Krisztián Szűcs
30 Andy Grove
20 Philipp Moritz
13 Phillip Cloud
11 Bryan Cutler
11 yosuke shiro
7 Dimitri Vorona
6 Zhijun Fu
5 Bruce Mitchener
5 Joshua Storck
5 Robert Nishihara
5 ptaylor
4 Maximilian Roos
4 Sebastien Binet
3 Alex
3 Brian Hulette
3 Chao Sun
3 Dominik Moritz
3 Kenji Okimoto
3 Marco Neumann
3 Yuhong Guo
2 Abhi
2 Dhruv Madeka
2 Dmitry Kalinkin
2 Donal Simmie
2 Frank Wessels
2 Julius Neuffer
2 Manabu Ejima
2 Omer Katz
2 Paddy
2 Paddy Horan
2 Robert Gruener
2 Teddy Choi
2 Vanco Buca
2 Venki Korukanti
2 bomeng
2 fjetter
2 liurenjie1024
2 songqing
1 284km
1 Adrian Dorr
1 Albert Shieh
1 Alessandro Andrioni
1 Alok Singh
1 Aneesh Karve
1 Atul Dambalkar
1 Ben Wolfson
1 Brent Kerby
1 Daniel Chalef
1 Daniel Compton
1 Florian Rathgeber
1 Gatis Seja
1 HE, Tao
1 James Lamb
1 Jeff Zhang
1 Juan Paulo Gutierrez
1 Kane
1 Kee Chong Tan
1 Kelsey Jordahl
1 Kendall Willets
1 Li Jin
1 Licht-T
1 Lizhou Gao
1 Louis Potok
1 Markus Klein
1 Matt Topol
1 Matthew Topol
1 Michael Sarahan
1 Paul Taylor
1 Peter Schafhalter
1 Philipp Hoch
1 Renato Marroquin
1 Richard Gowers
1 Robbie Gruener
补丁提交者
以下 Apache 提交者贡献了补丁到存储库。
$ git shortlog -csn apache-arrow-0.9.0..apache-arrow-0.10.0
120 Wes McKinney
119 Korn, Uwe
63 Antoine Pitrou
50 Uwe L. Korn
28 Kouhei Sutou
27 Philipp Moritz
15 Bryan Cutler
15 Phillip Cloud
8 Robert Nishihara
6 Sidd
4 Brian Hulette
2 GitHub
1 Your Name Here
1 ptaylor
变更日志
新特性和改进
- ARROW-1018 - [C++] 添加选项以从 OS 文件描述符创建 FileOutputStream, ReadableFile
- ARROW-1163 - [Plasma][Java] Java Plasma 客户端
- ARROW-1388 - [Python] 添加 Table.drop 方法以删除列
- ARROW-1454 - [Python] 尝试将不支持的 Arrow 类型写入 Parquet 格式时,提供更具信息性的错误消息
- ARROW-1715 - [Python] 实现 Column、ChunkedArray、RecordBatch、Table 的序列化
- ARROW-1722 - [C++] 添加 linting 脚本以查找 C++/CLI 问题
- ARROW-1731 - [Python] 提供用于在 RecordBatch/Table.from_pandas 中选择要转换的列子集
- ARROW-1744 - [Plasma] 提供 TensorFlow 运算符以从 plasma 读取张量
- ARROW-1780 - [Java] Apache Arrow 的 JDBC 适配器
- ARROW-1858 - [Python] 添加关于 parquet.write_to_dataset 和相关方法的文档
- ARROW-1868 - [Java] 更改 vector getMinorType 以使用 MinorType 而不是 Types.MinorType
- ARROW-1886 - [Python] 添加函数以“扁平化”表中的结构体
- ARROW-1913 - [Java] 修复 JDK8 的 Javadoc 生成错误
- ARROW-1928 - [C++] 添加基准测试,比较 internal::BitmapReader/Writer 与原生方法的性能
- ARROW-1954 - [Python] 添加元数据访问器到 pyarrow.Field
- ARROW-1964 - [Python] 暴露 Builder 类
- ARROW-2014 - [Python] 记录 pyarrow.parquet 中的 read_pandas 方法
- ARROW-2055 - [Java] 升级到 Java 8
- ARROW-2060 - [Python] 使用 from_arrays 或字典序列创建 StructArray 的文档
- ARROW-2061 - [C++] 在 Travis CI 中运行 ASAN 构建
- ARROW-2074 - [Python] 允许对结构数组进行类型推断
- ARROW-2097 - [Python] 在 Travis CI 构建中,当没有错误时,抑制 valgrind stdout/stderr
- ARROW-2100 - [Python] 停止支持 Python 3.4
- ARROW-2140 - [Python] 未实现从 Numpy float16 数组转换
- ARROW-2141 - [Python] 未实现从 Numpy 对象数组到 varsize binary 转换
- ARROW-2147 - [Python] 类型推断不适用于 Numpy 数组列表
- ARROW-2207 - [GLib] 支持 decimal 类型
- ARROW-2222 - [C++] 添加选项以验证 Flatbuffers 消息
- ARROW-2224 - [C++] 去除 boost regex 的使用
- ARROW-2241 - [Python] 用于在提交或标签处运行所有当前 ASV 基准测试的简单脚本
- ARROW-2264 - [Python] 高效地序列化具有 Unicode 定长字符串 dtype 的 numpy 数组
- ARROW-2267 - Rust 绑定
- ARROW-2276 - [Python] Tensor 可以实现 buffer 协议
- ARROW-2281 - [Python] 暴露 MakeArray 以从缓冲区构造数组
- ARROW-2285 - [Python] 无法转换 Numpy 字符串数组
- ARROW-2286 - [Python] 允许下标 pyarrow.lib.StructValue
- ARROW-2287 - [Python] chunked array 不可迭代,不可索引
- ARROW-2299 - [Go] Go 语言实现
- ARROW-2301 - [Python] 将源分发发布说明添加到包/发布管理文档
- ARROW-2302 - [GLib] 在同一个 Travis CI 构建条目中运行 autotools 和 meson Linux 构建
- ARROW-2308 - 序列化的 tensor 数据应该是 64 字节对齐的。
- ARROW-2315 - [C++/Python] 添加方法来扁平化结构数组
- ARROW-2319 - [C++] 添加实现 OutputStream 接口的缓冲输出类
- ARROW-2322 - 记录运行 dev/release/01-perform.sh 的要求
- ARROW-2325 - [Python] 更新 setup.py 以使用 Markdown 项目描述
- ARROW-2330 - [C++] 使用部分可完成的数组构建器优化 delta 缓冲区创建
- ARROW-2332 - [Python] 提供 API 用于读取多个 Feather 文件
- ARROW-2334 - [C++] 将 boost 更新到 1.66.0
- ARROW-2335 - [Go] 将 Go README 向上移动一个目录
- ARROW-2340 - [网站] 添加关于 Go 代码库捐赠的博客文章
- ARROW-2341 - [Python] pa.union() 模式参数不直观
- ARROW-2343 - [Java/打包] 在 API 文档构建中运行 mvn clean
- ARROW-2344 - [Go] 在 Travis CI 中运行 Go 单元测试
- ARROW-2345 - [文档] 修复 bundle exec 并将 sphinx nosidebar 设置为 True
- ARROW-2348 - [GLib] 删除 Go 示例
- ARROW-2350 - 缩小 spark_integration Docker 容器的大小
- ARROW-2353 - 在 AppVeyor 上测试构建的 wheel 的正确性
- ARROW-2361 - [Rust] 启动原生 Rust 实现
- ARROW-2364 - [Plasma] PlasmaClient::Get() 可以接受对象 ID 向量
- ARROW-2376 - [Rust] Travis 应该为 Rust 库运行测试
- ARROW-2378 - [Rust] 使用 rustfmt 格式化源代码
- ARROW-2381 - [Rust] Buffer
应该有一个迭代器 - ARROW-2384 - Rust:使用 Traits 而不是直接定义方法
- ARROW-2385 - [Rust] 为 Field 和 DataType 实现 to_json()
- ARROW-2388 - [C++] Arrow::StringBuilder::Append() 使用 null_bytes 而不是 valid_bytes
- ARROW-2389 - [C++] 添加 StatusCode::OverflowError
- ARROW-2390 - [C++/Python] CheckPyError() 可以检查异常类型
- ARROW-2395 - [Python] 纠正 pyarrow/ 目录之外的 flake8 错误
- ARROW-2396 - 统一 Rust 错误
- ARROW-2397 - 记录 IPC.md 中 Tensor 编码的变化。
- ARROW-2398 - [Rust] 为类型安全的 Buffer 提供零拷贝构建器
- ARROW-2400 - [C++] Status 析构函数开销很大
- ARROW-2401 - 支持对 Hive 分区 Parquet 文件进行过滤
- ARROW-2402 - [C++] FixedSizeBinaryBuilder::Append 缺少 “const char*” 重载
- ARROW-2404 - 修复 ‘type_id’ 的声明隐藏 msvc 构建中的类成员警告
- ARROW-2407 - [GLib] 添加 garrow_string_array_builder_append_values()
- ARROW-2408 - [Rust] 应该可以从 Builder 获取 &mut[T]
- ARROW-2411 - [C++] 添加方法以将批量以 null 结尾的字符串附加到 StringBuilder
- ARROW-2413 - [Rust] 移除无用的 `format!` 的使用
- ARROW-2414 - [文档] 修复各种文档拼写错误
- ARROW-2415 - [Rust] 修复在模式匹配中使用引用
- ARROW-2416 - [C++] 支持系统 libprotobuf
- ARROW-2417 - [Rust] 审查 API 的安全性
- ARROW-2422 - [Python] 在 Hive 分区 Parquet 文件上支持更多过滤器运算符
- ARROW-2427 - [C++] ReadAt 实现次优
- ARROW-2430 - 基于分支的打包自动化的 MVP
- ARROW-2433 - [Rust] 添加 Builder.push_slice(&[T])
- ARROW-2434 - [Rust] 添加 Windows 支持
- ARROW-2435 - [Rust] 添加内存池抽象。
- ARROW-2436 - [Rust] 添加 Windows CI
- ARROW-2440 - [Rust] 实现 ListBuilder
- ARROW-2442 - [C++] 消除 Builder::Append 重载的歧义
- ARROW-2445 - [Rust] 添加文档并使一些字段私有
- ARROW-2448 - 当 plasma 客户端在 buffer 之前超出范围时发生段错误。
- ARROW-2451 - 在自定义 numpy 数组序列化器中高效处理更多的数据类型。
- ARROW-2453 - [Python] 改进 Table 列访问
- ARROW-2458 - [Plasma] PlasmaClient 使用全局变量
- ARROW-2463 - [C++] 将 flatbuffers 更新到 1.9.0
- ARROW-2464 - [Python] 使用 python_version 标记而不是条件
- ARROW-2469 - 使 out 参数在 ReadMessage API 中最后出现。
- ARROW-2470 - [C++] FileGetSize() 不应该 seek
- ARROW-2472 - [Rust] Schema 和 Fields 类型不应具有公共属性
- ARROW-2477 - [Rust] 在 CI 中设置代码覆盖率
- ARROW-2478 - [C++] 引入 checked_cast 函数,该函数在调试模式下执行 dynamic_cast
- ARROW-2479 - [C++] 拥有一个全局线程池
- ARROW-2480 - [C++] 允许将 decimal 的值强制转换为 int32_t 或 int64_t
- ARROW-2481 - [Rust] 将对 free() 的调用移动到 memory.rs 中
- ARROW-2482 - [Rust] 支持嵌套类型
- ARROW-2484 - [C++] 记录 ABI 兼容性检查
- ARROW-2485 - [C++] 当 run_clang_format.py 报告更改时输出 diff
- ARROW-2486 - [C++/Python] 提供一个包含所有开发依赖项的 Docker 镜像
- ARROW-2488 - [C++] 将 Boost 1.67 列为受支持的版本
- ARROW-2493 - [Python] 添加对 buffers 和 arrays 进行 pickling 的支持
- ARROW-2494 - 从 PlasmaClient::Seal 返回状态码
- ARROW-2498 - [Java] 升级到 JDK 1.8
- ARROW-2499 - [C++] 为 Python 序列添加迭代器工具
- ARROW-2505 - [C++] 禁用 MSVC 警告 C4800
- ARROW-2506 - [Plasma] macOS 上的构建错误
- ARROW-2507 - [Rust] 在不需要时不要接受引用
- ARROW-2508 - [Python] pytest API 更改导致测试失败
- ARROW-2513 - [Python] DictionaryType 应该能够访问索引类型和字典数组
- ARROW-2516 - AppVeyor 构建矩阵应该特定于 PR 中所做的更改
- ARROW-2521 - [Rust] 重构 Rust API 以使用 traits 和 generics
- ARROW-2522 - [C++] 版本共享库文件
- ARROW-2525 - [GLib] 添加 garrow_struct_array_flatten()
- ARROW-2526 - [GLib] 更新 .gitignore
- ARROW-2527 - [GLib] 启用 GPU 文档
- ARROW-2529 - [C++] 在文档中将 clang-format 的提及更新为 5.0
- ARROW-2531 - [C++] 将 clang bits 更新到 6.0
- ARROW-2533 - [CI] 快速完成失败的 AppVeyor 构建
- ARROW-2536 - [Rust] ListBuilder 为 offset builder 使用了错误的初始大小
- ARROW-2537 - [Ruby] 导入
- ARROW-2539 - [Plasma] 使用 unique_ptr 而不是原始指针
- ARROW-2540 - [Plasma] 添加构造函数/析构函数以确保自动调用 dlfree
- ARROW-2541 - [Plasma] 清理宏用法
- ARROW-2543 - [Rust] CI 应该缓存依赖项以加快构建速度
- ARROW-2544 - [CI] 在 Travis-CI 上使用两个作业运行 C++ 测试
- ARROW-2547 - [Format] 修复 List<List 中的偏差
> 示例 - ARROW-2548 - [Format] 澄清 `List
\` Array 示例 - ARROW-2549 - [GLib] 将 arrow::StatusCodes 更改应用于 GArrowError
- ARROW-2550 - [C++] 将缺失的状态代码添加到 arrow::StatusCode::CodeAsString() 中
- ARROW-2551 - [Plasma] 改进通知逻辑
- ARROW-2553 - [Python] 在 wheel 构建中设置 MACOSX_DEPLOYMENT_TARGET
- ARROW-2558 - [Plasma] 避免在客户端断开连接时遍历所有对象
- ARROW-2562 - [C++] 将覆盖率数据上传到 codecov.io
- ARROW-2563 - [Rust] Travis-CI 中的缓存不良
- ARROW-2566 - [CI] 将 codecov.io 徽章添加到 README
- ARROW-2567 - [C++/Python] 在 TimestampArrays 的比较中忽略了 Unit
- ARROW-2568 - [Python] 将线程池大小设置公开给 Python,并弃用“nthreads”
- ARROW-2569 - [C++] 改进线程池大小启发式
- ARROW-2574 - [CI] 收集和发布 Python 覆盖率
- ARROW-2576 - [GLib] 为 Decimal128 添加 abs 函数。
- ARROW-2577 - [Plasma] 添加 ASV 基准测试
- ARROW-2580 - [GLib] 修复 Decimal128 的 abs 函数
- ARROW-2582 - [GLib] 为 Decimal128 添加 negate 函数
- ARROW-2585 - [C++] 添加 Decimal128::FromBigEndian
- ARROW-2586 - [C++] 将 ListBuilder 和 StructBuilder 的子 builders 设置为 shared_ptr
- ARROW-2595 - [Plasma] operator[] 在 map 中创建条目
- ARROW-2596 - [GLib] 使用 GTK-Doc 的默认值
- ARROW-2597 - [Plasma] 删除 UniqueIDHasher
- ARROW-2604 - [Java] 为 VarCharVector.set(int,String) 添加方法重载
- ARROW-2608 - [Java/Python] 添加 pyarrow.{Array,Field}.from_jvm / jvm_buffer
- ARROW-2611 - [Python] Python 2 整数序列化
- ARROW-2612 - [Plasma] 修复已弃用的 PLASMA_DEFAULT_RELEASE_DELAY
- ARROW-2613 - [Docs] 更新 gen_apidocs docker 脚本
- ARROW-2614 - [CI] 在 Travis 中删除 ‘group: deprecated’
- ARROW-2626 - [Python] pandas ArrowInvalid 消息应包含失败的列名
- ARROW-2634 - [Go] 为 Go 子项目添加 LICENSE 添加内容
- ARROW-2635 - [Ruby] LICENSE.txt 不适用
- ARROW-2636 - [Ruby] 缺少“非官方”软件包说明
- ARROW-2638 - [Python] 阻止直接调用扩展类构造函数
- ARROW-2639 - [Python] 删除不必要的 _check_nullptr 方法
- ARROW-2641 - [C++] 调查虚假的 memset() 调用
- ARROW-2645 - [Java] ArrowStreamWriter 累积 DictionaryBatch ArrowBlocks
- ARROW-2649 - [C++] 添加类似于 std::generate() 的函数以更快地写入位图
- ARROW-2656 - [Python] 改进 ParquetManifest 创建时间
- ARROW-2660 - [Python] 尝试零拷贝 pickling
- ARROW-2661 - [Python/C++] 允许通过 map/dict 传递 HDFS Config 值,而无需 hdfs-site.xml 文件
- ARROW-2662 - [Python] 将 to_pandas / to_numpy 添加到 ChunkedArray
- ARROW-2663 - [Python] 使 dictionary_encode 和 unique 在 Column / ChunkedArray 上可访问
- ARROW-2664 - [Python] 在 Buffer 上实现 __getitem__ / slicing
- ARROW-2666 - [Python] numpy.asarray 应该在 Array/ChunkedArray 上触发 to_pandas
- ARROW-2672 - [Python] 在 manylinux1 wheels 中构建 ORC 扩展
- ARROW-2674 - [Packaging] 开始构建夜间版本
- ARROW-2676 - [Packaging] 将构建工件部署到 github releases
- ARROW-2677 - [Python] 公开 Parquet ZSTD 压缩
- ARROW-2678 - [GLib] 向 macOS 上的常见构建问题添加额外信息
- ARROW-2680 - [Python] 添加有关 Table.from_pandas 中类型推断的文档
- ARROW-2682 - [CI] 在 Slack 中通知有关损坏的构建
- ARROW-2689 - [Python] 从文档中删除对 timestamps_to_ms 参数的引用
- ARROW-2692 - [Python] 添加用于将字典编码的列写入分块 Parquet 文件的测试
- ARROW-2695 - [Python] 阻止直接调用标量构造函数
- ARROW-2696 - [JAVA] 使用 onFailedAllocation() 调用增强 AllocationListener
- ARROW-2699 - [C++/Python] 添加 Table 方法,该方法用新提供的列替换列
- ARROW-2700 - [Python] 将简单示例添加到 Array.cast 文档字符串
- ARROW-2701 - [C++] 使 MemoryMappedFile 可调整大小
- ARROW-2704 - [Java] IPC 流处理应该对低级别处理更加友好
- ARROW-2713 - [Packaging] 修复 linux 软件包构建
- ARROW-2717 - [Packaging] 使用目标架构后缀 conda 工件
- ARROW-2718 - [Packaging] GPG 签署下载的工件
- ARROW-2724 - [Packaging] 确定是否上传了所有预期的工件
- ARROW-2725 - [JAVA] 使 Accountant.AllocationOutcome 公开可见
- ARROW-2729 - [GLib] 添加 decimal128 数组构建器
- ARROW-2731 - 允许使用外部 ORC 库
- ARROW-2732 - 更新 macOS 的 brew 软件包
- ARROW-2733 - [GLib] 将 garrow_decimal128 转换为 gint64
- ARROW-2738 - [GLib] 在安装过程中使用 Brewfile
- ARROW-2739 - [GLib] 为 GArrowDecimalDataType 和 GArrowDecimal128ArrayBuilder 使用 G_DECLARE_DERIVABLE_TYPE
- ARROW-2740 - [Python] 向 Buffer 添加 address 属性
- ARROW-2742 - [Python] 允许 Table.from_batches 使用 ArrowRecordBatches 的迭代器
- ARROW-2748 - [GLib] 添加 garrow_decimal_data_type_get_scale() (和 _precision())
- ARROW-2749 - [GLib] 将 *garrow_decimal128_array_get_value 重命名为 *garrow_decimal128_array_format_value
- ARROW-2751 - [GLib] 添加 garrow_table_replace_column()
- ARROW-2752 - [GLib] 文档化 garrow_decimal_data_type_new()
- ARROW-2753 - [GLib] 添加 garrow_schema_*_field()
- ARROW-2755 - [Python] 允许使用 Ninja 构建扩展
- ARROW-2756 - [Python] 移除 parquet 测试中冗余的导入和小的修复
- ARROW-2758 - [Plasma] 在 Plasma 中使用 Scope 枚举
- ARROW-2760 - [Python] 从 parquet 模块中移除遗留的属性定义语法并测试它们
- ARROW-2761 - 支持对 Hive 分区 Parquet 文件设置过滤器运算符
- ARROW-2763 - [Python] 使 parquet _metadata 文件可以从 ParquetDataset 访问
- ARROW-2780 - [Go] 运行代码覆盖率分析
- ARROW-2784 - [C++] MemoryMappedFile::WriteAt 允许写入超出末尾
- ARROW-2790 - [C++] 缓冲区包含未初始化的内存
- ARROW-2791 - [Packaging] 构建 Ubuntu 18.04 软件包
- ARROW-2792 - [Packaging] 考虑上传 tarballs 以避免命名冲突
- ARROW-2794 - [Plasma] 添加用于删除多个对象的 Delete 方法
- ARROW-2798 - [Plasma] 使用考虑所有 UniqueID 字节的哈希函数
- ARROW-2802 - [Docs] 将发布管理指南移动到项目 Wiki
- ARROW-2804 - [Website] 从首页链接到开发者 Wiki (Confluence)
- ARROW-2805 - [Python] 如果未安装 CUDA,则 TensorFlow 导入解决方法不适用于 tensorflow-gpu
- ARROW-2809 - [C++] 降低 Travis CI 中 lint 检查的详细程度
- ARROW-2811 - [Python] 测试序列化的确定性
- ARROW-2815 - [CI] 在 C++ CI 条目中构建 Java 库时,禁止 DEBUG 日志记录
- ARROW-2816 - [Python] 向 NativeFile 添加 __iter__ 方法
- ARROW-2821 - [C++] 仅在一个地方对 BooleanBuilder 中的内存进行零填充
- ARROW-2822 - [C++] 在 PoolBuffer::Resize 中填充零字节
- ARROW-2824 - [GLib] 添加 garrow_decimal128_array_get_value()
- ARROW-2825 - [C++] 需要具有默认内存池的 AllocateBuffer / AllocateResizableBuffer 变体
- ARROW-2826 - [C++] 需要澄清 ArrayBuilder::Init()、Resize() 和 Reserve() 之间的区别
- ARROW-2827 - [C++] LZ4 和 Zstd 构建可能会在并行构建中失败
- ARROW-2829 - [GLib] 添加 GArrowORCFileReader
- ARROW-2830 - [Packaging] 再次为 deb 软件包构建启用并行构建
- ARROW-2833 - [Python] Column.__repr__ 将会锁定具有大数据集的 Jupyter
- ARROW-2834 - [GLib] 从 Meson 选项中删除“enable_”前缀
- ARROW-2836 - [Packaging] 将构建矩阵扩展到多个任务
- ARROW-2837 - [C++] ArrayBuilder::null_bitmap 返回 PoolBuffer
- ARROW-2838 - [Python] 使用 Pandas 语义加速空值测试
- ARROW-2844 - [Packaging] 在构建后测试 OSX wheels
- ARROW-2845 - [Packaging] 上传额外的 debian 工件
- ARROW-2846 - [Packaging] 更新 crossbow 中的 nightly build 以及示例配置
- ARROW-2847 - [Packaging] 修复 conda forge 软件包的工件名称匹配
- ARROW-2848 - [Packaging] lib*.deb 软件包名称与版本不匹配
- ARROW-2849 - [Ruby] Arrow::Table#load 支持 ORC
- ARROW-2855 - [C++] 概述使用 jemalloc 益处的博客文章
- ARROW-2859 - [Python] 在 open_stream、open_file 和 RecordBatch*Reader API 中处理导出缓冲区协议的对象
- ARROW-2861 - [Python] 添加关于使用 Parquet 存储无索引 pandas 数据的额外提示
- ARROW-2864 - [Plasma] 添加删除缓存以便稍后删除对象
- ARROW-2868 - [Packaging] 修复 centos-7 构建
- ARROW-2869 - [Python] 为 Array.to_numpy 添加文档
- ARROW-2875 - [Packaging] 不要在 linux 构建中尝试下载 arrow 存档
- ARROW-2881 - [Website] 向网站添加社区标签
- ARROW-2884 - [Packaging] 从 apache 源代码存档构建软件包的选项
- ARROW-2886 - [Release] 存在未使用的变量
- ARROW-2890 - [Plasma] 使 Python PlasmaClient.release 私有
- ARROW-2893 - [C++] 从公共 API 中删除 PoolBuffer 类,并在工厂函数后面隐藏实现细节
- ARROW-2897 - 组织支持的 Ubuntu 版本
- ARROW-2898 - [Packaging] Setuptools_scm 刚刚发布了一个新版本,该版本无法解析 `apache-arrow-
\` tag - ARROW-2906 - [Website] 删除指向 slack 频道的链接
- ARROW-2907 - [GitHub] 改进 “How to contribute patches”(如何贡献补丁)
- ARROW-2908 - [Rust] 将版本更新到 0.10.0
- ARROW-2914 - [Integration] 向 Spark Integration 添加 WindowPandasUDFTests
- ARROW-2915 - [Packaging] 从 ubuntu-trusty 构建中删除工件
- ARROW-2918 - [C++] 改进 Struct 漂亮打印的格式
- ARROW-2921 - [Release] 更新准备中的 .deb/.rpm changelogs
- ARROW-2922 - [Release] 使 python 命令名称可定制
- ARROW-2923 - [Doc] 添加运行 Spark 集成测试的说明
- ARROW-2924 - [Java] 安装了较旧的 maven javadoc 插件时,mvn release 失败
- ARROW-2927 - [Packaging] AppVeyor wheel 任务在初始签出时失败
- ARROW-2928 - [Packaging] AppVeyor crossbow conda 构建正在拾取 boost 1.63.0 而不是已安装的版本
- ARROW-2929 - [C++] ARROW-2826 破坏了 parquet-cpp 1.4.0 构建
- ARROW-2934 - [Packaging] 向 sign 子命令添加校验和创建
- ARROW-2935 - [Packaging] 向 verify-release-candidate.sh 添加 verify_binary_artifacts 函数
- ARROW-2937 - [Java] ARROW-2704 的后续更改
- ARROW-2943 - [C++] 实现 BufferedOutputStream::Flush
- ARROW-2944 - [Format] Arrow 列式格式文档提到了 VectorLayout,该文档已不存在
- ARROW-2946 - [Packaging] 停止在 debian/rules 中使用 PWD
- ARROW-2947 - [Packaging] 移除 Ubuntu Artful
- ARROW-2949 - [CI] repo.continuum.io 在构建中可能不稳定
- ARROW-2951 - [CI] format/ 中的更改应导致 Appveyor 构建运行
- ARROW-2953 - [Plasma] 存储内存使用情况
- ARROW-2954 - [Plasma] 仅在对象表中存储 object_id 一次
- ARROW-2962 - [Packaging] 不再需要 Bintray 描述符文件
- ARROW-2977 - [Packaging] 发布验证脚本也应该检查 rust
- ARROW-2985 - [Ruby] 在 verify-release-candidate.sh 中运行单元测试
- ARROW-2988 - [Release] Windows 上更自动化的发布验证
- ARROW-2990 - [GLib] 无法在 macOS 上使用 rpath-ed Arrow C++ 构建
- ARROW-530 - C++/Python:提供子池以更好地跟踪内存分配
- ARROW-564 - [Python] 添加方法以返回普通的 NumPy 数组(如果有空值,则添加布尔掩码数组)
- ARROW-889 - [C++] 为 ChunkedArray 实现 arrow::PrettyPrint
- ARROW-902 - [C++] 从本地 tarballs 构建 C++ 项目,包括第三方依赖项
- ARROW-906 - [C++] 将 Field 元数据序列化为 IPC 元数据
错误修复
- ARROW-2059 - [Python] Feather 读取/写入路径中可能存在性能回归
- ARROW-2101 - [Python] 使用 Python 2 时,from_pandas 将“str”类型读取为二进制 Arrow 数据
- ARROW-2122 - [Python] Pyarrow 无法序列化具有时间戳的数据帧。
- ARROW-2182 - [Python] ASV 基准设置未考虑 C++ 库的更改
- ARROW-2193 - [Plasma] 当 ARROW_BOOST_USE_SHARED=on 时,plasma_store 具有对 Boost 共享库的运行时依赖性
- ARROW-2195 - [Plasma] 从 plasma store 检索 RecordBatch 时出现段错误
- ARROW-2247 - [Python] 在 libarrow 和 libparquet 中静态链接 boost_regex 导致段错误
- ARROW-2273 - 无法反序列化 pandas SparseDataFrame
- ARROW-2300 - [Python] python/testing/test_hdfs.sh 不再有效
- ARROW-2305 - [Python] Cython 0.25.2 编译失败
- ARROW-2314 - [Python] Union 数组切片有缺陷
- ARROW-2326 - [Python] 无法在 OS X (10.9) 上导入 pip 安装的 pyarrow
- ARROW-2328 - 使用 feather 写入切片会忽略偏移量
- ARROW-2331 - [Python] 修复索引实现
- ARROW-2333 - [Python] boost 打包在 setup.py 中失败
- ARROW-2342 - [Python] Aware 时间戳类型无法 pickle 化
- ARROW-2346 - [Python] PYARROW_CXXFLAGS 不接受多个选项
- ARROW-2349 - [Python] Boost 共享库捆绑对于 MSVC 来说已损坏
- ARROW-2351 - [C++] StringBuilder::append(vector
...) 未实现 - ARROW-2354 - [C++] PyDecimal_Check() 太慢了
- ARROW-2355 - [Python] 无法导入 pyarrow [0.9.0] OSX
- ARROW-2357 - Benchmark PandasObjectIsNull
- ARROW-2368 - DecimalVector#setBigEndian 未正确填充负值
- ARROW-2369 - 通过 PyArrow 写入 Parquet 的大型(>>~20 GB)文件已损坏
- ARROW-2370 - [GLib] include 路径在 Meson 构建上错误
- ARROW-2371 - [GLib] 在 GNU Autotools 构建中不需要 gio-2.0
- ARROW-2372 - [Python] 读取 Parquet 文件时出现 ArrowIOError: 无效参数
- ARROW-2375 - [Rust] Buffer 在被丢弃时应该释放内存
- ARROW-2377 - [GLib] Travis-CI 失败
- ARROW-2380 - [Python] 修正 numpy_to_arrow 转换例程中的问题
- ARROW-2382 - [Rust] List
没有安全地使用内存 - ARROW-2383 - [C++] Debian 包需要依赖 libprotobuf
- ARROW-2387 - [Python] 负十进制值出现虚假的重新缩放错误
- ARROW-2391 - [Python] 当将 Pandas datetime 列映射到 pyarrow.date64 时,PyArrow 发生段错误
- ARROW-2393 - [C++] arrow/status.h 没有定义 ARROW_CHECK,这是 ARROW_CHECK_OK 所需要的
- ARROW-2403 - [C++] arrow::CpuInfo::model_name_ 在退出时被析构两次
- ARROW-2405 - [C++]
在 plasma/client.h 中缺失 - ARROW-2418 - [Rust] List builder 因内存未正确保留而失败
- ARROW-2419 - [Site] 网站生成依赖于本地时区
- ARROW-2420 - [Rust] 内存从未释放
- ARROW-2423 - [Python] PyArrow 数据类型在与非 PyArrow 对象进行相等性检查时引发 ValueError
- ARROW-2424 - [Rust] 缺少导入导致构建中断
- ARROW-2425 - [Rust] Array::from 缺少 u8 类型的映射
- ARROW-2426 - [CI] glib 构建失败
- ARROW-2432 - [Python] 如果有 None 值,从 pandas 转换 decimals 会失败
- ARROW-2437 - [C++] arrow::ipc::ReadMessage 签名更改破坏了 ABI 兼容性
- ARROW-2441 - [Rust] Builder
::slice\_mut 断言过于严格 - ARROW-2443 - [Python] 从 pandas 转换空分类数据失败并出现 ArrowInvalid
- ARROW-2450 - [Python] 保存到 parquet 对于空列表失败
- ARROW-2452 - [TEST] Spark 集成测试失败并出现权限错误
- ARROW-2454 - [Python] 空 chunked array slice 崩溃
- ARROW-2455 - [C++] CudaContextImpl 中的 bytes_allocated_ 未初始化
- ARROW-2457 - garrow_array_builder_append_values() 对于大型数组不起作用
- ARROW-2459 - pyarrow: pyarrow.deserialize_pandas 导致段错误
- ARROW-2462 - [C++] 从 Record Batch Stream 写入包含字典列的 parquet 表时发生段错误
- ARROW-2465 - [Plasma] plasma_store 无法找到 libarrow_gpu.so
- ARROW-2466 - [C++] FileOutputStream 的“append”标志具有误导性
- ARROW-2468 - [Rust] Builder::slice_mut 应该接受 mut self
- ARROW-2471 - [Rust] 当将值推送到容量为零的 Builder/ListBuilder 时,断言失败
- ARROW-2473 - [Rust] 长度为零的列表出现列表断言错误
- ARROW-2474 - [Rust] 添加对 Windows 的内存池抽象支持
- ARROW-2489 - [Plasma] test_plasma.py 崩溃
- ARROW-2491 - [Python] Array.from_buffers 不适用于 ListArray
- ARROW-2492 - [Python] 防止意外调用 pyarrow.Array 时发生段错误
- ARROW-2500 - [Java] IPC Writers/readers 并非总是正确设置 validity 位
- ARROW-2502 - [Rust] 恢复 Windows 兼容性
- ARROW-2503 - [Python] pyarrow.parquet.ParquetFile 的 RowGroup 统计信息中的尾随空格字符
- ARROW-2509 - [CI] 间歇性的 npm 失败
- ARROW-2511 - BaseVariableWidthVector.allocateNew 在无法分配内存时没有抛出 OOM
- ARROW-2514 - [Python] 推断/转换嵌套的 Numpy 数组非常慢
- ARROW-2515 - ListArray 或其他 DictionaryArray 中的 DictionaryArray 出现错误
- ARROW-2518 - [Java] 将 Java 单元测试和 javadoc 测试恢复到 CI 矩阵
- ARROW-2530 - [GLib] 外部构建失败
- ARROW-2534 - [C++] libarrow.so 泄漏 zlib 符号
- ARROW-2545 - [Python] Arrow 无法链接到静态编译的 Python
- ARROW-2554 - pa.array 在使用 NS-timestamp 时出现类型推断 bug
- ARROW-2557 - [Rust] 在 README 中为代码覆盖率添加徽章
- ARROW-2561 - [C++] 启用覆盖率时,cuda-test 在关闭时崩溃
- ARROW-2564 - [C++] Rowwise Tutorial 已经过时
- ARROW-2565 - [Plasma] 新订阅者无法接收有关现有对象的通知
- ARROW-2570 - [Python] 添加对使用 LZ4 压缩写入 parquet 文件的支持
- ARROW-2571 - [C++] Lz4Codec 没有正确处理空数据
- ARROW-2575 - [Python] 读取 Parquet 数据集时排除隐藏文件
- ARROW-2578 - [Plasma] 与 std::random_device 相关的 Valgrind 错误
- ARROW-2589 - [Python] Pandas 0.23.0 导致的 test_parquet.py 回归
- ARROW-2593 - [Python] TypeError: 无法理解数据类型 “mixed-integer”
- ARROW-2594 - [Java] 向量重新分配无法正确清除重用的缓冲区
- ARROW-2601 - [Python] MemoryPool bytes_allocated 导致 seg
- ARROW-2603 - [Python] from pandas 为 date(time) 子类引发 ArrowInvalid
- ARROW-2615 - [Rust] 重构引入了围绕字符串数组的 bug
- ARROW-2629 - [Plasma] pending_notifications_ 的迭代器失效
- ARROW-2630 - [Java] 文档中的拼写错误
- ARROW-2632 - [Java] ArrowStreamWriter 累积 ArrowBlock 但不使用它们
- ARROW-2640 - JS Writer 应该序列化模式元数据
- ARROW-2643 - [C++] 启用 cpp toolchain 后的 Travis-CI 构建失败
- ARROW-2644 - [Python] parquet binding 在 AppVeyor 上构建失败
- ARROW-2655 - [C++] gcc 7.3.0 上使用 -Werror=conversion 时的失败
- ARROW-2657 - 在 Pyarrow 之后导入 TensorFlow 时发生段错误
- ARROW-2668 - [C++] 在 clang 6.0,Ubuntu 14.04 上使用 dlmalloc.c 的 -Wnull-pointer-arithmetic 警告
- ARROW-2669 - [C++] 构建 gbenchmark 时未传递 EP_CXX_FLAGS
- ARROW-2675 - 使用 clang-10 (Apple Clang / LLVM) 时出现 Arrow 构建错误
- ARROW-2683 - [Python] 使用 pyarrow.parquet.read_table() 时的资源警告(未关闭的文件)
- ARROW-2690 - [C++] Plasma 不遵循变量和函数名称的样式约定
- ARROW-2691 - [Rust] Travis 因格式差异而失败
- ARROW-2693 - [Python] pa.chunked_array 在空输入时导致段错误
- ARROW-2694 - [Python] ArrayValue 字符串转换返回表示形式而不是转换后的 python 对象字符串
- ARROW-2698 - [Python] 将字符串传递给 Table.column 时出现异常
- ARROW-2711 - [Python/C++] 当列表列具有空 first element 时,Pandas-Arrow 不进行往返
- ARROW-2716 - [Python] 使 manylinux1 基础镜像独立于 Python 补丁版本
- ARROW-2721 - [C++] 在 CentOS 7 上使用 -DARROW_ORC=ON 进行 Arrow C++ 构建时出现链接错误
- ARROW-2722 - [Python] 当从 pandas to_numeric 向下转换时,ndarray 到 arrow 的转换失败
- ARROW-2723 - [C++] 缺少 arrow-orc.pc
- ARROW-2726 - [C++] 最新的 Boost 版本不正确
- ARROW-2727 - [Java] 无法构建 java/adapters 模块
- ARROW-2741 - [Python] 从 np.datetime[D] 创建 pa.array 且 type=pa.date64 产生无效结果
- ARROW-2744 - [Python] 写入包含空列表的 ListArray 时,写入 parquet 会崩溃
- ARROW-2745 - [C++] ORC ExternalProject 需要声明对 vendored protobuf 的依赖
- ARROW-2747 - [CI] [Plasma] Travis 上的 huge tables 测试失败
- ARROW-2754 - [Python] 通过 pip 安装 pyarrow 时,会创建一个调试版本
- ARROW-2770 - [Packaging] 在 conda recipes 中考虑 conda-forge 编译器迁移
- ARROW-2773 - [Python] 修正了 parquet 文档的 partition_cols 参数名称
- ARROW-2781 - [Python] 在 manylinux1 镜像中使用 curl 下载 boost
- ARROW-2787 - [Python] 内存问题:通过Cython将表从Python传递到C++
- ARROW-2795 - [Python] 仅在Linux上运行TensorFlow导入解决方法
- ARROW-2806 - [Python] 对np.nan处理不一致
- ARROW-2810 - [Plasma] Plasma公共头文件泄露flatbuffers.h
- ARROW-2812 - [Ruby] StructArray#[] 引发 NoMethodError
- ARROW-2820 - [Python] RecordBatch.from_arrays 不验证数组长度是否全部相等
- ARROW-2823 - [C++] 在以下位置搜索flatbuffers
/lib64 - ARROW-2841 - [Go] 修复Travis CI中最近的Go构建失败
- ARROW-2850 - [C++/Python] manylinux1 构建中缺少 PARQUET_RPATH_ORIGIN=ON
- ARROW-2851 - [C++] 更新RAT排除项以用于新的安装文件名
- ARROW-2852 - [Rust] 将 Array 标记为 Sync 和 Send
- ARROW-2862 - [C++] 确保在thirdparty/download_thirdparty.sh中已创建第三方下载目录
- ARROW-2867 - [Python] Cython用法的错误示例
- ARROW-2871 - [Python] Array.to_numpy 对于布尔数组无效
- ARROW-2872 - [Python] 添加pytest标记以选择加入与TensorFlow相关的单元测试
- ARROW-2876 - [Packaging] 如果使用SSH克隆,Crossbow构建可能会挂起
- ARROW-2877 - [Packaging] crossbow 提交导致重复的 Travis CI 构建
- ARROW-2878 - [Packaging] README.md 未提及在用户的 crossbow 仓库设置中设置 GitHub API 令牌
- ARROW-2883 - [Plasma] 编译警告
- ARROW-2891 - 在 write_to_dataset 中保留 schema
- ARROW-2894 - [Glib] 由于最近的重构导致格式测试中断
- ARROW-2895 - [Ruby] 当C++更改时,CI未运行
- ARROW-2896 - [GLib] 导出缺失
- ARROW-2901 - [Java] 构建在 Java9 上失败
- ARROW-2902 - [Python] HDFS Docker 集成测试留下由 root 创建的文件
- ARROW-2911 - [Python] 以‘\0’结尾的Parquet二进制统计信息截断最后一个字节
- ARROW-2917 - [Python] 需要梯度的 Tensor 无法通过 pyarrow.serialize 序列化
- ARROW-2920 - [Python] pytorch 0.4 发生段错误
- ARROW-2926 - [Python] 在传递的 schema 和 table schema 不匹配的示例中,ParquetWriter 发生段错误
- ARROW-2930 - [C++] 尝试在不存在的 CMake 目标上设置目标属性
- ARROW-2940 - [Python] pytorch 0.3 出现导入错误
- ARROW-2945 - [Packaging] 更新 02-source.sh 的参数检查
- ARROW-2955 - [Python] pyarrow 的 HDFS API 结果中的错字
- ARROW-2963 - [Python] fork-join 期间以及 use_threads=True 时出现死锁
- ARROW-2978 - [Rust] Travis CI 构建失败
- ARROW-2982 - “–show-progress” 选项仅在 wget 1.16 及更高版本中受支持
- ARROW-640 - [Python] Arrow 标量值应该有一个合理的 __hash__ 和比较