Apache Arrow 0.10.0 (2018年8月6日)
这是一个主要版本。
下载
贡献者
$ git shortlog -sn apache-arrow-0.9.0..apache-arrow-0.10.0
70 Antoine Pitrou
49 Kouhei Sutou
40 Korn, Uwe
37 Wes McKinney
32 Krisztián Szűcs
30 Andy Grove
20 Philipp Moritz
13 Phillip Cloud
11 Bryan Cutler
11 yosuke shiro
7 Dimitri Vorona
6 Zhijun Fu
5 Bruce Mitchener
5 Joshua Storck
5 Robert Nishihara
5 ptaylor
4 Maximilian Roos
4 Sebastien Binet
3 Alex
3 Brian Hulette
3 Chao Sun
3 Dominik Moritz
3 Kenji Okimoto
3 Marco Neumann
3 Yuhong Guo
2 Abhi
2 Dhruv Madeka
2 Dmitry Kalinkin
2 Donal Simmie
2 Frank Wessels
2 Julius Neuffer
2 Manabu Ejima
2 Omer Katz
2 Paddy
2 Paddy Horan
2 Robert Gruener
2 Teddy Choi
2 Vanco Buca
2 Venki Korukanti
2 bomeng
2 fjetter
2 liurenjie1024
2 songqing
1 284km
1 Adrian Dorr
1 Albert Shieh
1 Alessandro Andrioni
1 Alok Singh
1 Aneesh Karve
1 Atul Dambalkar
1 Ben Wolfson
1 Brent Kerby
1 Daniel Chalef
1 Daniel Compton
1 Florian Rathgeber
1 Gatis Seja
1 HE, Tao
1 James Lamb
1 Jeff Zhang
1 Juan Paulo Gutierrez
1 Kane
1 Kee Chong Tan
1 Kelsey Jordahl
1 Kendall Willets
1 Li Jin
1 Licht-T
1 Lizhou Gao
1 Louis Potok
1 Markus Klein
1 Matt Topol
1 Matthew Topol
1 Michael Sarahan
1 Paul Taylor
1 Peter Schafhalter
1 Philipp Hoch
1 Renato Marroquin
1 Richard Gowers
1 Robbie Gruener
补丁提交者
以下 Apache 提交者为代码库贡献了补丁。
$ git shortlog -csn apache-arrow-0.9.0..apache-arrow-0.10.0
120 Wes McKinney
119 Korn, Uwe
63 Antoine Pitrou
50 Uwe L. Korn
28 Kouhei Sutou
27 Philipp Moritz
15 Bryan Cutler
15 Phillip Cloud
8 Robert Nishihara
6 Sidd
4 Brian Hulette
2 GitHub
1 Your Name Here
1 ptaylor
更新日志
新功能和改进
- ARROW-1018 - [C++] 添加从操作系统文件描述符创建 FileOutputStream、ReadableFile 的选项
- ARROW-1163 - [Plasma][Java] Plasma 的 Java 客户端
- ARROW-1388 - [Python] 添加 Table.drop 方法用于移除列
- ARROW-1454 - [Python] 尝试将不支持的 Arrow 类型写入 Parquet 格式时,提供更具信息量的错误消息
- ARROW-1715 - [Python] 为 Column、ChunkedArray、RecordBatch、Table 实现 pickle
- ARROW-1722 - [C++] 添加用于检查 C++/CLI 问题的 linting 脚本
- ARROW-1731 - [Python] 在 RecordBatch/Table.from_pandas 中提供选择要转换的列子集的功能
- ARROW-1744 - [Plasma] 提供 TensorFlow 算子以从 plasma 读取张量
- ARROW-1780 - [Java] Apache Arrow 的 JDBC 适配器
- ARROW-1858 - [Python] 添加关于 parquet.write_to_dataset 和相关方法的文档
- ARROW-1868 - [Java] 将 vector getMinorType 更改为使用 MinorType 而不是 Types.MinorType
- ARROW-1886 - [Python] 添加函数以“扁平化”表内的结构体
- ARROW-1913 - [Java] 修复 JDK8 的 Javadoc 生成错误
- ARROW-1928 - [C++] 添加基准测试,比较 internal::BitmapReader/Writer 与朴素方法的性能
- ARROW-1954 - [Python] 向 pyarrow.Field 添加元数据访问器
- ARROW-1964 - [Python] 暴露 Builder 类
- ARROW-2014 - [Python] 在 pyarrow.parquet 中为 read_pandas 方法编写文档
- ARROW-2055 - [Java] 升级到 Java 8
- ARROW-2060 - [Python] 关于使用 from_arrays 或字典序列创建 StructArray 的文档
- ARROW-2061 - [C++] 在 Travis CI 中运行 ASAN 构建
- ARROW-2074 - [Python] 允许对结构体数组进行类型推断
- ARROW-2097 - [Python] 在 Travis CI 构建中,当没有错误时抑制 valgrind 的 stdout/stderr 输出
- ARROW-2100 - [Python] 放弃对 Python 3.4 的支持
- ARROW-2140 - [Python] 从 Numpy float16 数组的转换未实现
- ARROW-2141 - [Python] 从 Numpy object 数组到可变大小二进制的转换未实现
- ARROW-2147 - [Python] 类型推断在 Numpy 数组列表上不起作用
- ARROW-2207 - [GLib] 支持 decimal 类型
- ARROW-2222 - [C++] 添加验证 Flatbuffers 消息的选项
- ARROW-2224 - [C++] 移除对 boost regex 的使用
- ARROW-2241 - [Python] 用于在特定 commit 或 tag 上运行所有当前 ASV 基准测试的简单脚本
- ARROW-2264 - [Python] 高效序列化 dtype 为 unicode 定长字符串的 numpy 数组
- ARROW-2267 - Rust 绑定
- ARROW-2276 - [Python] Tensor 可以实现缓冲区协议
- ARROW-2281 - [Python] 暴露 MakeArray 以从缓冲区构造数组
- ARROW-2285 - [Python] 无法转换 Numpy 字符串数组
- ARROW-2286 - [Python] 允许对 pyarrow.lib.StructValue 进行下标操作
- ARROW-2287 - [Python] 块状数组不可迭代,不可索引
- ARROW-2299 - [Go] Go 语言实现
- ARROW-2301 - [Python] 将源码分发发布说明添加到包/发布管理文档中
- ARROW-2302 - [GLib] 在同一个 Travis CI 构建条目中运行 autotools 和 meson Linux 构建
- ARROW-2308 - 序列化的张量数据应为 64 字节对齐。
- ARROW-2315 - [C++/Python] 添加方法以扁平化结构体数组
- ARROW-2319 - [C++] 添加实现 OutputStream 接口的缓冲输出类
- ARROW-2322 - 记录运行 dev/release/01-perform.sh 的要求
- ARROW-2325 - [Python] 更新 setup.py 以使用 Markdown 项目描述
- ARROW-2330 - [C++] 使用可部分完成的数组构建器优化增量缓冲区创建
- ARROW-2332 - [Python] 提供用于读取多个 Feather 文件的 API
- ARROW-2334 - [C++] 更新 boost 至 1.66.0
- ARROW-2335 - [Go] 将 Go README 上移一个目录
- ARROW-2340 - [网站] 添加关于 Go 代码库捐赠的博客文章
- ARROW-2341 - [Python] pa.union() 的 mode 参数不直观
- ARROW-2343 - [Java/打包] 在 API 文档构建中运行 mvn clean
- ARROW-2344 - [Go] 在 Travis CI 中运行 Go 单元测试
- ARROW-2345 - [文档] 修复 bundle exec 并将 sphinx nosidebar 设置为 True
- ARROW-2348 - [GLib] 移除 Go 示例
- ARROW-2350 - 缩小 spark_integration Docker 容器的大小
- ARROW-2353 - 在 AppVeyor 上测试构建的 wheel 的正确性
- ARROW-2361 - [Rust] 开始原生 Rust 实现
- ARROW-2364 - [Plasma] PlasmaClient::Get() 可以接受对象 ID 向量
- ARROW-2376 - [Rust] Travis 应该为 Rust 库运行测试
- ARROW-2378 - [Rust] 使用 rustfmt 格式化源代码
-
ARROW-2381 - [Rust] Buffer
应该有一个迭代器 - ARROW-2384 - Rust:使用 Trait 而不是直接定义方法
- ARROW-2385 - [Rust] 为 Field 和 DataType 实现 to_json()
- ARROW-2388 - [C++] Arrow::StringBuilder::Append() 使用 null_bytes 而不是 valid_bytes
- ARROW-2389 - [C++] 添加 StatusCode::OverflowError
- ARROW-2390 - [C++/Python] CheckPyError() 可以检查异常类型
- ARROW-2395 - [Python] 修正 pyarrow/ 目录外的 flake8 错误
- ARROW-2396 - 统一 Rust 错误
- ARROW-2397 - 在 IPC.md 中记录 Tensor 编码的变化。
-
ARROW-2398 - [Rust] 为类型安全的 Buffer 提供零拷贝构建器
- ARROW-2400 - [C++] Status 析构函数开销大
- ARROW-2401 - 支持对 Hive 分区的 Parquet 文件进行过滤
- ARROW-2402 - [C++] FixedSizeBinaryBuilder::Append 缺少 "const char*" 重载
- ARROW-2404 - 修复 msvc 构建中'type_id' 的声明隐藏了类成员的警告
- ARROW-2407 - [GLib] 添加 garrow_string_array_builder_append_values()
-
ARROW-2408 - [Rust] 应该可以从 Builder 获取 &mut[T]
- ARROW-2411 - [C++] 添加方法以将以 null 结尾的字符串批量附加到 StringBuilder
- ARROW-2413 - [Rust] 移除无用的 `format!` 使用
- ARROW-2414 - [文档] 修复各种文档拼写错误
- ARROW-2415 - [Rust] 修复在模式匹配中使用引用的问题
- ARROW-2416 - [C++] 支持系统 libprotobuf
- ARROW-2417 - [Rust] 审查 API 的安全性
- ARROW-2422 - [Python] 支持对 Hive 分区的 Parquet 文件使用更多过滤操作符
- ARROW-2427 - [C++] ReadAt 实现不是最优的
- ARROW-2430 - 基于分支的打包自动化的 MVP
- ARROW-2433 - [Rust] 添加 Builder.push_slice(&[T])
- ARROW-2434 - [Rust] 添加 Windows 支持
- ARROW-2435 - [Rust] 添加内存池抽象。
- ARROW-2436 - [Rust] 添加 Windows CI
-
ARROW-2440 - [Rust] 实现 ListBuilder
- ARROW-2442 - [C++] 消除 Builder::Append 重载的歧义
- ARROW-2445 - [Rust] 添加文档并将一些字段设为私有
- ARROW-2448 - 当 plasma 客户端在缓冲区之前超出作用域时发生段错误。
- ARROW-2451 - 在自定义 numpy 数组序列化器中高效处理更多 dtype。
- ARROW-2453 - [Python] 改进 Table 列访问
- ARROW-2458 - [Plasma] PlasmaClient 使用全局变量
- ARROW-2463 - [C++] 更新 flatbuffers 到 1.9.0
- ARROW-2464 - [Python] 使用 python_version 标记而不是条件
- ARROW-2469 - 将 out 参数放在 ReadMessage API 的最后。
- ARROW-2470 - [C++] FileGetSize() 不应 seek
- ARROW-2472 - [Rust] Schema 和 Fields 类型不应有公共属性
- ARROW-2477 - [Rust] 在 CI 中设置代码覆盖率
- ARROW-2478 - [C++] 引入一个 checked_cast 函数,在调试模式下执行 dynamic_cast
- ARROW-2479 - [C++] 拥有一个全局线程池
- ARROW-2480 - [C++] 允许将 decimal 的值转换为 int32_t 或 int64_t
- ARROW-2481 - [Rust] 将对 free() 的调用移至 memory.rs
- ARROW-2482 - [Rust] 支持嵌套类型
- ARROW-2484 - [C++] 记录 ABI 合规性检查
- ARROW-2485 - [C++] 当 run_clang_format.py 报告更改时输出 diff
- ARROW-2486 - [C++/Python] 提供一个包含所有开发依赖项的 Docker 镜像
- ARROW-2488 - [C++] 将 Boost 1.67 列为支持版本
- ARROW-2493 - [Python] 添加对缓冲区和数组的 pickle 支持
- ARROW-2494 - 从 PlasmaClient::Seal 返回状态码
- ARROW-2498 - [Java] 升级到 JDK 1.8
- ARROW-2499 - [C++] 为 Python 序列添加迭代器功能
- ARROW-2505 - [C++] 禁用 MSVC 警告 C4800
- ARROW-2506 - [Plasma] 在 macOS 上构建错误
- ARROW-2507 - [Rust] 在不需要时不要获取引用
- ARROW-2508 - [Python] pytest API 更改导致测试失败
- ARROW-2513 - [Python] DictionaryType 应该可以访问索引类型和字典数组
- ARROW-2516 - AppVeyor 构建矩阵应特定于 PR 中所做的更改
- ARROW-2521 - [Rust] 重构 Rust API 以使用 trait 和泛型
- ARROW-2522 - [C++] 对共享库文件进行版本控制
- ARROW-2525 - [GLib] 添加 garrow_struct_array_flatten()
- ARROW-2526 - [GLib] 更新 .gitignore
- ARROW-2527 - [GLib] 启用 GPU 文档
- ARROW-2529 - [C++] 在文档中将 clang-format 的提及更新为 5.0
- ARROW-2531 - [C++] 将 clang 位更新到 6.0
- ARROW-2533 - [CI] 快速完成失败的 AppVeyor 构建
- ARROW-2536 - [Rust] ListBuilder 为偏移构建器使用错误的初始大小
- ARROW-2537 - [Ruby] 导入
- ARROW-2539 - [Plasma] 使用 unique_ptr 代替原始指针
- ARROW-2540 - [Plasma] 添加构造函数/析构函数以确保自动调用 dlfree
- ARROW-2541 - [Plasma] 清理宏的使用
- ARROW-2543 - [Rust] CI 应缓存依赖项以加快构建速度
- ARROW-2544 - [CI] 在 Travis-CI 上使用两个作业运行 C++ 测试
-
ARROW-2547 - [格式] 修复 List<List
示例中的差一错误 -
ARROW-2548 - [格式] 阐明 `List
` 数组示例 - ARROW-2549 - [GLib] 将 arrow::StatusCodes 的更改应用于 GArrowError
- ARROW-2550 - [C++] 将缺失的状态码添加到 arrow::StatusCode::CodeAsString() 中
- ARROW-2551 - [Plasma] 改进通知逻辑
- ARROW-2553 - [Python] 在 wheel 构建中设置 MACOSX_DEPLOYMENT_TARGET
- ARROW-2558 - [Plasma] 当客户端断开连接时,避免遍历所有对象
- ARROW-2562 - [C++] 将覆盖率数据上传到 codecov.io
- ARROW-2563 - [Rust] Travis-CI 中缓存不佳
- ARROW-2566 - [CI] 在 README 中添加 codecov.io 徽章
- ARROW-2567 - [C++/Python] 比较 TimestampArrays 时忽略了单位
- ARROW-2568 - [Python] 向 Python 公开线程池大小设置,并弃用 "nthreads"
- ARROW-2569 - [C++] 改进线程池大小启发式算法
- ARROW-2574 - [CI] 收集并发布 Python 覆盖率
- ARROW-2576 - [GLib] 为 Decimal128 添加 abs 函数。
- ARROW-2577 - [Plasma] 添加 ASV 基准测试
- ARROW-2580 - [GLib] 修复 Decimal128 的 abs 函数
- ARROW-2582 - [GLib] 为 Decimal128 添加 negate 函数
- ARROW-2585 - [C++] 添加 Decimal128::FromBigEndian
- ARROW-2586 - [C++] 使 ListBuilder 和 StructBuilder 的子构建器成为 shared_ptr
- ARROW-2595 - [Plasma] operator[] 在 map 中创建条目
- ARROW-2596 - [GLib] 使用 GTK-Doc 的默认值
- ARROW-2597 - [Plasma] 移除 UniqueIDHasher
- ARROW-2604 - [Java] 为 VarCharVector.set(int,String) 添加方法重载
- ARROW-2608 - [Java/Python] 添加 pyarrow.{Array,Field}.from_jvm / jvm_buffer
- ARROW-2611 - [Python] Python 2 整数序列化
- ARROW-2612 - [Plasma] 修复已弃用的 PLASMA_DEFAULT_RELEASE_DELAY
- ARROW-2613 - [文档] 更新 gen_apidocs docker 脚本
- ARROW-2614 - [CI] 在 Travis 中移除 'group: deprecated'
- ARROW-2626 - [Python] pandas ArrowInvalid 消息应包含失败的列名
- ARROW-2634 - [Go] 为 Go 子项目添加 LICENSE 补充
- ARROW-2635 - [Ruby] LICENSE.txt 不适用
- ARROW-2636 - [Ruby] 缺少“非官方”软件包说明
- ARROW-2638 - [Python] 防止直接调用扩展类构造函数
- ARROW-2639 - [Python] 移除不必要的 _check_nullptr 方法
- ARROW-2641 - [C++] 调查虚假的 memset() 调用
- ARROW-2645 - [Java] ArrowStreamWriter 累积 DictionaryBatch ArrowBlocks
- ARROW-2649 - [C++] 添加类似 std::generate() 的函数以加快位图写入
- ARROW-2656 - [Python] 改进 ParquetManifest 创建时间
- ARROW-2660 - [Python] 试验零拷贝 pickle
- ARROW-2661 - [Python/C++] 允许通过 map/dict 传递 HDFS 配置值,而不是需要 hdfs-site.xml 文件
- ARROW-2662 - [Python] 将 to_pandas / to_numpy 添加到 ChunkedArray
- ARROW-2663 - [Python] 使 dictionary_encode 和 unique 可在 Column / ChunkedArray 上访问
- ARROW-2664 - [Python] 在 Buffer 上实现 __getitem__ / 切片
- ARROW-2666 - [Python] numpy.asarray 应该在 Array/ChunkedArray 上触发 to_pandas
- ARROW-2672 - [Python] 在 manylinux1 wheel 中构建 ORC 扩展
- ARROW-2674 - [打包] 开始构建每日构建版
- ARROW-2676 - [打包] 将构建产物部署到 github releases
- ARROW-2677 - [Python] 暴露 Parquet ZSTD 压缩
- ARROW-2678 - [GLib] 为 macOS 上的常见构建问题添加额外信息
- ARROW-2680 - [Python] 添加关于 Table.from_pandas 中类型推断的文档
- ARROW-2682 - [CI] 在 Slack 中通知构建失败
- ARROW-2689 - [Python] 从文档中移除对 timestamps_to_ms 参数的引用
- ARROW-2692 - [Python] 添加测试,用于将字典编码的列写入分块的 Parquet 文件
- ARROW-2695 - [Python] 防止直接调用标量构造函数
- ARROW-2696 - [JAVA] 通过 onFailedAllocation() 调用增强 AllocationListener
- ARROW-2699 - [C++/Python] 添加 Table 方法,用新提供的列替换一列
- ARROW-2700 - [Python] 向 Array.cast docstring 添加简单示例
- ARROW-2701 - [C++] 使 MemoryMappedFile 可调整大小
- ARROW-2704 - [Java] IPC 流处理应更友好于低级处理
- ARROW-2713 - [打包] 修复 Linux 软件包构建
- ARROW-2717 - [打包] 为 conda 产物添加目标架构后缀
- ARROW-2718 - [打包] 对下载的产物进行 GPG 签名
- ARROW-2724 - [打包] 确定是否所有预期的产物都已上传
- ARROW-2725 - [JAVA] 使 Accountant.AllocationOutcome 公开可见
- ARROW-2729 - [GLib] 添加 decimal128 数组构建器
- ARROW-2731 - 允许使用外部 ORC 库
- ARROW-2732 - 更新 macOS 的 brew 软件包
- ARROW-2733 - [GLib] 将 garrow_decimal128 转换为 gint64
- ARROW-2738 - [GLib] 在安装过程中使用 Brewfile
- ARROW-2739 - [GLib] 对 GArrowDecimalDataType 和 GArrowDecimal128ArrayBuilder 使用 G_DECLARE_DERIVABLE_TYPE
- ARROW-2740 - [Python] 向 Buffer 添加 address 属性
- ARROW-2742 - [Python] 允许 Table.from_batches 使用 ArrowRecordBatches 的迭代器
- ARROW-2748 - [GLib] 添加 garrow_decimal_data_type_get_scale() (和 _precision())
- ARROW-2749 - [GLib] 将 *garrow_decimal128_array_get_value 重命名为 *garrow_decimal128_array_format_value
- ARROW-2751 - [GLib] 添加 garrow_table_replace_column()
- ARROW-2752 - [GLib] 为 garrow_decimal_data_type_new() 添加文档
- ARROW-2753 - [GLib] 添加 garrow_schema_*_field()
- ARROW-2755 - [Python] 允许使用 Ninja 构建扩展
- ARROW-2756 - [Python] 在 parquet 测试中移除冗余导入和进行小修复
- ARROW-2758 - [Plasma] 在 Plasma 中使用 Scope 枚举
- ARROW-2760 - [Python] 从 parquet 模块中移除旧的属性定义语法并进行测试
- ARROW-2761 - 支持对 Hive 分区的 Parquet 文件使用集合过滤操作符
- ARROW-2763 - [Python] 使 parquet _metadata 文件可从 ParquetDataset 访问
- ARROW-2780 - [Go] 运行代码覆盖率分析
- ARROW-2784 - [C++] MemoryMappedFile::WriteAt 允许写入超出末尾
- ARROW-2790 - [C++] 缓冲区包含未初始化的内存
- ARROW-2791 - [打包] 构建 Ubuntu 18.04 软件包
- ARROW-2792 - [打包] 考虑上传 tarball 以避免命名冲突
- ARROW-2794 - [Plasma] 为多个对象添加 Delete 方法
- ARROW-2798 - [Plasma] 使用考虑所有 UniqueID 字节的哈希函数
- ARROW-2802 - [文档] 将发布管理指南移至项目维基
- ARROW-2804 - [网站] 从首页链接到开发者维基(Confluence)
- ARROW-2805 - [Python] 如果未安装 CUDA,TensorFlow 导入的解决方法对 tensorflow-gpu 无效
- ARROW-2809 - [C++] 降低 Travis CI 中 lint 检查的详细程度
- ARROW-2811 - [Python] 测试序列化的确定性
- ARROW-2815 - [CI] 在 C++ CI 条目中构建 Java 库时抑制 DEBUG 日志记录
- ARROW-2816 - [Python] 向 NativeFile 添加 __iter__ 方法
- ARROW-2821 - [C++] 仅在一个地方对 BooleanBuilder 中的内存进行零初始化
- ARROW-2822 - [C++] 在 PoolBuffer::Resize 中对填充字节进行零初始化
- ARROW-2824 - [GLib] 添加 garrow_decimal128_array_get_value()
- ARROW-2825 - [C++] 需要带有默认内存池的 AllocateBuffer / AllocateResizableBuffer 变体
- ARROW-2826 - [C++] 需要澄清 ArrayBuilder::Init()、Resize() 和 Reserve() 之间的区别
- ARROW-2827 - [C++] LZ4 和 Zstd 在并行构建中可能会失败
- ARROW-2829 - [GLib] 添加 GArrowORCFileReader
- ARROW-2830 - [打包] 再次为 deb 包构建启用并行构建
- ARROW-2833 - [Python] Column.__repr__ 在处理大数据集时会锁定 Jupyter
- ARROW-2834 - [GLib] 从 Meson 选项中移除 "enable_" 前缀
- ARROW-2836 - [打包] 将构建矩阵扩展到多个任务
- ARROW-2837 - [C++] ArrayBuilder::null_bitmap 返回 PoolBuffer
- ARROW-2838 - [Python] 加快使用 Pandas 语义的空值测试
- ARROW-2844 - [打包] 构建后测试 OSX wheel
- ARROW-2845 - [打包] 上传额外的 debian 产物
- ARROW-2846 - [打包] 更新 crossbow 中的每日构建以及示例配置
- ARROW-2847 - [打包] 修复 conda forge 软件包的产物名称匹配
- ARROW-2848 - [打包] lib*.deb 软件包名称与 so 版本不匹配
- ARROW-2849 - [Ruby] Arrow::Table#load 支持 ORC
- ARROW-2855 - [C++] 概述使用 jemalloc 好处的博客文章
- ARROW-2859 - [Python] 在 open_stream、open_file 和 RecordBatch*Reader API 中处理导出缓冲区协议的对象
- ARROW-2861 - [Python] 添加关于使用 Parquet 存储无索引 pandas 数据的额外提示
- ARROW-2864 - [Plasma] 添加删除缓存以稍后删除对象
- ARROW-2868 - [打包] 修复 centos-7 构建
- ARROW-2869 - [Python] 为 Array.to_numpy 添加文档
- ARROW-2875 - [打包] 不要在 linux 构建中尝试下载 arrow 归档文件
- ARROW-2881 - [网站] 向网站添加社区标签页
- ARROW-2884 - [打包] 从 apache 源码归档构建软件包的选项
- ARROW-2886 - [发布] 存在一个未使用的变量
- ARROW-2890 - [Plasma] 使 Python PlasmaClient.release 私有
- ARROW-2893 - [C++] 从公共 API 中移除 PoolBuffer 类,并将其实现细节隐藏在工厂函数后面
- ARROW-2897 - 组织支持的 Ubuntu 版本
-
ARROW-2898 - [打包] Setuptools_scm 刚刚发布了一个新版本,无法解析 `apache-arrow-
` 标签 - ARROW-2906 - [网站] 移除 Slack 频道的链接
- ARROW-2907 - [GitHub] 改进“如何贡献补丁”
- ARROW-2908 - [Rust] 更新版本至 0.10.0
- ARROW-2914 - [集成] 向 Spark 集成添加 WindowPandasUDFTests
- ARROW-2915 - [打包] 从 ubuntu-trusty 构建中移除产物
- ARROW-2918 - [C++] 改进 Struct 格式化打印的格式
- ARROW-2921 - [发布] 准备更新 .deb/.rpm 的变更日志
- ARROW-2922 - [发布] 使 python 命令名可自定义
- ARROW-2923 - [文档] 添加运行 Spark 集成测试的说明
- ARROW-2924 - [Java] 当安装了较旧的 maven javadoc 插件时,mvn release 会失败
- ARROW-2927 - [打包] AppVeyor wheel 任务在初始检出时失败
- ARROW-2928 - [打包] AppVeyor crossbow conda 构建使用的是 boost 1.63.0 而不是已安装的版本
- ARROW-2929 - [C++] ARROW-2826 破坏了 parquet-cpp 1.4.0 的构建
- ARROW-2934 - [打包] 将校验和创建添加到 sign 子命令
- ARROW-2935 - [打包] 将 verify_binary_artifacts 函数添加到 verify-release-candidate.sh
- ARROW-2937 - [Java] 对 ARROW-2704 的后续更改
- ARROW-2943 - [C++] 实现 BufferedOutputStream::Flush
- ARROW-2944 - [格式] Arrow 列式格式文档提到了已不存在的 VectorLayout
- ARROW-2946 - [打包] 停止在 debian/rules 中使用 PWD
- ARROW-2947 - [打包] 移除 Ubuntu Artful
- ARROW-2949 - [CI] repo.continuum.io 在构建中可能不稳定
- ARROW-2951 - [CI] format/ 中的更改应导致 Appveyor 构建运行
- ARROW-2953 - [Plasma] 存储内存使用情况
- ARROW-2954 - [Plasma] 在对象表中只存储一次 object_id
- ARROW-2962 - [打包] 不再需要 Bintray 描述符文件
- ARROW-2977 - [打包] 发布验证脚本也应检查 rust
- ARROW-2985 - [Ruby] 在 verify-release-candidate.sh 中运行单元测试
- ARROW-2988 - [发布] 在 Windows 上进行更自动化的发布验证
- ARROW-2990 - [GLib] 在 macOS 上使用 rpath-ed 的 Arrow C++ 构建失败
- ARROW-530 - C++/Python: 提供子池以更好地跟踪内存分配
- ARROW-564 - [Python] 添加方法以返回原生 NumPy 数组(如果有空值,则加上布尔掩码数组)
- ARROW-889 - [C++] 为 ChunkedArray 实现 arrow::PrettyPrint
- ARROW-902 - [C++] 从本地 tarball 构建 C++ 项目,包括第三方依赖
- ARROW-906 - [C++] 将字段元数据序列化为 IPC 元数据
Bug 修复
- ARROW-2059 - [Python] Feather 读/写路径可能存在性能回归
- ARROW-2101 - [Python] from_pandas 在 Python 2 中将 'str' 类型读取为二进制 Arrow 数据
- ARROW-2122 - [Python] Pyarrow 无法序列化带时间戳的 dataframe。
- ARROW-2182 - [Python] ASV 基准测试设置未考虑 C++ 库的变化
- ARROW-2193 - [Plasma] 当 ARROW_BOOST_USE_SHARED=on 时,plasma_store 运行时依赖于 Boost 共享库
- ARROW-2195 - [Plasma] 从 plasma store 检索 RecordBatch 时发生段错误
- ARROW-2247 - [Python] 在 libarrow 和 libparquet 中静态链接 boost_regex 会导致段错误
- ARROW-2273 - 无法反序列化 pandas SparseDataFrame
- ARROW-2300 - [Python] python/testing/test_hdfs.sh 不再工作
- ARROW-2305 - [Python] Cython 0.25.2 编译失败
- ARROW-2314 - [Python] Union 数组切片有缺陷
- ARROW-2326 - [Python] 在 OS X (10.9) 上无法导入通过 pip 安装的 pyarrow
- ARROW-2328 - 使用 feather 写入切片时忽略偏移量
- ARROW-2331 - [Python] 修复索引实现
- ARROW-2333 - [Python] boost 捆绑在 setup.py 中失败
- ARROW-2342 - [Python] 带时区的时间戳类型 pickle 失败
- ARROW-2346 - [Python] PYARROW_CXXFLAGS 不接受多个选项
- ARROW-2349 - [Python] MSVC 的 Boost 共享库捆绑已损坏
-
ARROW-2351 - [C++] StringBuilder::append(vector
...) 未实现 - ARROW-2354 - [C++] PyDecimal_Check() 太慢
- ARROW-2355 - [Python] 无法导入 pyarrow [0.9.0] OSX
- ARROW-2357 - 基准测试 PandasObjectIsNull
- ARROW-2368 - DecimalVector#setBigEndian 对负值填充不正确
- ARROW-2369 - 通过 PyArrow 写入 Parquet 的大文件(>∼20 GB)已损坏
- ARROW-2370 - [GLib] Meson 构建中的包含路径错误
- ARROW-2371 - [GLib] GNU Autotools 构建不需要 gio-2.0
- ARROW-2372 - [Python] 读取 Parquet 文件时出现 ArrowIOError: 无效参数
- ARROW-2375 - [Rust] Buffer 在被丢弃时应释放内存
- ARROW-2377 - [GLib] Travis-CI 失败
- ARROW-2380 - [Python] 纠正 numpy_to_arrow 转换例程中的问题
-
ARROW-2382 - [Rust] List
没有安全地使用内存 - ARROW-2383 - [C++] Debian 软件包需要依赖 libprotobuf
- ARROW-2387 - [Python] 负十进制值得到虚假的重新缩放错误
- ARROW-2391 - [Python] 将 Pandas datetime 列映射到 pyarrow.date64 时 PyArrow 出现段错误
- ARROW-2393 - [C++] arrow/status.h 没有定义 ARROW_CHECK_OK 所需的 ARROW_CHECK
- ARROW-2403 - [C++] arrow::CpuInfo::model_name_ 在退出时被析构两次
-
ARROW-2405 - [C++]
在 plasma/client.h 中缺失 - ARROW-2418 - [Rust] 由于内存未正确保留,List 构建器失败
- ARROW-2419 - [网站] 网站生成依赖于本地时区
- ARROW-2420 - [Rust] 内存从未释放
- ARROW-2423 - [Python] PyArrow 数据类型在与非 PyArrow 对象进行相等性检查时引发 ValueError
- ARROW-2424 - [Rust] 缺少导入导致构建中断
- ARROW-2425 - [Rust] Array::from 缺少 u8 类型的映射
- ARROW-2426 - [CI] glib 构建失败
- ARROW-2432 - [Python] 当有 None 值时,从 pandas 转换 decimal 失败
- ARROW-2437 - [C++] arrow::ipc::ReadMessage 签名的更改破坏了 ABI 兼容性
-
ARROW-2441 - [Rust] Builder
::slice_mut 断言过于严格 - ARROW-2443 - [Python] 从 pandas 转换空分类变量失败,报 ArrowInvalid
- ARROW-2450 - [Python] 保存到 parquet 对空列表失败
- ARROW-2452 - [测试] Spark 集成测试因权限错误而失败
- ARROW-2454 - [Python] 空的块状数组切片崩溃
- ARROW-2455 - [C++] CudaContextImpl 中的 bytes_allocated_ 未初始化
- ARROW-2457 - garrow_array_builder_append_values() 对大数组不起作用
- ARROW-2459 - pyarrow: 使用 pyarrow.deserialize_pandas 时发生段错误
- ARROW-2462 - [C++] 从 Record Batch Stream 写入包含字典列的 parquet 表时发生段错误
- ARROW-2465 - [Plasma] plasma_store 找不到 libarrow_gpu.so
- ARROW-2466 - [C++] 对 FileOutputStream 的 "append" 标志有误导性
- ARROW-2468 - [Rust] Builder::slice_mut 应该接受 mut self
- ARROW-2471 - [Rust] 将值推送到零容量的 Builder/ListBuilder 时出现断言
- ARROW-2473 - [Rust] 零长度列表的列表断言错误
- ARROW-2474 - [Rust] 为内存池抽象添加 Windows 支持
- ARROW-2489 - [Plasma] test_plasma.py 崩溃
- ARROW-2491 - [Python] Array.from_buffers 对 ListArray 不起作用
- ARROW-2492 - [Python] 防止意外调用 pyarrow.Array 时发生段错误
- ARROW-2500 - [Java] IPC Writers/readers 并不总是正确设置有效性位
- ARROW-2502 - [Rust] 恢复 Windows 兼容性
- ARROW-2503 - [Python] pyarrow.parquet.ParquetFile 的 RowGroup 统计信息中存在尾随空格字符
- ARROW-2509 - [CI] 间歇性 npm 失败
- ARROW-2511 - BaseVariableWidthVector.allocateNew 在无法分配内存时未抛出 OOM
- ARROW-2514 - [Python] 推断/转换嵌套 Numpy 数组非常慢
- ARROW-2515 - ListArray 或其他 DictionaryArray 内的 DictionaryArray 出错
- ARROW-2518 - [Java] 将 Java 单元测试和 javadoc 测试恢复到 CI 矩阵
- ARROW-2530 - [GLib] 源码外构建失败
- ARROW-2534 - [C++] libarrow.so 泄漏 zlib 符号
- ARROW-2545 - [Python] Arrow 链接静态编译的 Python 失败
- ARROW-2554 - 使用 NS 时间戳时 pa.array 类型推断错误
- ARROW-2557 - [Rust] 在 README 中添加代码覆盖率徽章
- ARROW-2561 - [C++] 在启用覆盖率的情况下,cuda-test 关闭时崩溃
- ARROW-2564 - [C++] 行式教程已过时
- ARROW-2565 - [Plasma] 新订阅者无法接收有关现有对象的通知
- ARROW-2570 - [Python] 添加对使用 LZ4 压缩写入 parquet 文件的支持
- ARROW-2571 - [C++] Lz4Codec 未正确处理空数据
- ARROW-2575 - [Python] 读取 Parquet 数据集时排除隐藏文件
- ARROW-2578 - [Plasma] 与 std::random_device 相关的 Valgrind 错误
- ARROW-2589 - [Python] Pandas 0.23.0 导致 test_parquet.py 回归
- ARROW-2593 - [Python] TypeError: 数据类型 "mixed-integer" 无法理解
- ARROW-2594 - [Java] 向量重新分配未正确清除重用的缓冲区
- ARROW-2601 - [Python] MemoryPool bytes_allocated 导致段错误
- ARROW-2603 - [Python] from pandas 对 date(time) 子类引发 ArrowInvalid
- ARROW-2615 - [Rust] 重构引入了关于字符串数组的错误
- ARROW-2629 - [Plasma] pending_notifications_ 的迭代器失效
- ARROW-2630 - [Java] 文档中的拼写错误
- ARROW-2632 - [Java] ArrowStreamWriter 累积 ArrowBlock 但不使用它们
- ARROW-2640 - JS Writer 应序列化模式元数据
- ARROW-2643 - [C++] 启用 cpp 工具链时 Travis-CI 构建失败
- ARROW-2644 - [Python] parquet 绑定在 AppVeyor 上构建失败
- ARROW-2655 - [C++] 在 gcc 7.3.0 上使用 -Werror=conversion 失败
- ARROW-2657 - 在导入 Pyarrow 后导入 TensorFlow 时发生段错误
- ARROW-2668 - [C++] 在 clang 6.0, Ubuntu 14.04 上 dlmalloc.c 出现 -Wnull-pointer-arithmetic 警告
- ARROW-2669 - [C++] 构建 gbenchmark 时未传递 EP_CXX_FLAGS
- ARROW-2675 - 使用 clang-10 (Apple Clang / LLVM) 构建 Arrow 出错
- ARROW-2683 - [Python] 使用 pyarrow.parquet.read_table() 时出现资源警告(未关闭的文件)
- ARROW-2690 - [C++] Plasma 不遵循变量和函数名称的样式约定
- ARROW-2691 - [Rust] 由于格式差异,Travis 失败
- ARROW-2693 - [Python] pa.chunked_array 在空输入上导致段错误
- ARROW-2694 - [Python] ArrayValue 字符串转换返回表示形式而不是转换后的 python 对象字符串
- ARROW-2698 - [Python] 将字符串传递给 Table.column 时出现异常
- ARROW-2711 - [Python/C++] 当列表列的第一个元素为空时,Pandas-Arrow 往返转换不一致
- ARROW-2716 - [Python] 使 manylinux1 基础镜像独立于 Python 补丁版本
- ARROW-2721 - [C++] 在 CentOS 7 上使用 -DARROW_ORC=ON 构建 Arrow C++ 时出现链接错误
- ARROW-2722 - [Python] 当从 pandas to_numeric 向下转换时,ndarray 到 arrow 的转换失败
- ARROW-2723 - [C++] arrow-orc.pc 缺失
- ARROW-2726 - [C++] 最新的 Boost 版本错误
- ARROW-2727 - [Java] 无法构建 java/adapters 模块
- ARROW-2741 - [Python] pa.array from np.datetime[D] 和 type=pa.date64 产生无效结果
- ARROW-2744 - [Python] 当写入空列表的 ListArray 时,写入 parquet 会崩溃
- ARROW-2745 - [C++] ORC ExternalProject 需要声明对 vendored protobuf 的依赖
- ARROW-2747 - [CI] [Plasma] Travis 上的 huge tables 测试失败
- ARROW-2754 - [Python] 通过 pip 安装 pyarrow 时,会创建一个调试版本
- ARROW-2770 - [打包] 在 conda recipes 中考虑 conda-forge 编译器迁移
- ARROW-2773 - [Python] 修正了 parquet 文档中 partition_cols 参数的名称
- ARROW-2781 - [Python] 在 manylinux1 镜像中使用 curl 下载 boost
- ARROW-2787 - [Python] 通过 cython 将表从 python 传递到 c++ 时出现内存问题
- ARROW-2795 - [Python] 仅在 Linux 上运行 TensorFlow 导入解决方法
- ARROW-2806 - [Python] np.nan 处理不一致
- ARROW-2810 - [Plasma] Plasma 公共头文件泄漏 flatbuffers.h
- ARROW-2812 - [Ruby] StructArray#[] 引发 NoMethodError
- ARROW-2820 - [Python] RecordBatch.from_arrays 不验证数组长度是否都相等
-
ARROW-2823 - [C++] 在
/lib64 中搜索 flatbuffers - ARROW-2841 - [Go] 修复最近在 Travis CI 中的 Go 构建失败
- ARROW-2850 - [C++/Python] manylinux1 构建中缺少 PARQUET_RPATH_ORIGIN=ON
- ARROW-2851 - [C++] 更新新安装文件名的 RAT 排除项
- ARROW-2852 - [Rust] 将 Array 标记为 Sync 和 Send
- ARROW-2862 - [C++] 确保在 thirdparty/download_thirdparty.sh 中已创建第三方下载目录
- ARROW-2867 - [Python] Cython 用法示例不正确
- ARROW-2871 - [Python] Array.to_numpy 对布尔数组无效
- ARROW-2872 - [Python] 添加 pytest 标记以选择加入与 TensorFlow 相关的单元测试
- ARROW-2876 - [打包] 如果使用 SSH 克隆,Crossbow 构建可能会挂起
- ARROW-2877 - [打包] crossbow submit 导致重复的 Travis CI 构建
- ARROW-2878 - [打包] README.md 未提及在用户的 crossbow 仓库设置中设置 GitHub API 令牌
- ARROW-2883 - [Plasma] 编译警告
- ARROW-2891 - 在 write_to_dataset 中保留 schema
- ARROW-2894 - [Glib] 由于最近的重构,格式测试中断
- ARROW-2895 - [Ruby] 当 C++ 更改时,CI 未运行
- ARROW-2896 - [GLib] 导出缺失
- ARROW-2901 - [Java] 在 Java9 上构建失败
- ARROW-2902 - [Python] HDFS Docker 集成测试遗留了由 root 创建的文件
- ARROW-2911 - [Python] 以 '\0' 结尾的 Parquet 二进制统计信息会截断最后一个字节
- ARROW-2917 - [Python] 需要梯度的张量无法使用 pyarrow.serialize 进行序列化
- ARROW-2920 - [Python] pytorch 0.4 出现段错误
- ARROW-2926 - [Python] 在传递的 schema 和表 schema 不匹配的示例中,ParquetWriter 出现段错误
- ARROW-2930 - [C++] 尝试在不存在的 CMake 目标上设置目标属性
- ARROW-2940 - [Python] 使用 pytorch 0.3 时出现导入错误
- ARROW-2945 - [Packaging] 更新 02-source.sh 的参数检查
- ARROW-2955 - [Python] pyarrow 的 HDFS API 结果中存在拼写错误
- ARROW-2963 - [Python] 在 fork-join 和 use_threads=True 期间发生死锁
- ARROW-2978 - [Rust] Travis CI 构建失败
- ARROW-2982 - “--show-progress” 选项仅在 wget 1.16 及更高版本中受支持
- ARROW-640 - [Python] Arrow 标量值应具有合理的 __hash__ 和比较方法