Apache Arrow 0.7.0 (2017 年 9 月 17 日)
这是一个主要版本。请阅读 发布博客文章 了解更多信息。
下载
贡献者
$ git shortlog -sn apache-arrow-0.6.0..apache-arrow-0.7.0
58 Wes McKinney
14 Kouhei Sutou
11 Philipp Moritz
7 Phillip Cloud
6 siddharth
5 Uwe L. Korn
2 Bryan Cutler
2 HorimotoYasuhiro
2 Laurent Goujon
2 Li Jin
2 Max Risuhin
2 fjetter
1 Antony Mayi
1 Brecht Machiels
1 Fritz Obermeyer
1 Gonzalo Ortiz
1 Jeff Reback
1 Kyle Kelley
1 Paul Taylor
1 Robert Nishihara
1 Wataru Shimizu
1 hatappi
1 mnc
1 rvernica
1 tetsutaroendo
更新日志
新功能和改进
- ARROW-1156 - [Python] pyarrow.Array.from_pandas 应该接受一个类型参数
- ARROW-1238 - [Java] 为集成测试添加小数的 JSON 读/写支持
- ARROW-1307 - [Python] 添加 pandas 序列化部分 + Feather API 到 Sphinx 文档
- ARROW-1317 - [Python] 添加设置 Hadoop CLASSPATH 的函数
- ARROW-1331 - [Java] 重构测试
- ARROW-1339 - [C++] 使用 boost::filesystem 处理特定于平台的 文件路径编码
- ARROW-1344 - [C++] 调用 BufferOutputStream::Write 后再调用 Finish 会崩溃
- ARROW-1348 - [C++/Python] 添加 Windows 发布验证脚本
- ARROW-1351 - 自动化更新 CHANGELOG.md 作为发布脚本的一部分
- ARROW-1352 - [集成] 改进生产者、消费者行的打印格式
- ARROW-1355 - 使 arrow 可以使用 java9 构建
- ARROW-1356 - [网站] 添加新的提交者
- ARROW-1358 - 更新源代码发布脚本以考虑新的 SHA 校验和策略
- ARROW-1359 - [Python] 添加 Parquet 写入器选项以规范字段名以在 Spark 中使用
- ARROW-1364 - [C++] 专用于 GPU 设备内存的 IPC 读取器和写入器
- ARROW-1366 - [Python] 添加从 wheel 安装 pyarrow 时启动 Plasma 存储的说明
- ARROW-1372 - [Plasma] 支持在巨页中存储数据
- ARROW-1376 - [C++] RecordBatchStreamReader::Open API 与写入器不一致
- ARROW-1377 - [Python] 添加函数以协助基准测试 Parquet 扫描性能
- ARROW-1381 - [Python] 改进 SerializedPyObject.to_buffer 的性能
-
ARROW-1383 - [C++] 支持 std::vector
在构建器向量追加中 - ARROW-1384 - [C++] 添加便捷函数用于将记录批次序列化为 IPC 消息
- ARROW-1386 - [C++] 在 MSVC 构建工具链中取消 CMake 版本锁定
- ARROW-1387 - [C++] 设置 GPU 叶库构建工具链
- ARROW-1390 - [Python] 扩展 python 序列化测试
- ARROW-1392 - [C++] 为 GPU 缓冲区实现读取器和写入器 IO 接口
- ARROW-1395 - [C++] 移除 0.5.0 及更高版本中已弃用的 API
- ARROW-1396 - [C++] 为 Schema 添加 PrettyPrint 函数,该函数也输出任何字典
- ARROW-1397 - [打包] 使用 Docker 而不是 Vagrant
- ARROW-1399 - [C++] 在公共头文件中添加 CUDA 构建版本,以帮助防止 ABI 冲突
- ARROW-1400 - [Python] 写入 Parquet 时创建分区的功能
- ARROW-1401 - [C++] 在调试构建中为 RETURN_NOT_OK 中的故障添加额外的调试上下文
- ARROW-1402 - [C++] 可能弃用使用 MutableBuffer 的公共 API
- ARROW-1404 - [打包] 在 Travis CI 上构建 .deb 和 .rpm
- ARROW-1405 - [Python] 添加用于详细内存分配的日志选项
- ARROW-1406 - [Python] 强化用户 API,用于生成序列化 Schema 和记录批处理消息作为与 memoryview 兼容的对象
- ARROW-1408 - [C++] 重构并使 IPC 读/写 API 更一致,添加适当的弃用
- ARROW-1410 - Plasma 对象存储偶尔会长时间暂停
- ARROW-1412 - [Plasma] 添加用于放置和获取 Python 对象的高级 API
- ARROW-1413 - [C++] 添加 include-what-you-use 配置
- ARROW-1415 - [GLib] 支持 date32 和 date64
- ARROW-1416 - [格式] 澄清内存布局文档中的示例数组
- ARROW-1417 - [Python] 允许将更通用的文件系统对象传递给 ParquetDataset
- ARROW-1418 - [Python] 引入 SerializationContext 以注册自定义序列化回调
- ARROW-1419 - [GLib] 抑制 Clang 上的符号转换警告
- ARROW-1427 - [GLib] 添加 Arrow GLib README 链接
- ARROW-1428 - [C++] 将克隆源代码的步骤追加到 README.md
- ARROW-1432 - [C++] 使用私有前缀构建绑定的 jemalloc 函数
- ARROW-1433 - [C++] 简化 Array::Slice 的实现
- ARROW-1438 - [Plasma] 通过 PlasmaClient put 和 get 拉取 SerializationContext
- ARROW-1441 - [网站] 将 Ruby 添加到灵活部分
- ARROW-1442 - [网站] 在 /install 上添加指向每晚 conda 包的指针
- ARROW-1447 - [C++] include-what-you-use 包含清理一轮
- ARROW-1448 - [打包] 支持将构建的 .deb 和 .rpm 上传到 Bintray
- ARROW-1449 - 仅使用 Int128 实现 Decimal
- ARROW-1451 - [C++] 创建 arrow/io/api.h
- ARROW-1460 - [C++] 将使用的 clang-format 升级到 LLVM 4.0
- ARROW-1462 - [GLib] 支持时间数组
- ARROW-1466 - [C++] 在 arrow::PrettyPrint 中支持 DecimalArray
-
ARROW-1468 - [C++] 从 std::vector 追加到 PrimitiveBuilder
- ARROW-1479 - [JS] 扩展 JavaScript 实现
- ARROW-1480 - [Python] 改进集合序列化的性能
- ARROW-1481 - [C++] 将类型转换公开为通用可调用对象,可以写入预分配的内存
- ARROW-1494 - [C++] 文档中说明 RecordBatch::column 返回的 shared_ptr 需要保留
- ARROW-1499 - [Python] 考虑向 parquet.write_table 添加选项,该选项为最大的 Spark 兼容性设置选项
- ARROW-1504 - [GLib] 支持时间戳
- ARROW-1505 - [GLib] 简化参数检查
- ARROW-1506 - [C++] 支持计算模块的 pkg-config
- ARROW-1508 - C++: 在 DictionaryBuilder 中添加对 FixedSizeBinaryType 的支持
- ARROW-1510 - [C++] 支持 cast
- ARROW-1511 - [C++] 弃用 arrow::MakePrimitiveArray
- ARROW-1513 - C++: 添加从 Dictionary 到普通数组的 cast
- ARROW-1515 - [GLib] 直接检测版本
- ARROW-1516 - [GLib] 更新文档
- ARROW-1517 - 移除 DecimalUtil::ToString 函数中不必要的临时变量
- ARROW-1519 - [C++] 将 DecimalUtil 函数移动到 Int128 类的成员方法
- ARROW-1528 - [GLib] 解决包含依赖
- ARROW-1530 - [C++] 安装 arrow/util/parallel.h
- ARROW-1551 - [网站] 0.7.0 版本更新
- ARROW-229 - [C++] 实现原始类型的安全转换
- ARROW-592 - [C++] 提供 .deb 和 .rpm 包
- ARROW-594 - [Python] 提供接口将 pyarrow.Table 写入流
- ARROW-695 - Decimal 类型的集成测试
- ARROW-696 - [C++] 为集成测试添加小数的 JSON 读/写支持
- ARROW-759 - [Python] 实现一个瞬态列表序列化函数,可以处理标量、列表、ndarray、字典的混合
- ARROW-786 - [格式] 128 位小数的内存格式,处理符号位
- ARROW-837 - [Python] 公开缓冲区分配,FixedSizeBufferWriter
- ARROW-941 - [文档] 改进“冷启动”集成测试说明
- ARROW-989 - [Python] 将 pyarrow.Table 写入 FileWriter 或 StreamWriter
Bug 修复
- ARROW-12 - 将 Github 活动镜像到 JIRA
- ARROW-1302 - C++: 在较旧的 MacOS 安装上,${MAKE} 变量有时未设置
- ARROW-1354 - [Python] Table.from_pandas 带有混合类型类别时出现段错误
- ARROW-1357 - [Python] 读取多文件 parquet 数据集时数据损坏
- ARROW-1363 - [C++] IPC 写入器发送字典的缓冲区布局而不是索引
- ARROW-1365 - [Python] 移除 Python API 文档中已移除的 jemalloc_memory_pool 的使用
-
ARROW-1373 - [Java] 在 ValueVector 接口实现 get
Buffer() 方法 - ARROW-1375 - [C++] Visual Studio 2017 Appveyor 构建失败
- ARROW-1379 - [Java] maven 依赖问题 - 未使用和未声明
- ARROW-1407 - 字典最多只能容纳 4096 个索引
- ARROW-1411 - [Python] 浮点列中的布尔值导致段错误
- ARROW-1414 - [GLib] 状态检查后进行类型转换
- ARROW-1421 - [Python] pyarrow.serialize 无法序列化 Python 字典输入
- ARROW-1426 - [网站] 顶页的标题元素为空
- ARROW-1429 - [Python] 从 HDFS 加载带有 _metadata 的 parquet 文件时出错
- ARROW-1430 - [Python] flake8 警告未导致 CI 构建失败
- ARROW-1434 - [C++/Python] pyarrow.Array.from_pandas 不支持 datetime64[D] 数组
- ARROW-1435 - [Python] PyArrow 未将时区信息从 Parquet 传播到 Python
- ARROW-1439 - [打包] 在 RPM 构建中自动化更新 RPM
- ARROW-1443 - [Java] ArrowBuf.setBytes 带有未切片的 ByteBuffer 时出现错误
- ARROW-1444 - [JAVA] BitVector.splitAndTransfer 复制最后一个字节不正确
- ARROW-1446 - Python: 从 pandas 数据帧写入超过 2^31 行导致行计数溢出错误
- ARROW-1450 - [Python] 如果自定义序列化处理程序失败,则引发适当的错误
- ARROW-1452 - [C++] 使 UNUSED 宏名称更独特,以免与第三方项目冲突
- ARROW-1453 - [Python] 为非连续张量实现 WriteTensor
- ARROW-1457 - [C++] 优化分步 WriteTensor
- ARROW-1458 - [Python] 文档中说明 HadoopFileSystem.mkdir 带有 create_parents=False 时无效
- ARROW-1459 - [Python] PyArrow 无法加载带有非原始类型分区的 parquet 文件
- ARROW-1461 - [C++] 暂时禁用使用 LLVM apt 包的构建
- ARROW-1467 - [JAVA]: 修复 Nullable Value Vectors 模板中的 reset() 和 allocateNew()
- ARROW-1490 - [Java] 暂时允许 JDK9 的 Travis CI 失败
- ARROW-1493 - [C++] 在每个 PrettyPrint 函数结束时刷新输出流
- ARROW-1495 - [C++] 在 RecordBatch 中存储指向装箱数组的 shared_ptr
- ARROW-1507 - [C++] arrow/compute/api.h 无法在没有 arrow/array.h 的情况下使用
- ARROW-1512 - [文档] NumericArray 没有名为 'raw_data' 的成员
- ARROW-1514 - [C++] 修复文档中的拼写错误
- ARROW-1527 - 修复 Travis JDK9 构建
- ARROW-1531 - [C++] 从 Decimal128 按值返回 ToBytes
- ARROW-1532 - [Python] 引用空 Schema 导致段错误
- ARROW-407 - BitVector.copyFromSafe() 应该在必要时重新分配,而不是返回 false
- ARROW-801 - [JAVA] 提供对底层缓冲区内存地址的直接访问,以一致的方式,不产生垃圾或大量间接访问