Apache Arrow 0.7.0 (2017 年 9 月 17 日)
这是一个主要版本。在版本博客文章中阅读更多内容。
下载
贡献者
$ git shortlog -sn apache-arrow-0.6.0..apache-arrow-0.7.0
58 Wes McKinney
14 Kouhei Sutou
11 Philipp Moritz
7 Phillip Cloud
6 siddharth
5 Uwe L. Korn
2 Bryan Cutler
2 HorimotoYasuhiro
2 Laurent Goujon
2 Li Jin
2 Max Risuhin
2 fjetter
1 Antony Mayi
1 Brecht Machiels
1 Fritz Obermeyer
1 Gonzalo Ortiz
1 Jeff Reback
1 Kyle Kelley
1 Paul Taylor
1 Robert Nishihara
1 Wataru Shimizu
1 hatappi
1 mnc
1 rvernica
1 tetsutaroendo
更新日志
新特性和改进
- ARROW-1156 - [Python] pyarrow.Array.from_pandas 应该接受类型参数
- ARROW-1238 - [Java] 添加 JSON 读/写支持以进行集成测试
- ARROW-1307 - [Python] 在 Sphinx 文档中添加 pandas 序列化部分和 Feather API
- ARROW-1317 - [Python] 添加设置 Hadoop CLASSPATH 的函数
- ARROW-1331 - [Java] 重构测试
- ARROW-1339 - [C++] 使用 boost::filesystem 处理平台特定的文件路径编码
- ARROW-1344 - [C++] 调用 Finish 后调用 BufferOutputStream::Write 导致崩溃
- ARROW-1348 - [C++/Python] 添加 Windows 发布验证脚本
- ARROW-1351 - 自动化更新 CHANGELOG.md 作为发布脚本的一部分
- ARROW-1352 - [集成] 改进 producer, consumer 行的打印格式
- ARROW-1355 - 使 arrow 可以使用 java9 构建
- ARROW-1356 - [网站] 添加新的提交者
- ARROW-1358 - 更新源代码发布脚本以符合新的 SHA 校验和策略
- ARROW-1359 - [Python] 添加 Parquet 写入器选项以规范化用于 Spark 的字段名
- ARROW-1364 - [C++] IPC 读写器专用于 GPU 设备内存
- ARROW-1366 - [Python] 添加从 wheel 安装 pyarrow 时启动 Plasma store 的说明
- ARROW-1372 - [Plasma] 支持将数据存储在 huge page 中
- ARROW-1376 - [C++] RecordBatchStreamReader::Open API 与写入器不一致
- ARROW-1377 - [Python] 添加协助测试 Parquet 扫描性能的函数
- ARROW-1381 - [Python] 提高 SerializedPyObject.to_buffer 的性能
- ARROW-1383 - [C++] 在 builder vector 追加中支持 std::vector
在 builder vector 追加中 - ARROW-1384 - [C++] 添加将 record batch 序列化为 IPC 消息的便捷函数
- ARROW-1386 - [C++] 在 MSVC 构建工具链中取消 CMake 版本的固定
- ARROW-1387 - [C++] 设置 GPU leaf library 构建工具链
- ARROW-1390 - [Python] 扩展 python 序列化测试
- ARROW-1392 - [C++] 为 GPU 缓冲区实现读写 IO 接口
- ARROW-1395 - [C++] 移除 0.5.0 及后续版本中已弃用的 API
- ARROW-1396 - [C++] 为 Schemas 添加 PrettyPrint 函数,该函数也输出任何字典
- ARROW-1397 - [打包] 使用 Docker 代替 Vagrant
- ARROW-1399 - [C++] 在公共头文件中添加 CUDA 构建版本以帮助防止 ABI 冲突
- ARROW-1400 - [Python] 写入 Parquet 时创建分区的能力
- ARROW-1401 - [C++] 在调试构建中为 RETURN_NOT_OK 失败添加额外的调试上下文
- ARROW-1402 - [C++] 可能弃用使用 MutableBuffer 的公共 API
- ARROW-1404 - [打包] 在 Travis CI 上构建 .deb 和 .rpm
- ARROW-1405 - [Python] 添加详细内存分配的日志选项
- ARROW-1406 - [Python] 加强用户 API 以生成与 memoryview 兼容的序列化 schema 和 record batch 消息对象
- ARROW-1408 - [C++] 重构并使 IPC 读写 API 更一致,添加适当的弃用
- ARROW-1410 - Plasma 对象存储偶尔会暂停很长时间
- ARROW-1412 - [Plasma] 添加用于 put 和 get Python 对象的高级 API
- ARROW-1413 - [C++] 添加 include-what-you-use 配置
- ARROW-1415 - [GLib] 支持 date32 和 date64
- ARROW-1416 - [格式] 澄清内存布局文档中的示例数组
- ARROW-1417 - [Python] 允许将更通用的文件系统对象传递给 ParquetDataset
- ARROW-1418 - [Python] 引入 SerializationContext 以注册自定义序列化回调
- ARROW-1419 - [GLib] 抑制 Clang 上的符号转换警告
- ARROW-1427 - [GLib] 添加 Arrow GLib 的 readme 链接
- ARROW-1428 - [C++] 将克隆源代码的步骤添加到 README.md
- ARROW-1432 - [C++] 构建带有私有前缀的捆绑 jemalloc 函数
- ARROW-1433 - [C++] 简化 Array::Slice 的实现
- ARROW-1438 - [Plasma] 通过 PlasmaClient put 和 get 拉取 SerializationContext
- ARROW-1441 - [网站] 在 Flexible 部分添加 Ruby
- ARROW-1442 - [网站] 在 /install 上添加指向 nightly conda 包的指针
- ARROW-1447 - [C++] include-what-you-use 清理轮次
- ARROW-1448 - [打包] 支持将构建的 .deb 和 .rpm 上传到 Bintray
- ARROW-1449 - 仅使用 Int128 实现 Decimal
- ARROW-1451 - [C++] 创建 arrow/io/api.h
- ARROW-1460 - [C++] 将 clang-format 版本升级到 LLVM 4.0
- ARROW-1462 - [GLib] 支持 time array
- ARROW-1466 - [C++] 在 arrow::PrettyPrint 中支持 DecimalArray
- ARROW-1468 - [C++] 从 std::vector 追加到 PrimitiveBuilder
- ARROW-1479 - [JS] 扩展 JavaScript 实现
- ARROW-1480 - [Python] 提高序列化集合的性能
- ARROW-1481 - [C++] 将类型转换作为通用可调用对象暴露,该对象可以写入预分配的内存
- ARROW-1494 - [C++] 文档说明 RecordBatch::column 返回的 shared_ptr 需要保留
- ARROW-1499 - [Python] 考虑为 parquet.write_table 添加设置最大 Spark 兼容性选项
- ARROW-1504 - [GLib] 支持 timestamp
- ARROW-1505 - [GLib] 简化参数检查
- ARROW-1506 - [C++] 支持 compute 模块的 pkg-config
- ARROW-1508 - C++: 在 DictionaryBuilder 中添加对 FixedSizeBinaryType 的支持
- ARROW-1510 - [C++] 支持 cast
- ARROW-1511 - [C++] 弃用 arrow::MakePrimitiveArray
- ARROW-1513 - C++: 添加从 Dictionary 到 plain arrays 的 cast
- ARROW-1515 - [GLib] 直接检测版本
- ARROW-1516 - [GLib] 更新文档
- ARROW-1517 - 移除 DecimalUtil::ToString 函数中不必要的临时变量
- ARROW-1519 - [C++] 将 DecimalUtil 函数移到 Int128 类的成员方法中
- ARROW-1528 - [GLib] 解决 include 依赖关系
- ARROW-1530 - [C++] 安装 arrow/util/parallel.h
- ARROW-1551 - [网站] 0.7.0 版本更新
- ARROW-229 - [C++] 实现 primitive types 的安全 cast
- ARROW-592 - [C++] 提供 .deb 和 .rpm 包
- ARROW-594 - [Python] 提供将 pyarrow.Table 写入流的接口
- ARROW-695 - Decimal 类型的集成测试
- ARROW-696 - [C++] 添加用于集成测试的 Decimal JSON 读写支持
- ARROW-759 - [Python] 实现一个可以处理标量、列表、ndarray、字典混合输入的瞬态列表序列化函数
- ARROW-786 - [格式] 128 位 Decimal 的内存格式,符号位处理
- ARROW-837 - [Python] 暴露缓冲区分配,FixedSizeBufferWriter
- ARROW-941 - [文档] 改进“冷启动”集成测试说明
- ARROW-989 - [Python] 将 pyarrow.Table 写入 FileWriter 或 StreamWriter
Bug 修复
- ARROW-12 - 将 Github 活动镜像到 JIRA
- ARROW-1302 - C++: 在较旧的 MacOS 安装上,${MAKE} 变量有时未设置
- ARROW-1354 - [Python] 混合类型分类的 Table.from_pandas 中出现段错误
- ARROW-1357 - [Python] 读取多文件 parquet 数据集时出现数据损坏
- ARROW-1363 - [C++] IPC 写入器发送字典的缓冲区布局而不是索引
- ARROW-1365 - [Python] 在 Python API 文档中移除已移除的 jemalloc_memory_pool 的用法
- ARROW-1373 - [Java] 在 ValueVector 接口实现 getBuffer() 方法
Buffer() 方法 - ARROW-1375 - [C++] Visual Studio 2017 Appveyor 构建失败
- ARROW-1379 - [Java] maven 依赖问题 - 同时存在未使用和未声明的依赖
- ARROW-1407 - 字典最多只能容纳 4096 个索引
- ARROW-1411 - [Python] Float 列中的布尔值导致段错误
- ARROW-1414 - [GLib] 在状态检查后进行 cast
- ARROW-1421 - [Python] pyarrow.serialize 无法序列化 Python 字典输入
- ARROW-1426 - [网站] 首页的 title 元素为空
- ARROW-1429 - [Python] 从 HDFS 加载带有 _metadata 的 parquet 文件时出错
- ARROW-1430 - [Python] flake8 警告未导致 CI 构建失败
- ARROW-1434 - [C++/Python] pyarrow.Array.from_pandas 不支持 datetime64[D] 数组
- ARROW-1435 - [Python] PyArrow 未将 Parquet 中的时区信息传递给 Python
- ARROW-1439 - [打包] 自动化 RPM 构建中的 RPM 更新
- ARROW-1443 - [Java] ArrowBuf.setBytes 与未切片的 ByteBuffer 存在错误
- ARROW-1444 - [JAVA] BitVector.splitAndTransfer 错误地复制最后一个字节
- ARROW-1446 - Python: 从 pandas dataframe 写入超过 2^31 行导致行数溢出错误
- ARROW-1450 - [Python] 如果自定义序列化处理程序失败,应抛出适当的错误
- ARROW-1452 - [C++] 使 UNUSED 宏名称更独特,以免与第三方项目冲突
- ARROW-1453 - [Python] 实现非连续 tensors 的 WriteTensor
- ARROW-1457 - [C++] 优化 strided WriteTensor
- ARROW-1458 - [Python] 文档说明 HadoopFileSystem.mkdir 设置 create_parents=False 没有效果
- ARROW-1459 - [Python] PyArrow 无法加载包含非 primitive 类型的分区 parquet 文件
- ARROW-1461 - [C++] 暂时禁用使用 LLVM apt 包的构建
- ARROW-1467 - [JAVA]: 修复 Nullable Value Vectors 模板中的 reset() 和 allocateNew()
- ARROW-1490 - [Java] 暂时允许 Travis CI 的 JDK9 构建失败
- ARROW-1493 - [C++] 在每个 PrettyPrint 函数结束时刷新输出流
- ARROW-1495 - [C++] 在 RecordBatch 中存储指向 boxed arrays 的 shared_ptr
- ARROW-1507 - [C++] arrow/compute/api.h 在没有 arrow/array.h 的情况下无法使用
- ARROW-1512 - [文档] NumericArray 没有名为 'raw_data' 的成员
- ARROW-1514 - [C++] 修复文档中的一个拼写错误
- ARROW-1527 - 修复 Travis JDK9 构建
- ARROW-1531 - [C++] 从 Decimal128 按值返回 ToBytes
- ARROW-1532 - [Python] 引用空 Schema 导致段错误
- ARROW-407 - BitVector.copyFromSafe() 如有必要应重新分配而不是返回 false
- ARROW-801 - [JAVA] 提供对底层缓冲区内存地址的直接访问,保持一致性,避免产生垃圾或大量间接引用