Apache Arrow 0.7.0 (2017年9月17日)
这是一个主要版本。在发布博文中阅读更多信息。
下载
贡献者
$ git shortlog -sn apache-arrow-0.6.0..apache-arrow-0.7.0
58 Wes McKinney
14 Kouhei Sutou
11 Philipp Moritz
7 Phillip Cloud
6 siddharth
5 Uwe L. Korn
2 Bryan Cutler
2 HorimotoYasuhiro
2 Laurent Goujon
2 Li Jin
2 Max Risuhin
2 fjetter
1 Antony Mayi
1 Brecht Machiels
1 Fritz Obermeyer
1 Gonzalo Ortiz
1 Jeff Reback
1 Kyle Kelley
1 Paul Taylor
1 Robert Nishihara
1 Wataru Shimizu
1 hatappi
1 mnc
1 rvernica
1 tetsutaroendo
变更日志
新功能和改进
- ARROW-1156 - [Python] pyarrow.Array.from_pandas 应该接受一个类型参数
- ARROW-1238 - [Java] 为集成测试添加 JSON 读/写支持
- ARROW-1307 - [Python] 将 pandas 序列化部分 + Feather API 添加到 Sphinx 文档中
- ARROW-1317 - [Python] 添加设置 Hadoop CLASSPATH 的函数
- ARROW-1331 - [Java] 重构测试
- ARROW-1339 - [C++] 使用 boost::filesystem 处理特定平台的文件路径编码
- ARROW-1344 - [C++] 在调用 Finish 后调用 BufferOutputStream::Write 会导致崩溃
- ARROW-1348 - [C++/Python] 为 Windows 添加发行版验证脚本
- ARROW-1351 - 将更新 CHANGELOG.md 自动化作为发布脚本的一部分
- ARROW-1352 - [集成] 改进生产者和消费者行的打印格式
- ARROW-1355 - 使 arrow 可以使用 java9 构建
- ARROW-1356 - [网站] 添加新的提交者
- ARROW-1358 - 更新源代码发布脚本以考虑新的 SHA 校验和策略
- ARROW-1359 - [Python] 添加 Parquet writer 选项以规范字段名称以便在 Spark 中使用
- ARROW-1364 - [C++] 专门用于 GPU 设备内存的 IPC 读取器和写入器
- ARROW-1366 - [Python] 添加在从 wheel 安装 pyarrow 时启动 Plasma 存储的说明
- ARROW-1372 - [Plasma] 支持在巨页中存储数据
- ARROW-1376 - [C++] RecordBatchStreamReader::Open API 与写入器不一致
- ARROW-1377 - [Python] 添加辅助基准测试 Parquet 扫描性能的函数
- ARROW-1381 - [Python] 提高 SerializedPyObject.to_buffer 的性能
- ARROW-1383 - [C++] 支持 std::vector
在构建器向量追加中 - ARROW-1384 - [C++] 添加用于将记录批序列化为 IPC 消息的便捷函数
- ARROW-1386 - [C++] 在 MSVC 构建工具链中取消固定 CMake 版本
- ARROW-1387 - [C++] 设置 GPU 叶子库构建工具链
- ARROW-1390 - [Python] 扩展 python 序列化测试
- ARROW-1392 - [C++] 为 GPU 缓冲区实现读取器和写入器 IO 接口
- ARROW-1395 - [C++] 删除 0.5.0 及更高版本中弃用的 API
- ARROW-1396 - [C++] 为模式添加 PrettyPrint 函数,该函数还输出任何字典
- ARROW-1397 - [打包] 使用 Docker 代替 Vagrant
- ARROW-1399 - [C++] 在公共头文件中添加 CUDA 构建版本以帮助防止 ABI 冲突
- ARROW-1400 - [Python] 写入 Parquet 时能够创建分区
- ARROW-1401 - [C++] 在调试版本中向 RETURN_NOT_OK 中的故障添加额外的调试上下文
- ARROW-1402 - [C++] 可能弃用使用 MutableBuffer 的公共 API
- ARROW-1404 - [打包] 在 Travis CI 上构建 .deb 和 .rpm
- ARROW-1405 - [Python] 添加用于详细内存分配的日志记录选项
- ARROW-1406 - [Python] 强化用户 API 以生成序列化模式和记录批处理消息作为与 memoryview 兼容的对象
- ARROW-1408 - [C++] 重构并使 IPC 读/写 API 更一致,添加适当的弃用
- ARROW-1410 - Plasma 对象存储偶尔会长时间暂停
- ARROW-1412 - [Plasma] 为放置和获取 Python 对象添加更高级别的 API
- ARROW-1413 - [C++] 添加包含您使用的配置
- ARROW-1415 - [GLib] 支持 date32 和 date64
- ARROW-1416 - [格式] 阐明内存布局文档中的示例数组
- ARROW-1417 - [Python] 允许将更通用的文件系统对象传递给 ParquetDataset
- ARROW-1418 - [Python] 引入 SerializationContext 以注册自定义序列化回调
- ARROW-1419 - [GLib] 在 Clang 上禁止符号转换警告
- ARROW-1427 - [GLib] 添加指向 Arrow GLib 自述文件的链接
- ARROW-1428 - [C++] 将克隆源代码的步骤添加到 README.mb
- ARROW-1432 - [C++] 使用私有前缀构建捆绑的 jemalloc 函数
- ARROW-1433 - [C++] 简化 Array::Slice 的实现
- ARROW-1438 - [Plasma] 通过 PlasmaClient put 和 get 拉取 SerializationContext
- ARROW-1441 - [站点] 将 Ruby 添加到“灵活”部分
- ARROW-1442 - [网站] 在 /install 上添加指向 nightly conda 包的指针
- ARROW-1447 - [C++] 包含您使用的包含清理
- ARROW-1448 - [打包] 支持将构建的 .deb 和 .rpm 上传到 Bintray
- ARROW-1449 - 仅使用 Int128 实现 Decimal
- ARROW-1451 - [C++] 创建 arrow/io/api.h
- ARROW-1460 - [C++] 将使用的 clang-format 升级到 LLVM 4.0
- ARROW-1462 - [GLib] 支持时间数组
- ARROW-1466 - [C++] 在 arrow::PrettyPrint 中支持 DecimalArray
- ARROW-1468 - [C++] 从 std::vector 附加到 PrimitiveBuilder
- ARROW-1479 - [JS] 扩展 JavaScript 实现
- ARROW-1480 - [Python] 提高序列化集合的性能
- ARROW-1481 - [C++] 将类型转换公开为可以写入预分配内存的通用可调用对象
- ARROW-1494 - [C++] 记录 RecordBatch::column 返回的 shared_ptr 需要保留
- ARROW-1499 - [Python] 考虑为 parquet.write_table 添加设置最大 Spark 兼容性选项的选项
- ARROW-1504 - [GLib] 支持时间戳
- ARROW-1505 - [GLib] 简化参数检查
- ARROW-1506 - [C++] 支持计算模块的 pkg-config
- ARROW-1508 - C++: 在 DictionaryBuilder 中添加对 FixedSizeBinaryType 的支持
- ARROW-1510 - [C++] 支持转换
- ARROW-1511 - [C++] 弃用 arrow::MakePrimitiveArray
- ARROW-1513 - C++: 添加从 Dictionary 到普通数组的转换
- ARROW-1515 - [GLib] 直接检测版本
- ARROW-1516 - [GLib] 更新文档
- ARROW-1517 - 删除 DecimalUtil::ToString 函数中不必要的临时变量
- ARROW-1519 - [C++] 将 DecimalUtil 函数移动到 Int128 类的方法
- ARROW-1528 - [GLib] 解决包含依赖关系
- ARROW-1530 - [C++] 安装 arrow/util/parallel.h
- ARROW-1551 - [网站] 0.7.0 发行版更新
- ARROW-229 - [C++] 为基元类型实现安全转换
- ARROW-592 - [C++] 提供 .deb 和 .rpm 软件包
- ARROW-594 - [Python] 提供将 pyarrow.Table 写入流的接口
- ARROW-695 - Decimal 类型的集成测试
- ARROW-696 - [C++] 为集成测试添加对 Decimal 的 JSON 读/写支持
- ARROW-759 - [Python] 实现一个可以处理标量、列表、ndarray 和字典混合的瞬态列表序列化函数
- ARROW-786 - [格式] 128 位 Decimal 的内存格式,符号位的处理
- ARROW-837 - [Python] 公开缓冲区分配,FixedSizeBufferWriter
- ARROW-941 - [文档] 改进“冷启动”集成测试说明
- ARROW-989 - [Python] 将 pyarrow.Table 写入 FileWriter 或 StreamWriter
错误修复
- ARROW-12 - 将 Github 活动镜像到 JIRA
- ARROW-1302 - C++: 在较旧的 MacOS 安装中,有时未设置 ${MAKE} 变量
- ARROW-1354 - [Python] Table.from_pandas 在使用混合类型类别时出现段错误
- ARROW-1357 - [Python] 读取多文件 parquet 数据集时数据损坏
- ARROW-1363 - [C++] IPC写入器发送字典的缓冲区布局而不是索引
- ARROW-1365 - [Python] 在 Python API 文档中移除已删除的 jemalloc_memory_pool 的用法
- ARROW-1373 - [Java] 在 ValueVector 接口中实现 get
Buffer() 方法 - ARROW-1375 - [C++] Visual Studio 2017 Appveyor 构建失败
- ARROW-1379 - [Java] maven 依赖问题 - 未使用和未声明
- ARROW-1407 - 字典最多只能包含 4096 个索引
- ARROW-1411 - [Python] 浮点列中的布尔值导致段错误
- ARROW-1414 - [GLib] 状态检查后的强制转换
- ARROW-1421 - [Python] pyarrow.serialize 无法序列化 Python dict 输入
- ARROW-1426 - [网站] 首页的标题元素为空
- ARROW-1429 - [Python] 从 HDFS 加载带有 _metadata 的 parquet 文件时出错
- ARROW-1430 - [Python] flake8 警告不会导致 CI 构建失败
- ARROW-1434 - [C++/Python] pyarrow.Array.from_pandas 不支持 datetime64[D] 数组
- ARROW-1435 - [Python] PyArrow 未将时区信息从 Parquet 传播到 Python
- ARROW-1439 - [打包] 在 RPM 构建中自动更新 RPM
- ARROW-1443 - [Java] 使用未切片的 ByteBuffer 时 ArrowBuf.setBytes 出现错误
- ARROW-1444 - [JAVA] BitVector.splitAndTransfer 错误地复制最后一个字节
- ARROW-1446 - Python:从 pandas 数据帧写入超过 2^31 行会导致行计数溢出错误
- ARROW-1450 - [Python] 如果自定义序列化处理程序失败,则引发正确的错误
- ARROW-1452 - [C++] 使 UNUSED 宏名称更唯一,以免与第三方项目冲突
- ARROW-1453 - [Python] 为非连续张量实现 WriteTensor
- ARROW-1457 - [C++] 优化跨步 WriteTensor
- ARROW-1458 - [Python] 记录 HadoopFileSystem.mkdir with create_parents=False 无效
- ARROW-1459 - [Python] PyArrow 无法加载具有非基本类型的分区 parquet 文件
- ARROW-1461 - [C++] 暂时禁用使用 LLVM apt 包的构建
- ARROW-1467 - [JAVA]: 修复 Nullable Value Vectors 模板中的 reset() 和 allocateNew()
- ARROW-1490 - [Java] 暂时允许 Travis CI JDK9 失败
- ARROW-1493 - [C++] 在每个 PrettyPrint 函数结束时刷新输出流
- ARROW-1495 - [C++] 在 RecordBatch 中存储 boxed 数组的 shared_ptr
- ARROW-1507 - [C++] arrow/compute/api.h 不能在没有 arrow/array.h 的情况下使用
- ARROW-1512 - [文档] NumericArray 没有名为“raw_data”的成员
- ARROW-1514 - [C++] 修复文档中的拼写错误
- ARROW-1527 - 修复 Travis JDK9 构建
- ARROW-1531 - [C++] 从 Decimal128 返回 ToBytes 值
- ARROW-1532 - [Python] 引用空 Schema 会导致段错误
- ARROW-407 - BitVector.copyFromSafe() 应在必要时重新分配而不是返回 false
- ARROW-801 - [JAVA] 以一致的方式提供对底层缓冲区内存地址的直接访问,而不会产生垃圾或大量的间接访问