Apache Arrow 0.6.0 (2017 年 8 月 14 日)
这是一个主要版本。阅读发布博客文章了解更多信息。
下载
贡献者
$ git shortlog -sn apache-arrow-0.5.0..apache-arrow-0.6.0
48 Wes McKinney
7 siddharth
5 Matt Darwin
5 Max Risuhin
5 Philipp Moritz
4 Kouhei Sutou
3 Bryan Cutler
2 Emilio Lahr-Vivaz
2 Li Jin
2 Robert Nishihara
1 Antony Mayi
1 Marco Neumann
1 Stepan Kadlec
1 Steven Phillips
1 Yeolar
1 fjetter
1 rendel
更新日志
新特性和改进
- ARROW-1076 - [Python] 写入 Parquet 格式时更优雅地处理纳秒时间戳
- ARROW-1093 - [Python] 如果 flake8 产生警告,则 Python 构建失败
- ARROW-1104 - 集成来自 Ray 的内存对象存储
- ARROW-1121 - [C++] 改进打开操作系统文件失败时的错误消息
- ARROW-1140 - [C++] 允许可选的 plasma 构建
- ARROW-1149 - [Plasma] 为 Plasma 创建 Cython 客户端库
- ARROW-1173 - [Plasma] Plasma 的博客文章
- ARROW-1211 - [C++] 考虑使 default_memory_pool() 成为 builder 类的默认值
- ARROW-1213 - [Python] 使 s3fs 可以与 ParquetDataset 和 reader/writer 函数一起使用
- ARROW-1219 - [C++] 使用更标准的 Google C++ 格式
- ARROW-1224 - [Format] 澄清 IPC 中关于缓冲区填充和对齐的语言
- ARROW-1230 - [Plasma] 安装库和头文件
- ARROW-1241 - [C++] Visual Studio 2017 Appveyor 构建作业
- ARROW-1243 - [Java] 安全性:将所有库升级到最新的稳定版本
- ARROW-1246 - [Format] 将 Map 逻辑类型添加到元数据
- ARROW-1251 - [Python/C++] 修订构建文档以适应最新的构建工具链
- ARROW-1253 - [C++] 在谨慎的情况下使用预构建的工具链库来加速 CI 构建
- ARROW-1255 - [Plasma] 使用 flatbuffer 验证器检查 plasma flatbuffer 消息
- ARROW-1257 - [Plasma] Plasma 文档
- ARROW-1258 - [C++] 抑制 Clang 上的 dlmalloc 警告
- ARROW-1259 - [Plasma] 加速 Plasma 测试
- ARROW-1260 - [Plasma] 使用工厂方法创建 Python PlasmaClient
- ARROW-1264 - [Plasma] 如果 plasma 客户端无法连接到存储,则不要退出 Python 解释器
- ARROW-1268 - [网站] 关于 Arrow 与 Spark 集成的博客文章
- ARROW-1270 - [Packaging] 将 macOS 的 Python wheel 构建脚本添加到 arrow-dist
- ARROW-1272 - [Python] 将脚本添加到 arrow-dist 以生成和上传 manylinux1 Python wheel
- ARROW-1273 - [Python] 添加便捷函数,用于仅从特定 Parquet 文件读取 Parquet 元数据或有效的 Arrow schema
- ARROW-1274 - [C++] add_compiler_export_flags() 在 CMake >= 3.3 时抛出警告
- ARROW-1281 - [C++/Python] 添加 Docker 设置,用于运行 HDFS 测试以及我们可能不在 Travis CI 中运行的其他测试
- ARROW-1288 - 清理许多 ASF 许可证标头
- ARROW-1289 - [Python] 添加类似 Parquet 的 PYARROW_BUILD_PLASMA 选项
- ARROW-1297 - 0.6.0 发布
- ARROW-1301 - [C++/Python] 添加剩余受支持的 libhdfs 类 UNIX 文件系统 API
- ARROW-1303 - [C++] 支持下载 Boost
- ARROW-1304 - [Java] 修复 checkstyle 检查警告
- ARROW-1305 - [GLib] 添加 GArrowIntArrayBuilder
- ARROW-1315 - [GLib] 缺少 arrow::ArrayBuilder::Finish() 的状态检查
- ARROW-1323 - [GLib] 添加 garrow_boolean_array_get_values()
- ARROW-1333 - [Plasma] 用于 Plasma 中 DataFrames 的排序示例
- ARROW-1334 - [C++] 从 Array 对象(而不是 Columns)的向量实例化 arrow::Table
- ARROW-1336 - [C++] 添加 arrow::schema 工厂函数
- ARROW-439 - [Python] 在 "to_pandas" 转换中添加选项以从 String/Binary 数组生成 Categorical
- ARROW-622 - [Python] 调查 pandas 转换中 timestamps_to_ms 参数的替代方案
Bug 修复
- ARROW-1192 - [JAVA] 提高 List 和 Union 向量的 splitAndTransfer 性能
- ARROW-1195 - [C++] CpuInfo 在 Windows 上没有获取缓存大小
- ARROW-1204 - [C++] lz4 ExternalProject 在 Visual Studio 2015 中失败
- ARROW-1225 - [Python] pyarrow.array 在传递 StringType 时不尝试将字节转换为 UTF8
- ARROW-1237 - [JAVA] 公开设置 lastSet 的能力
- ARROW-1239 - git-commit-id-plugin 当前版本的问题
- ARROW-1240 - 安全性:升级 logback 以解决 CVE-2017-5929
- ARROW-1242 - [Java] 安全性 - 升级 Jackson 以缓解 3 个 CVE 漏洞
- ARROW-1245 - [Integration] Java 集成测试已禁用
- ARROW-1248 - [Python] 带有公共 Cython API 的 Clang 中的 C 链接警告
- ARROW-1249 - [JAVA] 公开 Nullable 中的 fillEmpties 函数
Vector.mutator - ARROW-1263 - [C++] CpuInfo 应该能够在 Windows 上获取 CPU 功能
- ARROW-1265 - [Plasma] Python 测试套件中的 Plasma 存储内存泄漏警告
- ARROW-1267 - [Java] 处理 BitVector.splitAndTransfer 中的零长度情况
- ARROW-1269 - [Packaging] 将 ARROW-1068 中的 Windows wheel 构建脚本添加到 arrow-dist
- ARROW-1275 - [C++] Snappy 的默认静态库前缀应为 “_static”
- ARROW-1276 - 无法将空 DataFrame 序列化为 parquet
- ARROW-1283 - [Java] VectorSchemaRoot 应该能够被 closed() 多次
- ARROW-1285 - PYTHON:NotImplemented 异常创建空 parquet 文件
- ARROW-1287 - [Python] 模拟 NativeFile 中 seek 的 “whence” 参数
- ARROW-1290 - [C++] 在 arrow::BufferBuilder 中使用数组容量加倍
- ARROW-1291 - [Python] pa.RecordBatch.from_pandas 不接受带有数字列名的 DataFrame
- ARROW-1294 - [C++] 新的 Appveyor 构建失败
- ARROW-1296 - [Java] templates/FixValueVectors reset() 方法没有正确设置 allocationSizeInBytes
- ARROW-1300 - [JAVA] 修复 ListVector 测试
- ARROW-1306 - [Python] parquet.read_table 的错误报告中的编码问题?
- ARROW-1308 - [C++] 即使 -DARROW_BUILD_STATIC=off,ld 也尝试链接 ‘arrow_static’
- ARROW-1309 - [Python] 当内部值全部为 None 时,Array.from_pandas 中推断列表类型时出错
- ARROW-1310 - [JAVA] 还原 ARROW-886
- ARROW-1312 - [C++] 将 ARROW_JEMALLOC 的默认值设置为 OFF,直到 ARROW-1282 解决
- ARROW-1326 - [Python] 修复 Travis CI 中的 Sphinx 构建
- ARROW-1327 - [Python] 在 MemoryMappedFile._open 中未能释放 GIL 导致死锁
- ARROW-1328 - [Python] pyarrow.Table.from_pandas 选项 timestamps_to_ms 更改列值
- ARROW-1330 - [Plasma] 在 manylinux1 上启用 plasma 测试
- ARROW-1335 - [C++] 与子类相比,PrimitiveArray::raw_values 在偏移方面具有不一致的语义
- ARROW-1338 - [Python] 调查 Python 2.7,Travis CI 构建上的非确定性核心转储
- ARROW-1340 - [Java] NullableMapVector 字段不维护元数据
- ARROW-1342 - [Python] 支持跨步列表数组
- ARROW-1343 - [Format/Java/C++] 确保封装的流/ IPC 消息大小始终是 8 的倍数
- ARROW-1350 - [C++] 在源发行版中包含 Plasma 源代码树
- ARROW-187 - [C++] 决定我们对异常的严格程度
- ARROW-276 - [JAVA] Nullable Value Vectors 应该扩展 BaseValueVector 而不是 BaseDataValueVector
- ARROW-573 - [Python/C++] 支持有序字典数据,pandas Categorical
- ARROW-884 - [C++] 从文档中排除内部类
- ARROW-932 - [Python] 修复 MSVC 上的编译器警告
- ARROW-968 - [Python] RecordBatch [i:j] 语法不完整