Apache Arrow 0.6.0 (2017年8月14日)
这是一个主要版本。请阅读发布博文了解更多信息。
下载
贡献者
$ git shortlog -sn apache-arrow-0.5.0..apache-arrow-0.6.0
48 Wes McKinney
7 siddharth
5 Matt Darwin
5 Max Risuhin
5 Philipp Moritz
4 Kouhei Sutou
3 Bryan Cutler
2 Emilio Lahr-Vivaz
2 Li Jin
2 Robert Nishihara
1 Antony Mayi
1 Marco Neumann
1 Stepan Kadlec
1 Steven Phillips
1 Yeolar
1 fjetter
1 rendel
更新日志
新功能和改进
- ARROW-1076 - [Python] 在写入 Parquet 格式时,更妥善地处理纳秒级时间戳
- ARROW-1093 - [Python] 如果 flake8 产生警告,则 Python 构建失败
- ARROW-1104 - 集成来自 Ray 的内存中对象存储
- ARROW-1121 - [C++] 改进打开操作系统文件失败时的错误信息
- ARROW-1140 - [C++] 允许 Plasma 的可选构建
- ARROW-1149 - [Plasma] 为 Plasma 创建 Cython 客户端库
- ARROW-1173 - [Plasma] 关于 Plasma 的博文
- ARROW-1211 - [C++] 考虑将 default_memory_pool() 作为构建器类的默认设置
- ARROW-1213 - [Python] 允许将 s3fs 与 ParquetDataset 以及读/写函数一起使用
- ARROW-1219 - [C++] 使用更标准的 Google C++ 格式
- ARROW-1224 - [格式] 在 IPC 中阐明有关缓冲区填充和对齐的语言
- ARROW-1230 - [Plasma] 安装库和头文件
- ARROW-1241 - [C++] Visual Studio 2017 Appveyor 构建作业
- ARROW-1243 - [Java] 安全性:将所有库升级到最新的稳定版本
- ARROW-1246 - [格式] 将 Map 逻辑类型添加到元数据
- ARROW-1251 - [Python/C++] 修订构建文档以适应最新的构建工具链
- ARROW-1253 - [C++] 酌情使用预构建的工具链库以加速 CI 构建
- ARROW-1255 - [Plasma] 使用 flatbuffer 验证器检查 plasma flatbuffer 消息
- ARROW-1257 - [Plasma] Plasma 文档
- ARROW-1258 - [C++] 在 Clang 上抑制 dlmalloc 警告
- ARROW-1259 - [Plasma] 加速 Plasma 测试
- ARROW-1260 - [Plasma] 使用工厂方法创建 Python PlasmaClient
- ARROW-1264 - [Plasma] 如果 plasma 客户端无法连接到存储,不要退出 Python 解释器
- ARROW-1268 - [网站] 关于 Arrow 与 Spark 集成的博文
- ARROW-1270 - [打包] 将用于 macOS 的 Python wheel 构建脚本添加到 arrow-dist
- ARROW-1272 - [Python] 在 arrow-dist 中添加脚本以生成并上传 manylinux1 Python wheels
- ARROW-1273 - [Python] 添加便利函数,用于仅从特定 Parquet 文件中读取 Parquet 元数据或有效的 Arrow schema
- ARROW-1274 - [C++] add_compiler_export_flags() 在 CMake >= 3.3 中抛出警告
- ARROW-1281 - [C++/Python] 添加 Docker 设置以运行 HDFS 测试以及其他可能不在 Travis CI 中运行的测试
- ARROW-1288 - 清理许多 ASF 许可证头
- ARROW-1289 - [Python] 添加类似 Parquet 的 PYARROW_BUILD_PLASMA 选项
- ARROW-1297 - 0.6.0 版本发布
- ARROW-1301 - [C++/Python] 添加剩余的受支持的 libhdfs 类 UNIX 文件系统 API
- ARROW-1303 - [C++] 支持下载 Boost
- ARROW-1304 - [Java] 修复 checkstyle 检查警告
- ARROW-1305 - [GLib] 添加 GArrowIntArrayBuilder
- ARROW-1315 - [GLib] 缺少对 arrow::ArrayBuilder::Finish() 的状态检查
- ARROW-1323 - [GLib] 添加 garrow_boolean_array_get_values()
- ARROW-1333 - [Plasma] 在 plasma 中对 DataFrames 进行排序的示例
- ARROW-1334 - [C++] 从 Array 对象向量(而非 Columns)实例化 arrow::Table
- ARROW-1336 - [C++] 添加 arrow::schema 工厂函数
- ARROW-439 - [Python] 在“to_pandas”转换中添加选项,以从 String/Binary 数组生成 Categorical
- ARROW-622 - [Python] 研究在 pandas 转换中替代 timestamps_to_ms 参数的方法
Bug 修复
- ARROW-1192 - [JAVA] 提高 List 和 Union 向量的 splitAndTransfer 性能
- ARROW-1195 - [C++] CpuInfo 在 Windows 上无法获取缓存大小
- ARROW-1204 - [C++] lz4 ExternalProject 在 Visual Studio 2015 中失败
- ARROW-1225 - [Python] 在传递 StringType 时,pyarrow.array 不会尝试将字节转换为 UTF8
- ARROW-1237 - [JAVA] 暴露设置 lastSet 的能力
- ARROW-1239 - 当前版本的 git-commit-id-plugin 存在问题
- ARROW-1240 - 安全性:升级 logback 以解决 CVE-2017-5929
- ARROW-1242 - [Java] 安全性 - 升级 Jackson 以缓解 3 个 CVE 漏洞
- ARROW-1245 - [集成] Java 集成测试已禁用
- ARROW-1248 - [Python] 在 Clang 中使用公共 Cython API 时出现 C 链接警告
-
ARROW-1249 - [JAVA] 暴露来自 Nullable 的 fillEmpties 函数
Vector.mutator - ARROW-1263 - [C++] CpuInfo 应该能够在 Windows 上获取 CPU 特性
- ARROW-1265 - [Plasma] Python 测试套件中的 Plasma 存储内存泄漏警告
- ARROW-1267 - [Java] 处理 BitVector.splitAndTransfer 中的零长度情况
- ARROW-1269 - [打包] 将 ARROW-1068 中的 Windows wheel 构建脚本添加到 arrow-dist
- ARROW-1275 - [C++] Snappy 的默认静态库前缀应为“_static”
- ARROW-1276 - 无法将空的 DataFrame 序列化为 parquet
- ARROW-1283 - [Java] VectorSchemaRoot 应该能够被 close() 多次
- ARROW-1285 - PYTHON: NotImplemented 异常创建了空的 parquet 文件
- ARROW-1287 - [Python] 在 NativeFile 中模拟 seek 的“whence”参数
- ARROW-1290 - [C++] 在 arrow::BufferBuilder 中使用数组容量加倍
- ARROW-1291 - [Python] pa.RecordBatch.from_pandas 不接受带数字列名的 DataFrame
- ARROW-1294 - [C++] 新的 Appveyor 构建失败
- ARROW-1296 - [Java] templates/FixValueVectors 的 reset() 方法未正确设置 allocationSizeInBytes
- ARROW-1300 - [JAVA] 修复 ListVector 测试
- ARROW-1306 - [Python] parquet.read_table 的错误报告存在编码问题?
- ARROW-1308 - [C++] 即使在 -DARROW_BUILD_STATIC=off 的情况下,ld 仍尝试链接 'arrow_static'
- ARROW-1309 - [Python] 当内部值都为 None 时,在 Array.from_pandas 中推断 List 类型时出错
- ARROW-1310 - [JAVA] 还原 ARROW-886
- ARROW-1312 - [C++] 将 ARROW_JEMALLOC 的默认值设为 OFF,直到 ARROW-1282 解决
- ARROW-1326 - [Python] 修复 Travis CI 中的 Sphinx 构建
- ARROW-1327 - [Python] 在 MemoryMappedFile._open 中未能释放 GIL 导致死锁
- ARROW-1328 - [Python] pyarrow.Table.from_pandas 的 timestamps_to_ms 选项会改变列值
- ARROW-1330 - [Plasma] 在 manylinux1 上开启 plasma 测试
- ARROW-1335 - [C++] 与子类相比,PrimitiveArray::raw_values 在偏移量方面语义不一致
- ARROW-1338 - [Python] 调查 Python 2.7, Travis CI 构建中非确定性的核心转储问题
- ARROW-1340 - [Java] NullableMapVector 字段不维护元数据
- ARROW-1342 - [Python] 支持跨步的列表数组
- ARROW-1343 - [格式/Java/C++] 确保封装的流/IPC 消息大小始终是 8 的倍数
- ARROW-1350 - [C++] 在源代码分发中包含 Plasma 源码树
- ARROW-187 - [C++] 决定我们对异常的处理要多么严格
- ARROW-276 - [JAVA] 可空值向量应继承 BaseValueVector 而不是 BaseDataValueVector
- ARROW-573 - [Python/C++] 支持有序字典数据,pandas Categorical
- ARROW-884 - [C++] 从文档中排除内部类
- ARROW-932 - [Python] 修复 MSVC 上的编译器警告
- ARROW-968 - [Python] RecordBatch [i:j] 语法不完整