Apache Arrow 0.6.0 (2017年8月14日)
这是一个主要版本。请在版本发布博文中了解更多信息。
下载
贡献者
$ git shortlog -sn apache-arrow-0.5.0..apache-arrow-0.6.0
48 Wes McKinney
7 siddharth
5 Matt Darwin
5 Max Risuhin
5 Philipp Moritz
4 Kouhei Sutou
3 Bryan Cutler
2 Emilio Lahr-Vivaz
2 Li Jin
2 Robert Nishihara
1 Antony Mayi
1 Marco Neumann
1 Stepan Kadlec
1 Steven Phillips
1 Yeolar
1 fjetter
1 rendel
变更日志
新功能和改进
- ARROW-1076 - [Python] 在写入 Parquet 格式时更优雅地处理纳秒级时间戳
- ARROW-1093 - [Python] 如果 flake8 产生警告,则 Python 构建失败
- ARROW-1104 - 集成 Ray 的内存对象存储
- ARROW-1121 - [C++] 改进打开操作系统文件失败时的错误消息
- ARROW-1140 - [C++] 允许可选构建 plasma
- ARROW-1149 - [Plasma] 为 Plasma 创建 Cython 客户端库
- ARROW-1173 - [Plasma] Plasma 博文
- ARROW-1211 - [C++] 考虑将 default_memory_pool() 作为构建器类的默认值
- ARROW-1213 - [Python] 允许 s3fs 与 ParquetDataset 和读取器/写入器函数一起使用
- ARROW-1219 - [C++] 使用更普通的 Google C++ 格式
- ARROW-1224 - [格式] 阐明 IPC 中关于缓冲区填充和对齐的语言
- ARROW-1230 - [Plasma] 安装库和头文件
- ARROW-1241 - [C++] Visual Studio 2017 Appveyor 构建作业
- ARROW-1243 - [Java] 安全:将所有库升级到最新的稳定版本
- ARROW-1246 - [格式] 将 Map 逻辑类型添加到元数据
- ARROW-1251 - [Python/C++] 修改构建文档以考虑最新的构建工具链
- ARROW-1253 - [C++] 在适当的地方使用预构建的工具链库来加速 CI 构建
- ARROW-1255 - [Plasma] 使用 flatbuffer 验证器检查 plasma flatbuffer 消息
- ARROW-1257 - [Plasma] Plasma 文档
- ARROW-1258 - [C++] 在 Clang 上抑制 dlmalloc 警告
- ARROW-1259 - [Plasma] 加速 Plasma 测试
- ARROW-1260 - [Plasma] 使用工厂方法创建 Python PlasmaClient
- ARROW-1264 - [Plasma] 如果 plasma 客户端无法连接到存储,则不要退出 Python 解释器
- ARROW-1268 - [网站] 关于 Arrow 与 Spark 集成的博文
- ARROW-1270 - [打包] 将 macOS 的 Python wheel 构建脚本添加到 arrow-dist
- ARROW-1272 - [Python] 向 arrow-dist 添加脚本以生成和上传 manylinux1 Python wheel
- ARROW-1273 - [Python] 添加便捷函数,用于从特定 Parquet 文件读取仅 Parquet 元数据或有效的 Arrow 模式
- ARROW-1274 - [C++] add_compiler_export_flags() 在 CMake >= 3.3 时抛出警告
- ARROW-1281 - [C++/Python] 添加 Docker 设置以运行 HDFS 测试和其他我们可能不在 Travis CI 中运行的测试
- ARROW-1288 - 清理许多 ASF 许可证头文件
- ARROW-1289 - [Python] 添加 PYARROW_BUILD_PLASMA 选项,如 Parquet
- ARROW-1297 - 0.6.0 版本
- ARROW-1301 - [C++/Python] 添加其余支持的 libhdfs 类 UNIX 文件系统 API
- ARROW-1303 - [C++] 支持下载 Boost
- ARROW-1304 - [Java] 修复 checkstyle 检查警告
- ARROW-1305 - [GLib] 添加 GArrowIntArrayBuilder
- ARROW-1315 - [GLib] 缺少 arrow::ArrayBuilder::Finish() 的状态检查
- ARROW-1323 - [GLib] 添加 garrow_boolean_array_get_values()
- ARROW-1333 - [Plasma] plasma 中 DataFrames 的排序示例
- ARROW-1334 - [C++] 从 Array 对象向量(而不是列)实例化 arrow::Table
- ARROW-1336 - [C++] 添加 arrow::schema 工厂函数
- ARROW-439 - [Python] 在“to_pandas”转换中添加选项以从字符串/二进制数组生成 Categorical
- ARROW-622 - [Python] 研究 pandas 转换中 timestamps_to_ms 参数的替代方案
错误修复
- ARROW-1192 - [JAVA] 提高 List 和 Union 向量的 splitAndTransfer 性能
- ARROW-1195 - [C++] CpuInfo 在 Windows 上无法获取缓存大小
- ARROW-1204 - [C++] lz4 ExternalProject 在 Visual Studio 2015 中失败
- ARROW-1225 - [Python] 当传递 StringType 时,pyarrow.array 不会尝试将字节转换为 UTF8
- ARROW-1237 - [JAVA] 公开设置 lastSet 的功能
- ARROW-1239 - git-commit-id-plugin 当前版本的问题
- ARROW-1240 - 安全:升级 logback 以解决 CVE-2017-5929
- ARROW-1242 - [Java] 安全 - 升级 Jackson 以缓解 3 个 CVE 漏洞
- ARROW-1245 - [集成] Java 集成测试已禁用
- ARROW-1248 - [Python] 在具有公共 Cython API 的 Clang 中出现 C 链接警告
- ARROW-1249 - [JAVA] 从 Nullable 公开 fillEmpties 函数
Vector.mutator - ARROW-1263 - [C++] CpuInfo 应该能够在 Windows 上获取 CPU 功能
- ARROW-1265 - [Plasma] Python 测试套件中 Plasma 存储内存泄漏警告
- ARROW-1267 - [Java] 在 BitVector.splitAndTransfer 中处理零长度情况
- ARROW-1269 - [打包] 将 ARROW-1068 中的 Windows wheel 构建脚本添加到 arrow-dist
- ARROW-1275 - [C++] Snappy 的默认静态库前缀应为“_static”
- ARROW-1276 - 无法将空 DataFrame 序列化为 parquet
- ARROW-1283 - [Java] VectorSchemaRoot 应该能够多次被 close()
- ARROW-1285 - PYTHON:NotImplemented 异常创建空 parquet 文件
- ARROW-1287 - [Python] 在 NativeFile 中模拟 seek 的“whence”参数
- ARROW-1290 - [C++] 在 arrow::BufferBuilder 中使用数组容量加倍
- ARROW-1291 - [Python] pa.RecordBatch.from_pandas 不接受具有数字列名的 DataFrame
- ARROW-1294 - [C++] 新的 Appveyor 构建失败
- ARROW-1296 - [Java] templates/FixValueVectors reset() 方法未正确设置 allocationSizeInBytes
- ARROW-1300 - [JAVA] 修复 ListVector 测试
- ARROW-1306 - [Python] parquet.read_table 错误报告的编码问题
- ARROW-1308 - [C++] 即使 -DARROW_BUILD_STATIC=off,ld 也会尝试链接 'arrow_static'
- ARROW-1309 - [Python] 当内部值均为 None 时,在 Array.from_pandas 中推断 List 类型时出错
- ARROW-1310 - [JAVA] 恢复 ARROW-886
- ARROW-1312 - [C++] 将 ARROW_JEMALLOC 的默认值设置为 OFF,直到 ARROW-1282 得到解决
- ARROW-1326 - [Python] 修复 Travis CI 中的 Sphinx 构建
- ARROW-1327 - [Python] 未能在 MemoryMappedFile._open 中释放 GIL 导致死锁
- ARROW-1328 - [Python] pyarrow.Table.from_pandas 选项 timestamps_to_ms 更改列值
- ARROW-1330 - [Plasma] 在 manylinux1 上启用 plasma 测试
- ARROW-1335 - [C++] 与子类相比,PrimitiveArray::raw_values 在偏移量方面具有不一致的语义
- ARROW-1338 - [Python] 调查 Python 2.7、Travis CI 构建上的非确定性核心转储
- ARROW-1340 - [Java] NullableMapVector 字段未维护元数据
- ARROW-1342 - [Python] 支持列表的跨步数组
- ARROW-1343 - [格式/Java/C++] 确保封装的流 / IPC 消息大小始终是 8 的倍数
- ARROW-1350 - [C++] 在源代码发行版中包含 Plasma 源代码树
- ARROW-187 - [C++] 决定我们希望对异常的处理程度
- ARROW-276 - [JAVA] 可空值向量应扩展 BaseValueVector 而不是 BaseDataValueVector
- ARROW-573 - [Python/C++] 支持有序字典数据、pandas Categorical
- ARROW-884 - [C++] 从文档中排除内部类
- ARROW-932 - [Python] 修复 MSVC 上的编译器警告
- ARROW-968 - [Python] RecordBatch [i:j] 语法不完整