错误报告和功能请求#

Arrow 依赖用户反馈来识别缺陷和改进机会。鼓励所有用户通过创建错误报告和功能请求或评论现有问题来参与。即使您无法自己为问题提供解决方案，您的反馈也有助于我们理解问题并优先处理工作以改进库。

GitHub 问题#

Arrow 项目使用 GitHub 问题来跟踪问题——包括错误报告和功能请求。

创建问题#

Apache Arrow 依赖社区贡献来解决报告的错误和功能请求。与大多数软件项目一样，贡献者的时间和资源是有限的。以下指南旨在生成高质量的错误报告和功能请求，使社区贡献者能够更快地响应更多问题。

检查现有问题#

在创建新问题之前，我们建议您首先搜索尚未解决的现有问题，以识别相同的问题或功能请求。

问题描述#

清晰地描述问题或请求的功能是任何问题中最重要的元素。有效的描述有助于开发人员理解和高效地处理报告的问题，并且可能包括以下内容：

清晰、最少步骤以重现问题，尽可能少地依赖非 Arrow 依赖项。 如果读取文件时出现问题，请尝试提供尽可能小的示例文件，或提供创建文件的代码。如果您的错误报告说“尝试读取我的文件时崩溃了，但我无法与您共享”，那么我们很难调试。
任何相关的操作系统、语言和库版本信息
如果不是显而易见，请清楚说明预期行为和实际发生的情况。
避免用多个问题或功能请求来重载单个问题。每个问题都应该处理一个错误或一个功能。

如果开发人员无法获得失败的单元测试，他们将无法知道问题已被识别，也无法知道何时已修复。尝试预先设想您可能会被寻求理解问题的人提出的问题，并提供这些支持细节。

良好错误报告的示例见下文

Python

带有时区错误的时间戳的 print 方法

import pyarrow as pa

a = pa.array([0], pa.timestamp('s', tz='+02:00'))

print(a) # representation not correct?
# <pyarrow.lib.TimestampArray object at 0x7f834c7cb9a8>
# [
#  1970-01-01 00:00:00
# ]

print(a[0])
#Traceback (most recent call last):
#  File "<stdin>", line 1, in <module>
#  File "pyarrow/scalar.pxi", line 80, in pyarrow.lib.Scalar.__repr__
#  File "pyarrow/scalar.pxi", line 463, in pyarrow.lib.TimestampScalar.as_py
#  File "pyarrow/scalar.pxi", line 393, in pyarrow.lib._datetime_from_int
#ValueError: fromutc: dt.tzinfo is not self

R

当源数据以毫秒精度时，使用 col_types 选项 "T" 或 "t" 读取 CSV 文件时出错

library(arrow, warn.conflicts = FALSE)
tf <- tempfile()
write.csv(data.frame(x = '2018-10-07 19:04:05.005'), tf, row.names = FALSE)

# successfully read in file
read_csv_arrow(tf, as_data_frame = TRUE)
#> # A tibble: 1 × 1
#>   x
#>   <dttm>
#> 1 2018-10-07 20:04:05

# the unit here is seconds - doesn't work
read_csv_arrow(
  tf,
  col_names = "x",
  col_types = "T",
  skip = 1
)
#> Error in `handle_csv_read_error()`:
#> ! Invalid: In CSV column #0: CSV conversion error to timestamp[s]: invalid value '2018-10-07 19:04:05.005'

# the unit here is ms - doesn't work
read_csv_arrow(
  tf,
  col_names = "x",
  col_types = "t",
  skip = 1
)
#> Error in `handle_csv_read_error()`:
#> ! Invalid: In CSV column #0: CSV conversion error to time32[ms]: invalid value '2018-10-07 19:04:05.005'

# the unit here is inferred as ns - does work!
read_csv_arrow(
  tf,
  col_names = "x",
  col_types = "?",
  skip = 1,
  as_data_frame = FALSE
)
#> Table
#> 1 rows x 1 columns
#> $x <timestamp[ns]>

生成有用错误报告的其他资源

识别 Arrow 组件#

Arrow 是一个支持多种语言并组织成多个组件的庞大项目。识别受影响的组件有助于新问题得到适当贡献者的关注。

组件标签，可由 Apache Arrow 项目的提交者添加，用于指示您的问题所属的项目领域（例如“Component: Python”或“Component: C++”）。
在问题标题前加上括号中的组件名称，例如 [Python] issue summary；这有助于在导航开放问题列表时，也使我们的变更日志更具可读性。大多数前缀与组件名称完全相同，但以下情况除外
- 组件： 持续集成 — 摘要前缀： [CI]
- 组件： 开发工具 — 摘要前缀： [Dev]
- 组件： 文档 — 摘要前缀： [Docs]

问题生命周期#

错误报告和功能请求都遵循定义的生命周期。如果问题当前正在处理中，则应为其分配开发人员。当问题达到最终状态时，它会以两种结果之一关闭

已完成关闭 - 表示问题已完成；解决问题的 PR 应该已由 GitHub 自动链接（假设 PR 正确提及了问题编号）。

如果您正在合并 PR，最好在链接的问题中添加一条评论，说明哪个 PR 正在解决它。这样，GitHub 会为所有参与该问题的人创建通知。
计划外关闭 - 表示问题已关闭，不应再收到任何更新，但未采取任何行动。

问题分配#

分配表示致力于解决问题，贡献者应在工作开始时自行分配问题。现在任何人都可以通过评论 take 自行分配问题。