在 Windows 上进行开发#

与 Linux 和 macOS 一样,我们努力使构建能够使用 CMake“开箱即用”,并适用于项目中相当大的一部分。

系统设置#

Microsoft 提供了免费的 Visual Studio Community 版本。在 shell 中进行开发时,每次打开 shell 都必须初始化开发环境。

对于 Visual Studio 2017,执行以下批处理脚本

"C:\Program Files (x86)\Microsoft Visual Studio\2017\Community\Common7\Tools\VsDevCmd.bat" -arch=amd64

对于 Visual Studio 2019,脚本为

"C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\Common7\Tools\VsDevCmd.bat" -arch=amd64

可以配置像 cmder 这样的控制台模拟器,以便在启动新的开发控制台时自动启动它。

使用 conda-forge 获取构建依赖项#

Miniconda 是一个最小的 Python 发行版,其中包含 conda 包管理器。Apache Arrow 社区的一些成员参与维护 conda-forge,这是一个社区维护的 conda 跨平台软件包存储库。

要在 Windows 上将 conda-forge 用于 C++ 构建依赖项,首先从 Miniconda 主页 下载并安装 64 位发行版

要将 conda 配置为默认使用 conda-forge 频道,请启动命令提示符(cmd.exe),运行上面 显示的初始化命令(vcvarsall.batVsDevCmd.bat),然后运行以下命令

conda config --add channels conda-forge

现在,您可以引导构建环境(从 Arrow 代码库的根目录调用)

conda create -y -n arrow-dev --file=ci\conda_env_cpp.txt

然后使用以下命令“激活”此 conda 环境

activate arrow-dev

如果环境已激活,Arrow 构建系统将自动看到 %CONDA_PREFIX% 环境变量并使用它来解析构建依赖项。这等效于设置

-DARROW_DEPENDENCY_SOURCE=SYSTEM ^
-DARROW_PACKAGE_PREFIX=%CONDA_PREFIX%\Library

要在激活此 conda 环境的情况下使用 Visual Studio IDE,请在同一命令提示符下运行命令 devenv 来启动它。

请注意,作为 conda 包安装的依赖项是在发布模式下构建的,并且无法与调试版本链接。如果您打算使用 -DCMAKE_BUILD_TYPE=debug,则必须从源代码构建软件包。-DCMAKE_BUILD_TYPE=relwithdebinfo 也可用,它生成的构建既可以与发布库链接,也可以进行调试。

注意

如果您在将 conda 包用于依赖项时遇到任何问题,一个非常常见的问题是将 defaults 频道中的包与 conda-forge 频道中的包混合使用。您可以使用 conda list 检查环境中安装的软件包(及其来源)

使用 vcpkg 获取构建依赖项#

vcpkg 是 Microsoft 的开源软件包管理器。它托管社区贡献的 C 和 C++ 软件包及其依赖项的端口。Arrow 包含一个清单文件 cpp/vcpkg.json,该文件指定构建 C++ 库所需的 vcpkg 软件包。

要在 Windows 上将 vcpkg 用于 C++ 构建依赖项,首先安装集成 vcpkg。然后在 cmd.exe 中将工作目录更改为 Arrow 的根目录并运行以下命令

vcpkg install ^
  --triplet x64-windows ^
  --x-manifest-root cpp  ^
  --feature-flags=versions ^
  --clean-after-build

在 Windows 上,vcpkg 默认构建动态链接库。使用 triplet x64-windows-static 来构建静态库。vcpkg 下载源代码包并在本地编译它们,因此使用 vcpkg 安装依赖项比使用 conda 更耗时。

然后在您的 cmake 命令中,要使用 vcpkg 安装的依赖项,请设置

-DARROW_DEPENDENCY_SOURCE=VCPKG

您可以选择设置其他变量来覆盖 vcpkg 的默认 CMake 配置,包括

  • -DCMAKE_TOOLCHAIN_FILE:默认情况下,CMake 脚本会自动查找 vcpkg CMake 工具链文件 vcpkg.cmake 的位置;使用它来指定其位置

  • -DVCPKG_TARGET_TRIPLET:默认情况下,CMake 脚本会尝试推断 vcpkg triplet;使用它来指定 triplet

  • -DARROW_DEPENDENCY_USE_SHARED:默认为 ON;设置为 OFF 用于静态库

  • -DVCPKG_MANIFEST_MODE:默认为 ON;设置为 OFF 将忽略 vcpkg.json 清单文件,并且仅查找已安装在 vcpkg 安装目录下的 vcpkg 软件包

使用 Visual Studio (MSVC) 解决方案文件进行构建#

cmd.exe 中将工作目录更改为 Arrow 的根目录,并通过生成 MSVC 解决方案来进行源外构建

cd cpp
mkdir build
cd build
cmake .. -G "Visual Studio 15 2017" -A x64 ^
      -DARROW_BUILD_TESTS=ON
cmake --build . --config Release

对于较新版本的 Visual Studio,请指定生成器 Visual Studio 16 2019 或查看 cmake --help 以获取可用的生成器。

使用 Ninja 和 sccache 进行构建#

Ninja 构建系统提供了更好的构建并行化,可选的 sccache 编译器缓存会跟踪过去的编译,以避免一遍又一遍地运行它们(类似于 Unix 特定的 ccache)。

较新版本的 Visual Studio 包含 Ninja。要查看您的 Visual Studio 是否包含 Ninja,请运行上面 显示的初始化命令(vcvarsall.batVsDevCmd.bat),然后运行 ninja --version

如果您的 Visual Studio 版本中未包含 Ninja,并且您正在使用 conda,请激活您的 conda 环境并安装 Ninja

activate arrow-dev
conda install -c conda-forge ninja

如果您未使用 conda,请从其他来源安装 Ninja

安装完成后,在 cmd.exe 中将工作目录更改为 Arrow 的根目录,并通过生成 Ninja 文件来进行源外构建

cd cpp
mkdir build
cd build
cmake -G "Ninja" ^
      -DARROW_BUILD_TESTS=ON ^
      -DGTest_SOURCE=BUNDLED ..
cmake --build . --config Release

要在本地存储模式下使用 sccache,您需要在调用 cmake 之前设置 SCCACHE_DIR 环境变量

...
set SCCACHE_DIR=%LOCALAPPDATA%\Mozilla\sccache
cmake -G "Ninja" ^
...

使用 NMake 进行构建#

cmd.exe 中将工作目录更改为 Arrow 的根目录,并使用 nmake 进行源外构建

cd cpp
mkdir build
cd build
cmake -G "NMake Makefiles" ..
nmake

在 MSYS2 上进行构建#

您可以在 MSYS2 终端、cmd.exe 或 PowerShell 终端上进行构建。

在 MSYS2 终端上

cd cpp
mkdir build
cd build
cmake -G "MSYS Makefiles" ..
make

cmd.exe 或 PowerShell 终端上,您可以使用以下批处理文件

setlocal

REM For 64bit
set MINGW_PACKAGE_PREFIX=mingw-w64-x86_64
set MINGW_PREFIX=c:\msys64\mingw64
set MSYSTEM=MINGW64

set PATH=%MINGW_PREFIX%\bin;c:\msys64\usr\bin;%PATH%

rmdir /S /Q cpp\build
mkdir cpp\build
pushd cpp\build
cmake -G "MSYS Makefiles" .. || exit /B
make || exit /B
popd

使用 Ninja 和 Clang 在 Windows/ARM64 上进行构建#

Ninja 和 clang 可用于在 windows/arm64 平台上构建库。

cd cpp
mkdir build
cd build

set CC=clang-cl
set CXX=clang-cl

cmake -G "Ninja" ..

cmake --build . --config Release

适用于 ARM64 上 Windows 的 LLVM 工具链可以从 LLVM 发行版页面 LLVM 发行版页面 下载

由于 xsimd 和 boost 库等依赖项的兼容性问题,Visual Studio (MSVC) 尚不能用于编译 win/arm64 构建。

注意:这只是 WoA64 的实验性构建,因为由于缺乏基础设施,所有功能都未通过 CI 进行广泛测试。

调试版本#

要构建 Arrow 的调试版本,您应该预先安装了 Boost 的调试版本。建议使用以下变量配置 cmake 以进行调试构建

  • -DARROW_BOOST_USE_SHARED=OFF:启用与 boost 调试库的静态链接,并简化第三方库的运行时加载

  • -DBOOST_ROOT:设置 boost 库的根目录。(可选)

  • -DBOOST_LIBRARYDIR:设置包含 boost 库文件的目录。(可选)

在 Debug 模式下构建 Arrow 的命令行大致如下所示

cd cpp
mkdir build
cd build
cmake .. -G "Visual Studio 15 2017" -A x64 ^
      -DARROW_BOOST_USE_SHARED=OFF ^
      -DCMAKE_BUILD_TYPE=Debug ^
      -DBOOST_ROOT=C:/local/boost_1_63_0  ^
      -DBOOST_LIBRARYDIR=C:/local/boost_1_63_0/lib64-msvc-14.0
cmake --build . --config Debug

Windows 依赖项解析问题#

由于 Windows 对依赖项的静态和动态链接都使用 .lib 文件,因此静态库有时可能被命名为不同的名称,例如 %PACKAGE%_static.lib 以示区别。如果您正在静态链接某些依赖项,我们提供了一些选项

  • -DBROTLI_MSVC_STATIC_LIB_SUFFIX=%BROTLI_SUFFIX%

  • -DSNAPPY_MSVC_STATIC_LIB_SUFFIX=%SNAPPY_SUFFIX%

  • -LZ4_MSVC_STATIC_LIB_SUFFIX=%LZ4_SUFFIX%

  • -ZSTD_MSVC_STATIC_LIB_SUFFIX=%ZSTD_SUFFIX%

要获取最新的构建说明,您可以参考 ci/appveyor-built.bat,自动化 Appveyor 构建使用该文件。

在 Windows 上静态链接到 Arrow#

Windows 静态库构建(由 CMake 选项 ARROW_BUILD_STATIC 启用)上的 Arrow 头文件使用预处理器宏 ARROW_STATIC 来抑制符号的 dllimport/dllexport 标记。在 Windows 上静态链接到 Arrow 的项目还需要此定义。Unix 构建不使用该宏。

此外,如果使用 -DARROW_FLIGHT=ON,则需要定义 ARROW_FLIGHT_STATIC,对于 -DARROW_FLIGHT_SQL=ON 也是如此。

project(MyExample)

find_package(Arrow REQUIRED)

add_executable(my_example my_example.cc)
target_link_libraries(my_example
                      PRIVATE
                      arrow_static
                      arrow_flight_static
                      arrow_flight_sql_static)

target_compile_definitions(my_example
                           PUBLIC
                           ARROW_STATIC
                           ARROW_FLIGHT_STATIC
                           ARROW_FLIGHT_SQL_STATIC)

下载时区数据库#

要在 Windows 上运行某些计算单元测试,需要先下载 IANA 时区数据库和 Windows 时区映射。有关下载说明,请参阅 运行时依赖项。要在运行单元测试时为时区数据库设置非默认路径,请设置 ARROW_TIMEZONE_DATABASE 环境变量。

复制 Appveyor 构建#

对于更熟悉 Linux 开发但需要复制失败的 appveyor 构建的人员,以下是一些复制 Static_Crt_Build 的粗略说明(make unittest 可能仍然会失败,但可以使用各自的 make 目标生成许多单元测试)。

  1. Microsoft 为 带有 Microsoft Visual Studio 的 Windows 提供试用版 VM。下载并安装一个版本。

  2. 运行 VM 并安装 GitCMake 以及 Miniconda 或 Anaconda(这些说明假设使用 Anaconda)。还要安装 “Visual Studio 的构建工具”。确保在安装程序向导中选择 C++ 工具链,并在安装后重新启动。

  3. 下载 预构建的 Boost 调试二进制文件 并安装它。

    从 Anaconda/Miniconda 命令提示符(*不是* PowerShell 提示符)运行此命令,并确保首先运行“vcvarsall.bat x64”。 vcvarsall.bat 的位置取决于具体情况,它可能位于与通常指示的路径不同的路径下,例如“C:\Program Files (x86)\Microsoft Visual Studio\2019\BuildTools\VC\Auxiliary\Build\vcvarsall.bat”(使用 2019 构建工具)。

cd $EXTRACT_BOOST_DIRECTORY
.\bootstrap.bat
@rem This is for static libraries needed for static_crt_build in appveyor
.\b2 link=static --with-filesystem --with-regex --with-system install
@rem this should put libraries and headers in c:\Boost
  1. 激活 anaconda/miniconda

@rem this might differ for miniconda
C:\Users\User\Anaconda3\Scripts\activate
  1. 克隆并将目录更改为 arrow 源代码(您可能需要安装 git)。

  2. 设置环境变量

@rem Change the build type based on which appveyor job you want.
SET JOB=Static_Crt_Build
SET GENERATOR=Ninja
SET APPVEYOR_BUILD_WORKER_IMAGE=Visual Studio 2017
SET USE_CLCACHE=false
SET ARROW_BUILD_GANDIVA=OFF
SET ARROW_LLVM_VERSION=8.0.*
SET PYTHON=3.9
SET ARCH=64
SET PATH=C:\Users\User\Anaconda3;C:\Users\User\Anaconda3\Scripts;C:\Users\User\Anaconda3\Library\bin;%PATH%
SET BOOST_LIBRARYDIR=C:\Boost\lib
SET BOOST_ROOT=C:\Boost
  1. 运行 appveyor 脚本

conda install -c conda-forge --file .\ci\conda_env_cpp.txt
.\ci\appveyor-cpp-setup.bat
@rem this might fail but at this point most unit tests should be buildable by there individual targets
@rem see next line for example.
.\ci\appveyor-cpp-build.bat
@rem you can also just invoke cmake directly with the desired options
cmake --build . --config Release --target arrow-compute-hash-test