适用于 Apache Kafka 的 Dataflow 托管式 I/O

托管式 I/O 支持对 Apache Kafka 执行读写操作。

要求

以下 SDK 支持 Apache Kafka 的托管式 I/O:

  • Java 版 Apache Beam SDK 2.58.0 或更高版本
  • Python 版 Apache Beam SDK 2.61.0 版或更高版本

配置

适用于 BigQuery 的托管式 I/O 支持以下配置参数:

KAFKA 读取

配置 类型 说明
bootstrap_servers str 用于建立与 Kafka 集群的初始连接的主机/端口对列表。无论此处指定了哪些服务器用于启动,客户端都会使用所有服务器 - 此列表只会影响用于发现完整服务器集的初始主机。此列表应采用“host1:port1,host2:port2,...”格式
主题 str 不适用
confluent_schema_registry_subject str 不适用
confluent_schema_registry_url str 不适用
consumer_config_updates map[str, str] 充当 Kafka 使用方配置参数的键值对列表。这些配置中的大多数都是不需要的,但如果您需要自定义 Kafka 使用方,可以使用此字段。如需查看详细列表,请访问:https://docs.confluent.io/platform/current/installation/configuration/consumer-configs.html
file_descriptor_path str 协议缓冲区文件描述符集文件的路径。此文件用于架构定义和消息序列化。
格式 str 存储在 Kafka 中的数据的编码格式。有效选项包括:RAW、STRING、AVRO、JSON、PROTO
message_name str 用于提取架构和转换数据的协议缓冲区消息的名称。
架构 str Kafka 主题中数据编码所用的架构。对于 AVRO 数据,这是使用 AVRO 架构语法 (https://avro.apache.org/docs/1.10.2/spec.html#schemas) 定义的架构。对于 JSON 数据,这是使用 JSON 架构语法 (https://json-schema.org/) 定义的架构。如果提供了 Confluent 架构注册表的网址,系统会忽略此字段,并从 Confluent 架构注册表中提取架构。

KAFKA 写入

配置 类型 说明
bootstrap_servers str 用于建立与 Kafka 集群的初始连接的主机/端口对列表。无论此处指定了哪些服务器用于启动,客户端都会使用所有服务器 - 此列表只会影响用于发现完整服务器集的初始主机。| 格式:host1:port1,host2:port2,...
格式 str 存储在 Kafka 中的数据的编码格式。有效选项包括:RAW、JSON、AVRO、PROTO
主题 str 不适用
file_descriptor_path str 协议缓冲区文件描述符集文件的路径。此文件用于架构定义和消息序列化。
message_name str 用于提取架构和转换数据的协议缓冲区消息的名称。
producer_config_updates map[str, str] 充当 Kafka 提供方的配置参数的键值对列表。这些配置中的大多数都是不需要的,但如果您需要自定义 Kafka 提供方,可以使用此字段。如需查看详细列表,请访问:https://docs.confluent.io/platform/current/installation/configuration/producer-configs.html
架构 str 不适用

后续步骤

如需了解详情和查看代码示例,请参阅以下主题: