托管式 I/O 支持对 Apache Kafka 执行读写操作。
要求
以下 SDK 支持 Apache Kafka 的托管式 I/O:
- Java 版 Apache Beam SDK 2.58.0 或更高版本
- Python 版 Apache Beam SDK 2.61.0 版或更高版本
配置
适用于 BigQuery 的托管式 I/O 支持以下配置参数:
KAFKA
读取
配置 | 类型 | 说明 |
---|---|---|
bootstrap_servers |
str
|
用于建立与 Kafka 集群的初始连接的主机/端口对列表。无论此处指定了哪些服务器用于启动,客户端都会使用所有服务器 - 此列表只会影响用于发现完整服务器集的初始主机。此列表应采用“host1:port1,host2:port2,...”格式 |
主题 |
str
|
不适用 |
confluent_schema_registry_subject |
str
|
不适用 |
confluent_schema_registry_url |
str
|
不适用 |
consumer_config_updates |
map[str, str]
|
充当 Kafka 使用方配置参数的键值对列表。这些配置中的大多数都是不需要的,但如果您需要自定义 Kafka 使用方,可以使用此字段。如需查看详细列表,请访问:https://docs.confluent.io/platform/current/installation/configuration/consumer-configs.html |
file_descriptor_path |
str
|
协议缓冲区文件描述符集文件的路径。此文件用于架构定义和消息序列化。 |
格式 |
str
|
存储在 Kafka 中的数据的编码格式。有效选项包括:RAW、STRING、AVRO、JSON、PROTO |
message_name |
str
|
用于提取架构和转换数据的协议缓冲区消息的名称。 |
架构 |
str
|
Kafka 主题中数据编码所用的架构。对于 AVRO 数据,这是使用 AVRO 架构语法 (https://avro.apache.org/docs/1.10.2/spec.html#schemas) 定义的架构。对于 JSON 数据,这是使用 JSON 架构语法 (https://json-schema.org/) 定义的架构。如果提供了 Confluent 架构注册表的网址,系统会忽略此字段,并从 Confluent 架构注册表中提取架构。 |
KAFKA
写入
配置 | 类型 | 说明 |
---|---|---|
bootstrap_servers |
str
|
用于建立与 Kafka 集群的初始连接的主机/端口对列表。无论此处指定了哪些服务器用于启动,客户端都会使用所有服务器 - 此列表只会影响用于发现完整服务器集的初始主机。| 格式:host1:port1,host2:port2,... |
格式 |
str
|
存储在 Kafka 中的数据的编码格式。有效选项包括:RAW、JSON、AVRO、PROTO |
主题 |
str
|
不适用 |
file_descriptor_path |
str
|
协议缓冲区文件描述符集文件的路径。此文件用于架构定义和消息序列化。 |
message_name |
str
|
用于提取架构和转换数据的协议缓冲区消息的名称。 |
producer_config_updates |
map[str, str]
|
充当 Kafka 提供方的配置参数的键值对列表。这些配置中的大多数都是不需要的,但如果您需要自定义 Kafka 提供方,可以使用此字段。如需查看详细列表,请访问:https://docs.confluent.io/platform/current/installation/configuration/producer-configs.html |
架构 |
str
|
不适用 |
后续步骤
如需了解详情和查看代码示例,请参阅以下主题: