2 回答

TA貢獻1851條經(jīng)驗 獲得超3個贊
我沒有找到從 Avro 創(chuàng)建不在 GroupType 中的重復元素的方法。
Beam 中的 ParquetIO 使用項目中定義的“標準”avro 轉換,在這里parquet-mr
實現(xiàn)。
似乎有兩種方法可以將 Avro ARRAY 字段轉換為 Parquet 消息——但它們都沒有創(chuàng)建您正在尋找的內(nèi)容。
目前,avro 轉換是目前與 ParquetIO 交互的唯一方式。我在 ParquetIO 中看到了這個 JIRA Use Beam 模式,將其擴展到 Beam Rows,這可能允許不同的 parquet 消息策略。
或者,您可以為 ParquetIO 創(chuàng)建 JIRA 功能請求以支持 thrift 結構,這應該允許更好地控制 parquet 結構。

TA貢獻1797條經(jīng)驗 獲得超6個贊
它是您用來描述預期模式的 protobuf 消息嗎?我認為您得到的是從指定的 JSON 模式正確生成的。optional repeated
在 protobuf 語言規(guī)范中沒有意義:https://developers.google.com/protocol-buffers/docs/reference/proto2-spec
您可以刪除null
方括號以生成簡單的repeated
字段,它在語義上等同于optional repeated
(因為repeated
意味著零次或多次)。
添加回答
舉報