我見(jiàn)過(guò)很多人建議Dataframe.explode這樣做是一種有用的方法,但是它導(dǎo)致的行數(shù)比原始數(shù)據(jù)幀多,這根本不是我想要的。我只想做非常簡(jiǎn)單的Dataframe等效項(xiàng):rdd.map(lambda row: row + [row.my_str_col.split('-')])它看起來(lái)像:col1 | my_str_col-----+----------- 18 | 856-yygrm 201 | 777-psgdg并將其轉(zhuǎn)換為:col1 | my_str_col | _col3 | _col4-----+------------+-------+------ 18 | 856-yygrm | 856 | yygrm 201 | 777-psgdg | 777 | psgdg我知道pyspark.sql.functions.split(),但是它導(dǎo)致嵌套的數(shù)組列,而不是像我想要的兩個(gè)頂級(jí)列。理想情況下,我也希望這些新列也被命名。
將Spark Dataframe字符串列拆分為多列
胡子哥哥
2019-11-29 14:18:18