第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會有你想問的

使用 Pyspark 將 XML 轉(zhuǎn)換為數(shù)據(jù)框

使用 Pyspark 將 XML 轉(zhuǎn)換為數(shù)據(jù)框

湖上湖 2021-06-11 18:05:58
我正在嘗試廢棄一個(gè) XML 文件并從 XML 文件上的標(biāo)簽創(chuàng)建一個(gè)數(shù)據(jù)框。我使用 pyspark 處理 Databricks。XML文件:<?xml version="1.0" encoding="UTF-8"?><note>  <shorttitle>shorttitle_1</shorttitle>  <shorttitle>shorttitle_2</shorttitle>  <shorttitle>shorttitle_3</shorttitle>  <shorttitle>shorttitle_4</shorttitle></note>我的代碼似乎從頁面中刪除了 XML 并從標(biāo)簽創(chuàng)建了一個(gè)列表,但是當(dāng)我創(chuàng)建我的數(shù)據(jù)框并嘗試輸入所述列表時(shí),我只看到一個(gè)包含空值的數(shù)據(jù)框。代碼:from pyspark.sql.types import *from pyspark.sql.functions import *import requestsfrom bs4 import BeautifulSoupres = requests.get("http://files.fakeaddress.com/files01.xml")soup = BeautifulSoup(res.content,'html.parser')short_title = soup.find_all('shorttitle')[0:2]field = [StructField("Short_Title",StringType(), True)]schema = StructType(field)df = spark.createDataFrame(short_title, schema)輸出:+-----------+|Short_Title|+-----------+|       null||       null|+-----------+想要的輸出:+-------------+|Short_Title  |+-------------+|shorttitle_1 ||shorttitle_2 |+-------------+
查看完整描述

2 回答

?
一只名叫tom的貓

TA貢獻(xiàn)1906條經(jīng)驗(yàn) 獲得超3個(gè)贊

您可以使用Spark-XML包,它直接從您的 XML 文件創(chuàng)建一個(gè) Spark 數(shù)據(jù)幀,而無需任何進(jìn)一步的麻煩。當(dāng)您在 XML 文件中嵌套鍵時(shí),它只會變得更加復(fù)雜。

使用他們的 maven 存儲庫在 Databricks 集群上安裝包相當(dāng)簡單,他們提供了坐標(biāo)。但是,我不確定該軟件包是否仍在更新。


查看完整回答
反對 回復(fù) 2021-06-16
  • 2 回答
  • 0 關(guān)注
  • 255 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號