首頁(yè) 猿問(wèn) python數(shù)據(jù)表，列上的字符串操作

python數(shù)據(jù)表，列上的字符串操作

Python

夢(mèng)里花落0921 2023-10-26 15:15:37

from datatable import dt, f, g, by, update, join, sorttt = dt.Frame({'a' : ['A1','A2','A3'], 'b':[100,200,300]})print(tt) | a b-- + -- --- 0 | A1 100 1 | A2 200 2 | A3 300[3 rows x 2 columns]如何刪除a列中的“A”并將其作為數(shù)據(jù)表中的數(shù)字分配給新列“c”（即沒(méi)有熊貓）？在以下的幫助下它看起來(lái)像這樣pandastt['c'] = tt.to_pandas()['a'].str.replace('A','').astype(int)數(shù)據(jù)表本機(jī)版本不太有效tt[:, update(c = [int(x.replace('A','')) for x in f.a])]TypeError: 'datatable.FExpr' object is not iterable順便問(wèn)一下，對(duì)于 python pandas 和 R data.table 的頻繁用戶(hù)，是否有一本高級(jí)/完整的食譜可以幫助從 R data.table 過(guò)渡到 py-datatable？網(wǎng)站上有一個(gè)頁(yè)面，但還不夠。

查看完整描述

3 回答

斯蒂芬大帝

TA貢獻(xiàn)1827條經(jīng)驗(yàn) 獲得超8個(gè)贊

這是一個(gè)擴(kuò)展性不是很好的 hack：

第 1 步：將a列轉(zhuǎn)儲(chǔ)到本機(jī) python 中并創(chuàng)建一個(gè)值元組：

tuples?=?[(entry[0],?entry[-1])?for?entry??in?tt['a'].to_list()[0]]

第 2 步：cbind回框架tt：

tt.cbind(dt.Frame(tuples))

tt

? ? a? ?b? ?C0? C1

0? ?A1? 100 A? ?1

1? ?A2? 200 A? ?2

2? ?A3? 300 A? ?3

如果你只需要 A，那么你可以使用下面的代碼，它仍然不能很好地?cái)U(kuò)展（想象你的列中有空值），并且很粗糙（我們必須索引到列表中才能得到我們想要的） :

tt["A_only"] = dt.Frame([entry[0] for entry in tt['a'].to_list()[0]])

tt

? ? ?a? ?b? ?A_only

0? ?A1? 100? ? ?A

1? ?A2? 200? ? ?A

2? ?A3? 300? ? ?A

如前所述，這不能很好地?cái)U(kuò)展。此外，它沒(méi)有提供數(shù)據(jù)表所期望的速度。

目前，數(shù)據(jù)表沒(méi)有很好的字符串操作支持（我相信庫(kù)維護(hù)者目前正在努力解決這個(gè)問(wèn)題，以及其他一些要求的功能）

反對(duì) 回復(fù) 2023-10-26

開(kāi)心每一天1111

TA貢獻(xiàn)1836條經(jīng)驗(yàn) 獲得超13個(gè)贊

我知道這是一個(gè)老問(wèn)題，但萬(wàn)一有人仍在尋找這個(gè)問(wèn)題——在剛剛發(fā)布的 1.0.0 中，可以執(zhí)行以下操作：

tt = dt.Frame({'a' : ['A1','A2','A3'], 'b':[100,200,300]})

tt["A_only"] = tt[:, f.a[0:1]]

tt["num_only"] = tt[:, f.a[1:]]

tt["num_only"] = dt.Type.int8 # Change the type of the column to `int`

tt.ltypes

上面使用了字符串列上的切片，即依賴(lài)于固定格式。還有.re正則表達(dá)式的部分，但我只看到match，沒(méi)有看到extract。

反對(duì) 回復(fù) 2023-10-26

三國(guó)紛爭(zhēng)

TA貢獻(xiàn)1804條經(jīng)驗(yàn) 獲得超7個(gè)贊

這是我為了得到你想要的東西而做的一個(gè)技巧。我仍在學(xué)習(xí)數(shù)據(jù)表，所以請(qǐng)耐心等待我完全進(jìn)入它。

首先，將數(shù)據(jù)表轉(zhuǎn)換為數(shù)據(jù)框。執(zhí)行我前面列出的操作，然后將數(shù)據(jù)幀轉(zhuǎn)換回?cái)?shù)據(jù)表。Walla，您現(xiàn)在擁有一個(gè)包含所需結(jié)果的數(shù)據(jù)表。

我就是這樣做的。

from datatable import dt, f, g, by, update, join, sort

tt = dt.Frame({'a' : ['A1','A2','A3'], 'b':[100,200,300]})

df = tt.to_pandas()

df = df.join(df.a.str.extract('([a-zA-Z])([0-9])', expand=True).add_prefix('a'))

df = df.rename(columns = {'a0': 'c', 'a1': 'd'})

tt = dt.Frame(df)

tt

其輸出將是：

您可以拆分列并重命名字段。

import pandas as pd

df = pd.DataFrame({'a' : ['A1','A2','A3'], 'b':[100,200,300]})

print (df)

df = df.join(df['a'].str.split(r'(\d.*)', expand=True).add_prefix('a'))

df.drop('a2',axis = 1,inplace=True)

df = df.rename(columns = {'a0': 'c', 'a1': 'd'})

print (df)

輸出將是：

初始數(shù)據(jù)框?qū)⑹牵?/p>

a b

0 A1 100

1 A2 200

2 A3 300

新的 DataFrame 將如下所示：

a b c d

0 A1 100 A 1

1 A2 200 A 2

2 A3 300 A 3

或者，您也可以使用extract正則表達(dá)式來(lái)完成此操作。

import pandas as pd

df1 = pd.DataFrame({'a' : ['A1','A2','A3'], 'b':[100,200,300]})

df1 = df1.join(df1.a.str.extract('([a-zA-Z])([0-9])', expand=True).add_prefix('a'))

df1 = df1.rename(columns = {'a0': 'c', 'a1': 'd'})

print (df1)

它會(huì)給你相同的結(jié)果：

a b

0 A1 100

1 A2 200

2 A3 300

在此選項(xiàng)中，它不會(huì)創(chuàng)建需要?jiǎng)h除的附加列

a b c d

0 A1 100 A 1

1 A2 200 A 2

2 A3 300 A 3

反對(duì) 回復(fù) 2023-10-26

3 回答
0 關(guān)注
166 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書(shū)簽

微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

python數(shù)據(jù)表，列上的字符串操作

python數(shù)據(jù)表，列上的字符串操作

3 回答

添加回答

python數(shù)據(jù)表，列上的字符串操作

python數(shù)據(jù)表，列上的字符串操作