4 回答

TA貢獻(xiàn)1783條經(jīng)驗(yàn) 獲得超4個(gè)贊
我不會(huì)說(shuō)這是重復(fù)的,但您提到的相關(guān)問(wèn)題是一個(gè)很好的起點(diǎn)。您鏈接的大多數(shù)答案都需要對(duì)數(shù)組進(jìn)行排序,提取組開始的索引,然后調(diào)用np.split它。這里不是這種情況,因?yàn)樗鼤?huì)返回一個(gè)大小不平衡的組列表。
相反,您可以使用np.bincount方法。它計(jì)算每個(gè)加權(quán)值出現(xiàn)的次數(shù),這實(shí)際上與 groupby sum 相同,只是輸出中缺少組鍵。
def group_by_sum(x):
u, idx = np.unique(x[:,0], return_inverse=True)
s = np.bincount(idx, weights = x[:,1])
return np.c_[u, s]
獎(jiǎng)金。它實(shí)際上是numpy_indexed包裝中的一個(gè)單行:
np.transpose(npi.group_by(x[:, 0]).sum(x[:, 1]))
標(biāo)桿管理
import numpy as np
import perfplot
import matplotlib.pyplot as plt
def bincount(x):
u, idx = np.unique(x[:,0], return_inverse=True)
s = np.bincount(idx, weights = x[:,1])
return np.c_[u, s]
def reduceat(x):
x = x[np.argsort(x[:, 0])]
i = np.flatnonzero(np.diff(x[:, 0]))
i = np.r_[0, i + 1]
s = np.add.reduceat(x[:, 1], i)
return np.stack((x[i, 0], s), axis=-1)
def setup(N, s):
x = np.linspace(0,1,N+1)[np.random.randint(N, size = s)]
return np.c_[x, (x**2)%1]
def build_args(k):
return {'setup': lambda x: setup(k, x),
'kernels': [bincount, reduceat],
'n_range': [2**k for k in range(1, 20)],
'title': f'Testing for x samples in [0, 1] with no more than {k} groups',
'show_progress': True,
'equality_check': False}
outs = [perfplot.bench(**build_args(n)) for n in (10, 100, 1000, 10000)]
fig = plt.figure(figsize=(20, 20))
for i in range(len(outs)):
ax = fig.add_subplot(2, 2, i + 1)
ax.grid(True, which="both")
outs[i].plot()
plt.show()

TA貢獻(xiàn)1777條經(jīng)驗(yàn) 獲得超10個(gè)贊
Numpy 提供了無(wú)需顯式循環(huán)即可完成此操作的工具。
首先對(duì)行進(jìn)行排序:
a = a[np.argsort(a[:, 0])]
然后找到值發(fā)生變化的索引:
i = np.flatnonzero(np.diff(a[:, 0])) i = np.r_[0, i + 1]
然后將元素相加:
s = np.add.reduceat(a[:, 1], i)
索引只是a
每次運(yùn)行中的第一個(gè)元素,因此結(jié)果是
result = np.stack((a[i, 0], s), axis=-1)

TA貢獻(xiàn)1860條經(jīng)驗(yàn) 獲得超9個(gè)贊
這是一個(gè)使用唯一值來(lái)計(jì)算每個(gè)元素的重復(fù)次數(shù)并將其乘以其值來(lái)計(jì)算 groupby 總和的解決方案(您可以通過(guò)實(shí)現(xiàn)僅計(jì)算重復(fù)和唯一值的哈希圖來(lái)更快地實(shí)現(xiàn)它)O(n):
編輯原始問(wèn)題已編輯:
keys2, idx, count = np.unique(x[:,0], return_counts=True, return_index=True)
values2 = x[:,1][idx]*count
另一種方法是使用 pandas groupby:
df = pd.DataFrame({'keys':x[:,0], 'values':x[:,1]})
df2 = df.groupby(keys)['values'].agg('sum')
keys2, values2 = df2.index.to_numpy(), df2.values
輸出:
[1.2 2.3]
[20 30]

TA貢獻(xiàn)1812條經(jīng)驗(yàn) 獲得超5個(gè)贊
這是一個(gè)方法
d = {}
for k,v in x:
d[k] = d.get(k,0) + v
x = np.array(list(d.items()))
請(qǐng)記住,這是測(cè)試浮動(dòng)相等性......您可能不應(yīng)該這樣做
添加回答
舉報(bào)