首頁猿問文本中單詞的頻率（熊貓）

文本中單詞的頻率（熊貓）

Python

ibeautiful 2022-05-24 15:31:55

我有一列單詞，想計算文本中每個單詞的頻率并將結(jié)果保存在另一列中。數(shù)據(jù)： word frequency 0 l’iss 1 station 2 américaines 3 capsule 4 dernier 5 solaires 6 fusées 7 privé 文本：états-unis : lancement réussi pour station space x dragon états-unis : lancement réussi pour space x dragon la fusée falcon 9, développée par une société privée : spacex, a décollé de la station sans problème ce matinà 7h44 UTC。2012 年 5 月 22 日 - prévu initialement pour samedi dernier, le lancement a été reporté à la dernière seconde, Suite à la défaillance d'une Valve dans un des neuf moteurs du pre\xadmier étage du lan\xadceur。le lanceur a décollé du site de lancement du pas de tir 40 (slc-40) de la base de cape canaveral en floride, qui était autrefois utilisé pour les fusée titan iii et iv et qui a été reconverti pour ce lanceur。我試過：from collections import Counterfreq = df['word'].str.apply(Counter(text))我的輸出：AttributeError：“StringMethods”對象沒有“應(yīng)用”屬性良好的輸出： word frequency 0 cape 11 station 22 américaines 0 3 capsule 0 4 dernier 15 solaires 0 6 fusée 2

查看完整描述

3 回答

收到一只叮咚

TA貢獻1821條經(jīng)驗獲得超5個贊

value_counts您可以將文本轉(zhuǎn)換為計數(shù)器，然后使用和的組合從中獲取結(jié)果to_dict。

# Assuming the text split is on \s

text_counts = pd.Series(text.split(' ')).value_counts().to_dict()

df['Frequency'] = df.word.apply(lambda x: text_counts.get(x, 0)) # In case the word doesn't exist

word Frequency

0 l’iss 0

1 station 2

2 américaines 0

3 capsule 0

4 dernier 0

5 solaires 0

6 fusées 0

7 privé 0

另一種方法是使用 Python 的 native Counter：

from collections import Counter

text_counter = Counter(text.split())

df['Frequency'] = df.word.apply(lambda x: text_counter.get(x, 0))

反對回復(fù) 2022-05-24

POPMUISE

TA貢獻1765條經(jīng)驗獲得超5個贊

反過來會更容易。Counter從對象開始，然后構(gòu)建數(shù)據(jù)框

from collections import Counter

text = '''états-unis : lancement réussi pour station space x dragon états-unis : lancement réussi pour space x dragon la fusée falcon 9, développée par une société privée : spacex, a décollé de la station sans problème ce matin à 7h44 utc. 22 mai 2012. - prévu initialement pour samedi dernier, le lancement a été reporté à la dernière seconde, suite à la défaillance d'une valve dans un des neuf moteurs du pre\xadmier étage du lan\xadceur. le lanceur a décollé du site de lancement du pas de tir 40 (slc-40) de la base de cape canaveral en floride, qui était autrefois utilisé pour les fusée titan iii et iv et qui a été reconverti pour ce lanceur.'''

# naive splitting, it might be better to use regex with \b

c = Counter(text.split())

df = pd.DataFrame(list(c.items()), columns=['word', 'count'])

print(df.head())

輸出

word count

0 états-unis 2

1 : 3

2 lancement 4

3 réussi 2

4 pour 5

然后，您可以為您想要的單詞過濾數(shù)據(jù)框（或者您可以在構(gòu)建數(shù)據(jù)框時進行過濾）。

反對回復(fù) 2022-05-24

陪伴而非守候

TA貢獻1757條經(jīng)驗獲得超8個贊

用空格替換逗號，.split()然后使用字典理解并將其映射到您的 df。

import pandas as pd

text = "états-unis : lancement réussi pour station space x dragon états-unis : lancement réussi pour space x dragon la fusée falcon 9, développée par une société privée : spacex, a décollé de la station sans problème ce matin à 7h44 utc. 22 mai 2012. - prévu initialement pour samedi dernier, le lancement a été reporté à la dernière seconde, suite à la défaillance d'une valve dans un des neuf moteurs du pre\xadmier étage du lan\xadceur. le lanceur a décollé du site de lancement du pas de tir 40 (slc-40) de la base de cape canaveral en floride, qui était autrefois utilisé pour les fusée titan iii et iv et qui a été reconverti pour ce lanceur."

df = pd.DataFrame({'word': ["l’iss", 'station', "américaines", "capsule", "dernier", "solaires", "fusée", "privé"]})

text_list = text.replace(',', ' ').split()

word_counts = {i: text_list.count(i) for i in text_list}

df['frequency'] = df['word'].map(word_counts).fillna(0)

反對回復(fù) 2022-05-24

3 回答
0 關(guān)注
154 瀏覽

關(guān)注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

文本中單詞的頻率（熊貓）

文本中單詞的頻率（熊貓）

3 回答

添加回答