2 回答

TA貢獻2012條經驗 獲得超12個贊
為了它的價值,我將 Pandas 數據幀保存到 Postgres 數據庫,并且我想保留時區(qū)索引。我使用以下代碼:
class db_JsonEncodedDataFrameWithTimezone(db.TypeDecorator):
"""Enables JSON storage by encoding and decoding on the fly."""
impl = db.Text
def process_bind_param(self, value, dialect):
if value is not None and isinstance(value, pd.DataFrame):
timezone = value.index.tz.zone
df_json = value.to_json(orient="index")
data = {'timezone': timezone, 'df': df_json, 'index_name': value.index.name}
value = json.dumps(data)
return value
def process_result_value(self, value, dialect):
if value is not None:
data = json.loads(value)
df = pd.read_json(data['df'], orient="index")
df.index = df.index.tz_localize('UTC')
df.index = df.index.tz_convert(data['timezone'])
df.index.name = data['index_name']
value = df
return value
def compare_values(self, x, y):
from pandas.util.testing import assert_frame_equal
try:
assert_frame_equal(x, y, check_names=True, check_like=True)
return True
except (AssertionError, ValueError, TypeError):
return False

TA貢獻1886條經驗 獲得超2個贊
如果我正確理解了您的問題,那么您正在尋找一種保留數據幀數據類型的序列化方式。
問題是交換格式在內部使用的類型很少:只有 csv 的字符串、json 的字符串和數字。當然,有一些方法可以在讀取時提供格式提示(csv 中日期列的日期格式),并且在提取后通常很容易轉換回正確的類型,我認為您希望采用更自然的方式。正如 Attack68 所建議的那樣,您可以使用數據庫,但例如 SQLite 數據庫將關閉,因為它沒有內部日期類型。
恕我直言,一個簡單的方法是依靠好的舊pickle
模塊。畢竟,數據幀是一個包含其他 Python 對象的 Python 對象,所以 pickle 擅長序列化它。唯一要記住的一點是,在反序列化時,必須在調用之前導入熊貓pickle.load
。
但是我剛剛用包含各種數據類型的(小)數據幀進行了測試,pickle 非常適合正確保存和恢復它們。
添加回答
舉報