我一直在嘗試找出一種方法來對 Elasticsearch 中的術(shù)語聚合結(jié)果進(jìn)行分頁,但到目前為止我還無法達(dá)到預(yù)期的結(jié)果。這是我試圖解決的問題。在我的索引中,我有一堆文檔,它們的分?jǐn)?shù)(與 ES _score 分開)是根據(jù)文檔中其他字段的值計(jì)算的。每個(gè)文檔“屬于”一個(gè)客戶,由customer_id字段引用。該文檔還有一個(gè) id,由doc_id字段引用,與 ES 元字段_id相同。這是一個(gè)例子。{ '_id': '1', 'doc_id': '1', 'doc_score': '85', 'customer_id': '123'}對于每個(gè)customer_id都有多個(gè)文檔,所有文檔都有不同的文檔 id 和不同的分?jǐn)?shù)。我想要做的是,給定客戶 ID 列表,返回每個(gè) customer_id 的頂級文檔(每個(gè)客戶僅 1 個(gè)),并能夠通過常規(guī) ES 搜索 API 中的方法對類似于size的結(jié)果進(jìn)行分頁。我想要用于文檔分?jǐn)?shù)的字段是doc_score字段。到目前為止,在我當(dāng)前的Python腳本中,我嘗試過使用具有“熱門命中”聚合的嵌套 aggs 來僅獲取每個(gè)客戶的頂級文檔。{ "size": 0, "query:": { "bool": { "must": [ { "match_all": {} }, { "terms": { "customer_id": customer_ids # a list of the customer ids I want documents for } }, { "exists": { "field": "score" # sometimes it's possible a document does not have a score } } ] } } "aggs": { "customers": { "terms" : { {"field": "customer_id", "min_doc_count": 1}, "aggs": { "top_documents": { "top_hits": { "sort": [ {"score": {"order": "desc"}} ], "size": 1 } } } } } }}然后,我通過遍歷每個(gè)客戶存儲(chǔ)桶來“分頁”,將頂部文檔 blob 附加到列表中,然后根據(jù)分?jǐn)?shù)字段的值對列表進(jìn)行排序,最后獲取切片documents_list[from:from+size]。問題是,假設(shè)我的列表中有 500 個(gè)客戶,但我只想要第二個(gè) 20 個(gè)文檔,即size = 20, from=20。因此,每次調(diào)用該函數(shù)時(shí),我都必須首先獲取 500 個(gè)客戶中每個(gè)客戶的列表,然后進(jìn)行切片。這聽起來效率很低,而且也是一個(gè)速度問題,因?yàn)槲倚枰摵瘮?shù)盡可能快。理想情況下,我可以直接從 ES 獲取第二個(gè) 20,而無需在函數(shù)中進(jìn)行任何切片。我已經(jīng)研究了 ES 提供的復(fù)合聚合,但在我看來,我無法在我的情況下使用它,因?yàn)槲倚枰@取整個(gè)文檔,即常規(guī)搜索 API 響應(yīng)中 _source 字段中的所有內(nèi)容。我將非常感謝任何建議。
1 回答

大話西游666
TA貢獻(xiàn)1817條經(jīng)驗(yàn) 獲得超14個(gè)贊
最好的方法是使用分區(qū)
根據(jù)文檔:
GET /_search
{
? ?"size": 0,
? ?"aggs": {
? ? ? "expired_sessions": {
? ? ? ? ?"terms": {
? ? ? ? ? ? "field": "account_id",
? ? ? ? ? ? "include": {
? ? ? ? ? ? ? ?"partition": 1,
? ? ? ? ? ? ? ?"num_partitions": 25
? ? ? ? ? ? },
? ? ? ? ? ? "size": 20,
? ? ? ? ? ? "order": {
? ? ? ? ? ? ? ?"last_access": "asc"
? ? ? ? ? ? }
? ? ? ? ?},
? ? ? ? ?"aggs": {
? ? ? ? ? ? "last_access": {
? ? ? ? ? ? ? ?"max": {
? ? ? ? ? ? ? ? ? "field": "access_date"
? ? ? ? ? ? ? ?}
? ? ? ? ? ? }
? ? ? ? ?}
? ? ? }
? ?}
}
添加回答
舉報(bào)
0/150
提交
取消