1 回答

TA貢獻1856條經(jīng)驗 獲得超11個贊
我會避免使用https://github.com/jhlau/doc2vec上已有 4 年歷史的非標準 gensim 分支,或任何僅加載此類代碼的已有 4 年歷史的已保存模型。
那里的維基百科 DBOW 模型也小得令人懷疑,只有 1.4GB。即使在 4 年前,維基百科也有超過 400 萬篇文章,而一個 300 維的Doc2Vec
模型經(jīng)過訓練以擁有 400 萬篇文章的文檔向量,其大小至少4000000 articles * 300 dimensions * 4 bytes/dimension
= 4.8GB,甚至不包括模型的其他部分。(因此,該下載顯然不是相關(guān)論文中提到的 4.3M 文檔、300 維模型——而是以其他不明確的方式被截斷的內(nèi)容。)
當前的 gensim 版本是 3.8.3,幾周前發(fā)布。
使用當前代碼和當前維基百科轉(zhuǎn)儲構(gòu)建您自己的Doc2Vec
模型可能需要一些修補,以及一整夜或更長時間的運行時間——但隨后您將使用現(xiàn)代支持的代碼,以及更好地理解單詞的現(xiàn)代模型在過去 4 年中投入使用。(而且,如果你在你感興趣的文檔類型的語料庫上訓練模型——比如學術(shù)文章——詞匯、詞義和與你自己的文本預(yù)處理的匹配將用于以后推斷的文檔一切都會更好。)
有一個從維基百科構(gòu)建模型的 Jupyter notebook 示例,該模型在源代碼樹中Doc2Vec
具有功能性或非常接近功能性:gensim
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb
添加回答
舉報