關(guān)于鄭鈞的回答,我覺得涉及的點很好,但是有些知識不是很準(zhǔn)確;
map/reduce 是一種分布式計算的框架,TIIDF可以看作是一種特征表示方法;統(tǒng)計方法比較常用的包括,樸素貝葉斯,最大后驗概率,EM算法,CRF(比如用于分詞)等;
SVM不是聚類方法,而是分類回歸方法; VSM應(yīng)該是vector-space-model吧,是向量空間模型,是文本表示的基本模型;常見的聚類方法分為兩類,層次聚類和扁平聚類,扁平聚類的代表算法是經(jīng)典的KMean算法。分類方法也用的很多,比如SVM和決策樹。
NLP本身有一點比較特別的是語言模型;