由于不方便截圖,所以只能描述了,我盡量描述的清楚一些:在Hbase中有個(gè)表,但是不方便分字段進(jìn)行統(tǒng)計(jì),所以在Hive里建了一個(gè)外部表指向Hbase中的這個(gè)表,便于使用HQL進(jìn)行查詢,但是問題來了:在Hive中查詢的記錄數(shù)(無論是count1還是count*),都只有很少的記錄(3600),但是在Hbase中這個(gè)記錄數(shù)可是有兩千多萬!然后就查問題出現(xiàn)在哪里:在Hive里select所有記錄導(dǎo)出到一個(gè)txt文件里,打開發(fā)現(xiàn)實(shí)際是有兩千多萬條記錄的,但是如果在Hive用subtring函數(shù)截取id號(hào)的首字母進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)各個(gè)字母(A-Z)+數(shù)字(0-9)之和還是3600,我就驚了?。∶髅鱰xt文件里是有兩千多萬行的有效記錄啊,怎么hive里就只能查出來3600呢?請(qǐng)教各位大神,給個(gè)思路也行啊。。。
為什么在Hive里建立外部表之后進(jìn)行的計(jì)數(shù)結(jié)果和在Hbase里直接count的結(jié)果不一致?
木子二月鳥
2016-01-26 10:26:43