主要是對(duì)行去重如果先排序的話。。大約是這樣:sortbigtext.txt|uniq因?yàn)閡niq只能去相鄰行的重,但是對(duì)大文本進(jìn)行排序這個(gè)代價(jià)有點(diǎn)大?O(nlogn)對(duì)于n達(dá)到上億好像太慢了?其他的使用set更加。。。如果重復(fù)率小,吃內(nèi)存吃的不行。。。
如何高效地做到大文本去除重復(fù)行
四季花海
2019-04-09 20:25:28