3 回答

TA貢獻(xiàn)1804條經(jīng)驗(yàn) 獲得超8個(gè)贊
我會(huì)回答“這取決于”。在面試場(chǎng)景中,他們可能會(huì)故意給你一個(gè)模糊的問(wèn)題,看看你會(huì)用它做什么。正如其他人指出的那樣,找出文件的相關(guān)信息以及您想從中獲取哪些信息是關(guān)鍵,潛在的解決方案可能會(huì)因這些因素而有很大差異。
例如,如果文件實(shí)際上是 CSV,并且您想對(duì)數(shù)據(jù)進(jìn)行潛在的復(fù)雜分析(排序、計(jì)數(shù)、聚合等),那么將其推送到關(guān)系數(shù)據(jù)庫(kù)表中,比如 H2,可能不是一個(gè)壞主意. 如果文件包含更多自由格式的文本,您可能希望使用 Lucene 對(duì)其進(jìn)行索引,或者將其推送到 ElasticSearch 索引中,然后使用 Kibana 對(duì)其進(jìn)行搜索。
不過(guò),這些解決方案都沒(méi)有“使用代碼”分析文件,如果文件是一個(gè) 100GB 的電影剪輯,它們將完全無(wú)效。因?yàn)樗麄儐?wèn)你如何“用代碼”分析文件,我希望他們?cè)噲D看看你是否知道如何進(jìn)行面向字節(jié)的 I/O(例如 Java InputStream)與面向字符的(例如 Reader)和/ 或如何使用緩沖區(qū)讀取一個(gè)可能很大的文件(即不將整個(gè)文件加載到內(nèi)存中)。
這是一個(gè)簡(jiǎn)單的代碼示例...
import java.io.*;
public class StreamFile {
/** Stream through a file using a buffer. */
final static int BUFSIZE = 1024; // Use a 1K buffer.
public static void main(String[] args) throws Exception {
BufferedInputStream bis = new BufferedInputStream(new FileInputStream(new File(args[0])));
long totalBytes = 0;
byte[] buf = new byte[BUFSIZE];
while (bis.available() > 0) {
totalBytes += bis.read(buf, 0, BUFSIZE); // Do something here with the data in buf.
System.out.println(totalBytes); // Show progress.
}
System.out.println("Read " + totalBytes + " bytes");
bis.close();
}
}

TA貢獻(xiàn)1788條經(jīng)驗(yàn) 獲得超4個(gè)贊
根據(jù)文件類型/內(nèi)容,您可以將其加載到數(shù)據(jù)庫(kù)表中并通過(guò)查詢對(duì)其進(jìn)行分析(例如,如果它是 .csv 文件)。

TA貢獻(xiàn)2037條經(jīng)驗(yàn) 獲得超6個(gè)贊
這是一個(gè)廣泛的話題,但通常這些類型的問(wèn)題都可以使用緩沖區(qū)來(lái)解決。
緩沖區(qū)的大小是您的內(nèi)存可以容納的大小,您可以從文件中讀取數(shù)據(jù)并將其加載到緩沖區(qū)中以執(zhí)行任務(wù),然后清空緩沖區(qū)并加載下一個(gè)塊等等。
例如,如果你想對(duì)一些內(nèi)存太大的數(shù)據(jù)進(jìn)行排序,我們使用稱為外部排序的方法。
大多數(shù)情況下,當(dāng)我們?cè)诓樵冎惺褂胦rder by子句時(shí),關(guān)系數(shù)據(jù)庫(kù)使用這種外部排序方法對(duì)數(shù)據(jù)進(jìn)行排序。有關(guān)這方面的更詳細(xì)信息,下面粘貼了視頻鏈接的精彩講座。
https://www.youtube.com/watch?v=YjFI9CJy6x0&t=3506s
我希望它能幫助你理解。
添加回答
舉報(bào)