如何打開非常大的文本和 CSV 文件
已發表: 2021-10-24MS Excel 可以顯示 1,048,576 行。 雖然這在正常使用中可能看起來非常大,但在很多情況下這還不夠。
無論您是查看日誌文件還是大型數據集,很容易遇到包含數百萬行的 CSV 文件或巨大的文本文件。 由於 Excel 無法支持這麼大的文件,您究竟如何打開它們? 讓我們來了解一下。

為什麼普通文本編輯器無法打開非常大的文件?
計算機有千兆字節的存儲空間,為什麼文本編輯器不能打開大文件?
這裡有兩個因素在起作用。 某些應用程序對它們可以顯示的數據量有硬編碼限制。 不管你的電腦有多少內存,他們只是不會使用它。
第二個問題是內存。 許多文本編輯器對行數沒有硬性限制,但由於內存限制,無法顯示大文件。 他們將整個文件加載到系統 RAM 中,因此如果此內存不夠大,則該過程將失敗。
方法#1:使用免費編輯器
查看超大文本文件的最佳方法是使用……文本編輯器。 不僅僅是任何文本編輯器,而是用於編寫代碼的工具。 此類應用程序通常可以毫無障礙地處理大文件並且是免費的。
大文本文件查看器可能是這些應用程序中最簡單的。 它非常易於使用,運行速度快,並且資源佔用非常低。 唯一的缺點? 它無法編輯文件。 但如果您只想查看大型 CSV 文件,這無疑是完成這項工作的最佳工具。

對於編輯大型文本文件,您應該嘗試 Emacs。 最初是為 Unix 系統創建的,它在 Windows 上也能很好地工作,並且可以處理大文件。 同樣,Neovim 和 Sublime Text 是兩個輕量級 IDE,可用於打開千兆字節大小的 CSV 文本文件。

如果您正在尋找的只是通過大型日誌文件搜索數據,那麼 klogg 就是適合您的工具。 流行的 glogg 的更新分支,此應用程序允許您輕鬆地通過巨大的文本文件執行複雜的搜索操作。 由於計算機生成的日誌文件通常可以包含數百萬行,因此 klogg 旨在處理此類文件大小而不會出現問題。

方法#2:拆分成多個部分
嘗試打開大型 CSV 文件的整個問題是它們太大了。 但是,如果您要將它們分成多個較小的文件怎麼辦?
這是一種流行的解決方案,因為它通常不需要學習新文本編輯器的界面。 相反,您可以使用在線提供的眾多 CSV 拆分器之一,將大文件拆分為多個易於打開的文件。 然後可以正常訪問這些文件中的每一個。

但是,這不是解決此問題的最佳方法。 拆分大文件通常會導致奇怪的拼寫錯誤或配置不正確的文件。 此外,單獨打開每個塊可以防止您一次過濾整個數據。

方法#3:導入數據庫
擴展到數 GB 的文本和 .csv 文件通常是大型數據集。 那麼為什麼不直接將它們導入數據庫呢?
SQL 是當今最常用的數據庫標記語言。 使用的 SQL 版本有很多,但最簡單的可能是 MySQL。 幸運的是,可以將 CSV 文件轉換為 MySQL 表。

這絕不是處理大型 CSV 文件的最簡單方法,因此我們僅在您想定期處理大型數據集時才推薦此方法。 如果 MySQL 聽起來太難,您可以隨時將 .csv 文件導入 MS Access。
方法 #4:使用 Python 庫進行分析
當您使用包含數百萬行數據的 .csv 文件時,您顯然無法手動理解它。 您可能希望過濾數據並運行特定查詢以了解趨勢。

那麼為什麼不編寫 Python 代碼來做到這一點呢?
再一次,這不是最用戶友好的方法。 雖然 Python 不是最難學習的編程語言,但它是編碼,因此它可能不是最適合您的方法。 儘管如此,如果您發現自己每天都必須解析非常大的 CSV 文件,您可能希望使用一些 Python 代碼自動執行該任務。
方法#5:使用高級工具
我們在第一種方法中看到的文本編輯器並不是用於 CSV 處理的專用工具。 它們是通用工具,也可用於處理大型 .csv 文件。
但是專門的應用程序呢? 是否沒有為解決此問題而創建的應用程序?
有,其實。 例如,CSV Explorer 建立在我們在最後兩種方法(SQL 數據庫和 Python 代碼)中描述的過程之上,以創建能夠查看和編輯任何大小的 CSV 文件的應用程序。 您可以使用電子表格工具完成您期望的所有操作,例如在 CSV 資源管理器中創建圖表或過濾數據。

另一個選擇是 UltraEdit。 與之前的工具不同,這不僅適用於 .csv 文件,還適用於任何類型的文本文件。 它可以輕鬆處理大小不等的文本和 CSV 文件,其界麵類似於我們之前討論的許多免費編輯器。

這些工具的唯一缺點是它們是高級應用程序,需要您獲得付費許可證才能使用它們。 您可以隨時試用他們的免費試用版來查看他們的功能,或者如果您只有一次性使用。
打開大文本和 CSV 文件的最佳方式是什麼?
在這個大數據時代,遇到高達千兆字節的文本文件並不少見,甚至使用記事本或 MS Excel 等內置工具都難以查看。 為了能夠打開如此大的 CSV 文件,您需要下載並使用第三方應用程序。
如果您只想查看此類文件,那麼大文本文件查看器是您的最佳選擇。 要實際編輯它們,您可以嘗試使用 Emacs 等功能豐富的文本編輯器,或者使用 CSV Explorer 等高級工具。
拆分 CSV 文件或將其導入數據庫等技術涉及的步驟太多。 如果您發現自己經常處理大量文本文件,最好獲得專用高級工具的付費許可證。