將海量平面文件讀入關係數據庫

May 12, 2014

我有一個包含約 4M 記錄的大型平面文本文件，我想使用 Ruby/Rails、Python 或任何其他方法將其讀入 MySQL。
平面文件大致是這樣的格式：business_name,address,city,state,zip,employee_name
如果企業有多名員工，則每個員工將在一行中重複企業名稱、地址等。
我想將其讀入兩個表，其中員工表具有如下外鍵：
businesses (id int, name varchar, address varchar, city varchar, etc.)
employees (id int, name varchar, business_id int)
如何有效地讀取此文件，以便根據需要創建和引用員工/企業？
注意：假設文件已排序是不安全的。
我已經嘗試先將文件讀入 SQL，然後使用 SQL 獲取一個唯一的 business_name/address/city/state 組合列表，然後我可以將其插入到businesss表中，但是我的伺服器記憶體不足。這只是載入了 1/4 的記錄。

嘗試在索引很少或沒有索引的 ISAM 表中使用 LOAD DATA INFILE。ISAM 應該減少記憶體消耗並以最快的方式獲取所有數據。在使用比您的更大的數據集執行此操作時，在記憶體比現在使用的記憶體少得多的相當舊的伺服器上，我從來沒有用完記憶體。
導入數據後，使用 ALTER TABLE 添加所需的索引，本質上是唯一標識企業所需的一切（名稱、地址、狀態等）。這可能要花點時間。
創建另一個具有自動遞增主鍵的 ISAM 表以及第一個表中唯一標識企業所需的所有列（例如，那些被索引但與員工無關的列）。添加一個 UNIQUE 鍵，其中包括表中除主鍵之外的所有列。
使用 REPLACE INTO 用第一個表中的數據填充第二個表，您將在此過程中為所有業務生成唯一的數字鍵。將鍵列添加到第一個表並使用第二個表中的數據對其進行更新，然後可以將其刪除。
從那裡您應該有一個表，其中所有企業都有唯一的、數字的和索引的鍵，並且應該能夠輕鬆地將數據拆分到您需要的 (InnoDb) 表中。

引用自：https://dba.stackexchange.com/questions/64892

將海量平面文件讀入關係數據庫

相關問答

4 行到 2 兩個具有相似列屬性

覆蓋 MySQL 數據庫只儲存 1 個月的數據

mysql 錯誤 1265 列的數據被截斷

處理多執行緒插入的正確方法是什麼

包含大量文本的 MySQL 表

從 MySQL 表 1227 (42000) 讀取數據時出錯：訪問被拒絕；您需要（至少一個）SYSTEM_USER 權限才能執行此操作