一個很好的數據集來試驗 NoSQL 數據庫
我需要在 HBase 和 Cassandra 中做一些實驗,為此我需要足夠的數據集。
我正在尋找的數據集必須足夠大(即超過 2GB),並且其中的數據必須足夠非結構化,才能代表關係技術無法應對的問題。也許來自社交網路的數據等等。
有沒有人有這種數據集或知道我在哪裡可以找到這樣的數據集?
$$ EDIT - added several public dataset sites $$. 首先,沒有真正的證據表明 NoSQL 數據庫在處理大型數據集方面比傳統(OldSQL)RDBMS 更好。查看 Ted Dziuba 的文章,了解他是如何等不及 NoSQL 消亡的。他指出,沃爾瑪繼續使用 RDBMS——而且他們不是一家小公司!他說 NoSQL 是,並且應該保持,小眾,你很可能不需要它。他還提出了一個合理的觀點,即 Facebook、Google 和 Twitter 不是具有正常數據處理需求的正常公司。
GoogleMichael Stonebraker關於 OldSQL、NoSQL 和 NewSQL 的著作(例如1、2、3)。他指出NoSQL 把嬰兒和洗澡水一起扔了出去——即NoSQL 不強制執行ACID 事務,這對於數據庫系統來說是可憎的。正如您從他的簡歷中看到的那樣,他作為學者和工業界從事數據庫工作已有 40 年。
他同意 NoSQL 學派的觀點,即 OldSQL(想想 Oracle、MS SQL Server 等)是“舊技術”,需要“送回家換退役軟體”,而 OldSQL(在這種情況下是 MySQL)已經將 Facebook 困在了其中。 “比死亡更糟糕的命運”。他關於 NewSQL 的觀點是,對於 OLTP 應用程序,您需要一個無共享的分片架構(查看他的VoltDB),而對於 OLAP,您需要專用的列式儲存,即Vertica(他將其出售給 HP)。
如果這不能說服您,請在此處查看Brian Aker(前 MySQL 首席架構師)對 NoSQL 的幽默看法。
至於大型數據集,我會敦促你在你特別感興趣的領域Google。我知道氣象數據集(我父親就是其中之一)可能非常大,基因組數據集也可能很大(我在大學學習遺傳學)。這個網站似乎就在你的小巷裡——有許多多 GB 和多 TB 的數據集。
$$ EDIT $$可以找到其他感興趣的站點(1、2、3、4和5)。 我強烈建議您對 RDBMS 和 NoSQL 解決方案進行基準測試。正如我所提到的,Dziuba 說 NoSQL 是小眾市場——它可能適合您的特定需求,我不知道。2GB 數據集現在正式很小(甚至很小 - 它們很容易放在所有記憶棒上。如今,您必須進入數 TB 區域才能使數據庫變得更大。考慮一下阿波羅登月的IT 容量。有2GB 巨大的時代——不再如此!
最後,我將最後一句話留給 Ted Dziuba:
“我不只是單單挑出 Cassandra——通過用不同的新數據儲存替換 MySQL 或 Postgres,你已經用一個新的、知之甚少的限制和缺陷列表交換了一個詳細列舉的限制和缺陷列表,那就是巨大的商業風險”。