Database-Recommendation

這是適合我的案例的數據庫

  • April 23, 2019

我有一組 n 個句子(n >= 100k)。

我想執行這樣的查詢:給定一組 n_i 個句子,我返回一組 m_i 個單詞,這些單詞出現在 n_i 個句子的一個子集中,而另一個不存在。

哪個數據庫適合我的案例。我已經使用 sqlalchemy 研究了 sqlite,但我還沒有弄清楚如何將這些 m 個單詞儲存到每個 n 個字元串中。

我也更喜歡有 python apis 的東西。我應該使用圖形數據庫嗎?我對這些東西完全是個菜鳥,所以任何幫助都將不勝感激

這聽起來更像是一個程式問題,而不是數據儲存和檢索問題。儲存數據的位置可能無關緊要。您可以只使用 Azure Blob 儲存來儲存數據,並使用 Python 配置 Spark 集群來大規模處理數據。-大衛布朗

如果你想要一個開源數據庫,那麼就選擇 PostgreSQL——你會發現它比 MySQL 更強大……嗯,幾乎所有東西!您可能可以在您的 50 人之間使用某種CROSS JOIN( )並從那裡繼續。LATERAL``LAG

使用連接純粹是我的猜測。Python 可能會更好。關於 David Browne 的建議,可能需要一個程式解決方案。話雖如此,SQL(+WITH RECURSIVE子句)是圖靈完備的,所以理論上一切皆有可能。

我建議您從一些範例數據開始一個新問題。將該範例數據放入 dbfiddle.co.uk(或類似網站)。樣本數據不必與實際數據大小相同。首先,將其視為概念證明,以便人們了解問題的核心——為此,實際大小並不重要。以 100 和 5 聚體的序列為例?專注於詢問 SQL 問題而不是使用哪個伺服器 - 您可以說明對開源的偏好嗎?Python 適用於一切!-維拉斯

引用自:https://dba.stackexchange.com/questions/234773