使用 SQLite3 + Node.js 的最佳实践

Best practices for using SQLite3 + Node.js

本文关键字：最佳 js SQLite3 Node 使用更新时间：2023-09-26

我有一个适度的Node.js脚本，它通过API从维基百科中提取数据并将其存储在SQLite数据库中。我正在使用这个节点 sqlite3 模块。

在某些情况下，我会提取超过 600,000 篇文章的数据，并在数据库中连续存储有关每篇文章的一些元数据。这些文章以 500 篇为一组从 API 检索。

检索包含 500 篇文章数据的 JSON 对象的请求会将对象传递给以下回调：

// (db already instantiated as 'new sqlite.Database("wikipedia.sqlite");')
function callback(articles) {
    articles.forEach(function (article) {
        db.run(
            "INSERT OR IGNORE INTO articles (name, id, created) VALUES (?,?,?)", 
            [
                article["title"], 
                article["pageid"], 
                article["timestamp"]
            ]
        );
    });
}

默认情况下，这些模块并行运行，但 node-sqlite3 的文档包含一个串行操作示例，如下所示：

db.serialize(function () {
    db.run("CREATE TABLE lorem (info TEXT)");
    var stmt = db.prepare("INSERT INTO lorem VALUES (?)");
    for (var i = 0; i < 10; i++) {
        stmt.run("Ipsum " + i);
    }
    stmt.finalize();
}

我试图模仿这一点，几乎没有看到性能差异。我做错了吗？目前，从API检索数据的速度比写入数据库的速度要快得多，尽管速度并非令人无法忍受。但是用 600K 个单独的 INSERT 命令重击数据库感觉很笨拙。

更新：根据接受的答案，这似乎适用于node-sqlite3，而不是本机解决方案。（请参阅此问题）。

db.run("BEGIN TRANSACTION");
function callback(articles) {
    articles.forEach(function (article) {
        db.run(
            "INSERT OR IGNORE INTO articles (name, id, created) VALUES (?,?,?)",
            [
                article["title"],
                article["pageid"],
                article["timestamp"]
            ]
        );
    });
}
db.run("END");

当您对 SQLite 数据库执行多次插入时，您需要将插入集合包装到事务中。否则，SQLite 将等待磁盘盘片在每次插入时完全旋转，同时对您插入的每条记录执行写后读验证。

在 7200 RPM 时，磁盘盘片再次旋转大约需要 1/60 秒，这在计算机时间中是永恒的。