GTC25 | 字节参会文章 Text2SQL 新评估指标-FuncEvalGMN

本文将介绍 GTC 2025 session 之一，由字节团队提出的基于图的 Text2SQL 的新评估指标，标题为：Toward Database-Free Text-to-SQL Evaluation: A Graph-Based Metric for Functional Correctness [P72633]

是字节团队提出的基于图的新评估指标-FuncEvalGMN，主要是为了克服执行准确性（Execution Accuracy）和精确集合匹配（Exact Set Match）的局限性。

FuncEvalGMN 有两个优势：一是只需要数据库 schema 就能推导出逻辑执行计划，无需大量准备测试数据库；二是在未见数据集上有很强的泛化能力，凸显了其准确性和稳健性。

下面将分享产品细节，您可以通过以下链接找到本文的所有参考内容

模型权重：https://drive.google.com/drive/folders/1KnVtwlDuIExoEY3Bq7ayKHhldhCtIydJ

GTC session 链接：https://www.nvidia.cn/gtc-global/session-catalog/?tab.catalogallsessionstab=16566177511100015Kus&search=sql#/session/1727580017854001n7SC

全文pdf：https://aclanthology.org/2025.coling-main.308.pdf

代码：https://github.com/Leon0-0/FuncEvalGMN

GTC session 介绍：

架构图：

首先，将 SQL 查询对解析为图并嵌入其节点。然后，使用图对比学习来训练图匹配网络。最后，基于图表示的相似性来评估生成的 SQL 的正确性。

核心是利用关系运算符树（ROT）从 SQL 查询的逻辑执行计划中提取丰富的语义信息并嵌入到图中，通过图对比学习训练图神经网络（GNN）对 SQL 查询对进行图匹配。

下图示意，进行 position embedding：通过连接图对中的关系节点（Rels）和种子节点（Seed Nodes）来计算图对的位置编码

下图示意进行 graph embeding：通过整合内部图消息传递（Inner Graph Message Passing）和交叉注意力（Cross Attention），最后进行向量空间的相似度计算来得到结果

效果对比：

FuncEvalGMN 和 Test Suite （Ruiqi Zhong, Tao Yu, and Dan Klein. 2020. Semantic evaluation for text-to-sql with distilled test suites. arXiv preprint arXiv:2010.02840.）在不同数据集上针对连接查询、嵌套查询和分组查询进行性能比较，使用了 BIRD-pair dev、Spider-pair dev 和 Spider-DK-pair dev 数据集的组合。可以观察到，FuncEvalGMN 方法的 AUC 分数始终高于测试套件。

发表回复 取消回复

发表回复取消回复