GTC25 | 字节参会文章 Text2SQL 新评估指标-FuncEvalGMN
GTC25 | 字节参会文章 Text2SQL 新评估指标-FuncEvalGMN

GTC25 | 字节参会文章 Text2SQL 新评估指标-FuncEvalGMN

本文将介绍 GTC 2025 session 之一,由字节团队提出的基于图的 Text2SQL 的新评估指标,标题为:Toward Database-Free Text-to-SQL Evaluation: A Graph-Based Metric for Functional Correctness [P72633]图片

是字节团队提出的基于图的新评估指标-FuncEvalGMN,主要是为了克服执行准确性(Execution Accuracy)和精确集合匹配(Exact Set Match)的局限性。

FuncEvalGMN 有两个优势:一是只需要数据库 schema 就能推导出逻辑执行计划,无需大量准备测试数据库;二是在未见数据集上有很强的泛化能力,凸显了其准确性和稳健性。

下面将分享产品细节,您可以通过以下链接找到本文的所有参考内容

模型权重:https://drive.google.com/drive/folders/1KnVtwlDuIExoEY3Bq7ayKHhldhCtIydJ

GTC session 链接:https://www.nvidia.cn/gtc-global/session-catalog/?tab.catalogallsessionstab=16566177511100015Kus&search=sql#/session/1727580017854001n7SC

全文pdf:https://aclanthology.org/2025.coling-main.308.pdf

代码:https://github.com/Leon0-0/FuncEvalGMN


GTC session 介绍:

图片

架构图:

首先,将 SQL 查询对解析为图并嵌入其节点。然后,使用图对比学习来训练图匹配网络。最后,基于图表示的相似性来评估生成的 SQL 的正确性。

图片

核心是利用关系运算符树(ROT)从 SQL 查询的逻辑执行计划中提取丰富的语义信息并嵌入到图中,通过图对比学习训练图神经网络(GNN)对 SQL 查询对进行图匹配。

下图示意,进行 position embedding:通过连接图对中的关系节点(Rels)和种子节点(Seed Nodes)来计算图对的位置编码

图片

下图示意进行 graph embeding:通过整合内部图消息传递(Inner Graph Message Passing)和交叉注意力(Cross Attention),最后进行向量空间的相似度计算来得到结果

图片

效果对比:

FuncEvalGMN 和 Test Suite (Ruiqi Zhong, Tao Yu, and Dan Klein. 2020. Semantic evaluation for text-to-sql with distilled test suites. arXiv preprint arXiv:2010.02840.)在不同数据集上针对连接查询、嵌套查询和分组查询进行性能比较,使用了 BIRD-pair dev、Spider-pair dev 和 Spider-DK-pair dev 数据集的组合。可以观察到,FuncEvalGMN 方法的 AUC 分数始终高于测试套件。

图片

图片

发表回复

您的电子邮箱地址不会被公开。