本文将介绍 GTC 2025 session 之一,由字节团队提出的基于图的 Text2SQL 的新评估指标,标题为:Toward Database-Free Text-to-SQL Evaluation: A Graph-Based Metric for Functional Correctness [P72633]
是字节团队提出的基于图的新评估指标-FuncEvalGMN,主要是为了克服执行准确性(Execution Accuracy)和精确集合匹配(Exact Set Match)的局限性。
FuncEvalGMN 有两个优势:一是只需要数据库 schema 就能推导出逻辑执行计划,无需大量准备测试数据库;二是在未见数据集上有很强的泛化能力,凸显了其准确性和稳健性。
下面将分享产品细节,您可以通过以下链接找到本文的所有参考内容
模型权重:https://drive.google.com/drive/folders/1KnVtwlDuIExoEY3Bq7ayKHhldhCtIydJ
GTC session 介绍:

架构图:
首先,将 SQL 查询对解析为图并嵌入其节点。然后,使用图对比学习来训练图匹配网络。最后,基于图表示的相似性来评估生成的 SQL 的正确性。

核心是利用关系运算符树(ROT)从 SQL 查询的逻辑执行计划中提取丰富的语义信息并嵌入到图中,通过图对比学习训练图神经网络(GNN)对 SQL 查询对进行图匹配。
下图示意,进行 position embedding:通过连接图对中的关系节点(Rels)和种子节点(Seed Nodes)来计算图对的位置编码

下图示意进行 graph embeding:通过整合内部图消息传递(Inner Graph Message Passing)和交叉注意力(Cross Attention),最后进行向量空间的相似度计算来得到结果

效果对比:
FuncEvalGMN 和 Test Suite (Ruiqi Zhong, Tao Yu, and Dan Klein. 2020. Semantic evaluation for text-to-sql with distilled test suites. arXiv preprint arXiv:2010.02840.)在不同数据集上针对连接查询、嵌套查询和分组查询进行性能比较,使用了 BIRD-pair dev、Spider-pair dev 和 Spider-DK-pair dev 数据集的组合。可以观察到,FuncEvalGMN 方法的 AUC 分数始终高于测试套件。

