Skip to content

【GraphNet 热身打卡】计算图收集 #370

@JewelRoam

Description

@JewelRoam

欢迎大家参加飞桨社区贡献!🙇‍♂️

GraphNet 是一个大规模计算图数据集,作为 AI Infra 软件栈建设的统一评测框架,也作为 AI for Compiler 研究的“练功房”。为了让大家快速上手,我们举办了一个面向新手的“Good First Issue”。

参与热身打卡活动🎈,并提交 PR 至 GraphNet

关于 GraphNet

当前,深度学习模型数量日益庞大,却严重依赖于手动内核优化(如算子融合),使得模型和编译器算法与特定硬件紧密相关,严重增加了高性能开发的成本。而 AI for Compilers 通过将深度学习集成到张量编译器后端中,从而快速探索出最优性能。可以预计,随着大语言模型的快速发展,智能编译器将在各种硬件平台上自动传输算子融合模式,实现 AI Infra 的端到端优化。我们称之为 AI Infra 机床:“A machine tool that builds tools”。

为了支持此愿景,受 ImageNet 之于 CV 领域的启发,我们发起 GraphNet —— 计划共建一个 大规模计算图集合,包含逾百万份样本,覆盖跨越NLP、CV和多模态的50余个模型类别,旨在作为训练和验证 AI 驱动的张量编译器的标准数据集。为了确保样本规模、正确性和丰富度,我们设计了一套简洁而强大的约束规则,确保计算图抽取过程可复现,并支持编译器评测与性能优化研究。

我们坚信,GraphNet 将为 “AI for Systems” 以及 “System for AI” 的新一代研究奠定基础。

热身打卡活动简介

为了让大家能快速上手 GraphNet,我们举办了一个热身打卡活动,即捕获模型计算图,整理为 GraphNet 样本,并通过 PR 提交入库,完成打卡。

GraphNet 计划优先增广数据集的丰富度、拆解粒度,开发者需要预先查看目标任务(例如特定模型on特定框架)是否已在graph_net/samples和graph_net/paddle_samples中存在,若尚未入库,则可以开始收集,并在自查通过后提交贡献PR(若有多个未合入的相同样本PR,我们将优先采纳时间更早的)。

计算图抓取和验证等具体操作流程请参阅 Contributing to GraphNet 和更为详细的 共创者指引 / Co-Creation Tutorial

提交标准

我们的检查过程基于CI工具,如果 GitHub Actions 工作流显示 绿色成功状态,GraphNet 团队将会进行 Review 与合并;
Image

若失败,开发者需根据 PR 的 Checks 标签页 中的错误日志,更新提交 PR 触发新的检查。

其核心检查环节与 Validation API 一致,验证8项 GraphNet 数据集约束(Dataset Construction Constraints)。

PR 包含:

  • 新增的模型样本,提交到samples下对应的软件包目录
  • 所使用的抽取脚本,提交到 graph_net/tests

同时,请注意遵守 PR 填写模版。

Example

以下是部分新增计算图样本的 PR 例子,可供参考:
#224
#190
#116

不过需要注意,本任务中我们还要求提交抽取脚本(具体实现方式请查看 共创者指引 / Co-Creation Tutorial ,也可参照 graph_net/tests 中的已有脚本),附在同一个PR中提交即可。

交流微信群

Image

Metadata

Metadata

Labels

No labels
No labels

Type

No type
No fields configured for issues without a type.

Projects

Status

In Progress

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions