Skip to content

【PaddlePaddle Hackathon 3】开源社区洞察任务合集 #44066

@Ligoml

Description

@Ligoml

(此 ISSUE 为 PaddlePaddle Hackathon 第三期活动的任务 ISSUE,更多详见 【PaddlePaddle Hackathon 第三期】任务总览

以下为飞桨黑客松第三期中,开源社区洞察任务合集:

注:报名参与开源社区洞察任务的同学可以向 paddle-hack@baidu.com 发邮件,我们会邀请你加入社群参与讨论~

No.87:Paddle 社区数据分析

  • 任务标签:GitHub 社区数据分析,深度学习

  • 任务难度:基础

  • 详细描述:使用 Paddle 社区的 GitHub 日志数据对 Paddle 社区进行深度的分析。
    分析任务包含:

    • 各类统计型任务(如 Issue、PR 数量,响应周期,解决周期等)并进行可视化和介绍,可参考 CHAOSS 指标体系。提出对 Paddle 社区的现状分析与优化建议;
    • 评论的情感分析:使用算法对 Issue 和 PR 中的评论内容进行情感分析,对正面或负面情绪进行识别与展示。
    • (选做)PR 的 reviewer 推荐:使用算法对特定 PR 进行 Reviewer 推荐。
  • 提交流程:对任务进行分析工作,并将结果汇总为 Jupyter Notebook 报告文件,上传至 X-lab2017/open-digger 仓库 Hackathon 文件夹中。

  • 提交内容:提交内容为一个完成的分析报告的 Jupyter Notebook 文件,至少包含基本分析任务。进阶分析任务需包含结果示例用于评判。

  • 评判标准:合入分析结果和说明的 Notebook 文件即为完成任务,最终排名由评判委员会对完成任务的参赛者打分,分数最高者获胜。

  • 技术要求:

    • 熟悉 Python 或 Node.js;
    • 熟悉 Clickhouse SQL 语法;
    • 了解 GitHub 日志数据。
  • 参考内容:

    • 数据集获取:sample_data
    • 熟悉 Node.js,可按上述文档使用 OpenDigger 提供的 Node.js Kernel JupyterLab 容器镜像进行分析工作;
    • 也可自行构建 Python Kernel 并进行分析工作。

No.88:Paddle 社区开发者行为可视化

  • 任务标签:GitHub 社区数据分析,深度学习

  • 任务难度:基础

  • 详细描述:使用 Paddle 社区的 GitHub 日志数据对 Paddle 社区中的开发者进行深入分析。
    分析任务包含:

    • 对 Paddle 社区的开发者的行为进行统计性分析,如日常贡献项目、使用语言、活跃情况、在 Paddle 社区的活跃周期等。
    • 利用算法对 Paddle 社区的贡献者进行开发者画像分析,如开发者的技能标签、所在组织、所在时区分析等。选取10位典型开发者展开介绍,形成对飞桨社区开发者的具象认知。
  • 提交流程:对任务进行分析工作,并将结果汇总为 Jupyter Notebook 报告文件,上传至 X-lab2017/open-digger 仓库 Hackathon 文件夹中。

  • 提交内容:提交内容为一个完成的分析报告的 Jupyter Notebook 文件,至少包含基本分析任务。进阶分析任务需包含结果示例用于评判。

  • 评判标准:合入分析结果和说明的 Notebook 文件即为完成任务,最终排名由评判委员会对完成任务的参赛者打分,分数最高者获胜。

  • 技术要求:

    • 熟悉 Python 或 Node.js;
    • 熟悉 Clickhouse SQL 语法;
    • 了解 GitHub 日志数据。
  • 参考内容:

    • 数据集获取:sample_data
    • 熟悉 Node.js,可按上述文档使用 OpenDigger 提供的 Node.js Kernel JupyterLab 容器镜像进行分析工作;
    • 也可自行构建 Python Kernel 并进行分析工作。

No.89:开源社区对比研究

  • 任务标签:GitHub 社区数据分析,GitHub 社区社会学研究

  • 任务难度:进阶

  • 详细描述:选取 GitHub上包含 PaddlePaddle/Paddle 社区在内的 10 个国内外优秀开源社区(不需要局限在人工智能领域,star 数 10k 以上),依据 GitHub 公开数据、社区研究论文、第三方分析报告等资料,对 10 个开源社区做横向对比研究。开放性任务。

  • 提交流程:提 PR 至 PaddlePaddle/community/ 仓库的 insight 目录。

  • 提交内容:一份对比研究报告,PDF 格式,如有其他开源分析 repo 可附链接在PDF中。

  • 评判标准:合入 PR 即为完成任务,最终排名由评判委员会对完成任务的参赛者打分,分数最高者获胜,次优者酌情获得奖励。

  • 技术要求:无。

  • 参考内容:

答疑交流

  • 如果对于上述任务有任何问题,欢迎在本 Issue 下留言交流;
  • 如果有 OpenDigger 使用相关问题,欢迎在 OpenDigger 项目中提交 Issue 进行讨论。

Metadata

Metadata

Assignees

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions