[毕业设计] 面向开源治理最佳实践认证过程的分类预测模型 #64
Replies: 0 comments 13 replies
-
另外,怎么证明 OpenSSF 的数据是高质量的呢? |
Beta Was this translation helpful? Give feedback.
-
这是一个示例 https://bestpractices.coreinfrastructure.org/zh-CN/projects/1 从示例里其实可以直观看到,有很多问题其实是很难量化分析的,下面举几个例子:
在建模过程中怎么考虑这些难以量化的因素呢? |
Beta Was this translation helpful? Give feedback.
-
因为这些项目都是已经打上标签了(通过、白银、黄金等,以及百分比)。这个标签就是 ground truth,可以用来作为评测。从这几千个项目样本中提取出来训练,应该能够说明问题。 |
Beta Was this translation helpful? Give feedback.
-
关于 CII 最佳实践的数据已经获取完毕,约 12MB |
Beta Was this translation helpful? Give feedback.
-
研究了一下 scorecard,每个检查项 10 分,总评分就是加权平均。检查项有四个等级,critical 权重为 10,high 权重为 7.5,medium 权重为 5,low 权重为 2.5。 这篇文档里介绍了每个检查项的等级,以及具体评分的细节:https://github.com/ossf/scorecard/blob/main/docs/checks.md 但这些指标的权重数值是如何产生的,也没有特别的描述。我猜就是专家经验+拍脑袋。另外,如果一个检查项有脱离 GitHub 的实现方式(比如 CI 不一定要在 GitHub 做),那么等级就可能被设置为 low。 |
Beta Was this translation helpful? Give feedback.
-
从想要达到的目的上讲,scorecard 和 CII 最佳实践徽章的效果是类似的。因此可以考虑使用 scorecard 对 CII 最佳实践徽章中的项目进行测试、比对效果。但在测试的时候发现,对于在最佳实践中提交比较早的项目可能就不太适用了,因为 scorecard 只能检测仓库的当前状态,而不能追溯历史。 |
Beta Was this translation helpful? Give feedback.
-
对 CII 的数据进行了一些统计整理,发现:
|
Beta Was this translation helpful? Give feedback.
-
利用 OpenSSF 最佳实践的项目数据,结合我们自有的日志数据,建立一个最佳实践认证过程的分类预测模型。
我的第一个问题是:怎么样才能说明这个模型确实有用呢?如果只是利用上述的数据进行 K 折交叉验证,是不是太单薄了?如果要想证明真的有用,是不是需要自行在 GitHub 上搜罗更多数据?还是说是“市面上”已经有比较契合这个问题的数据集了呢?
@X-lab2017/x-lab
Beta Was this translation helpful? Give feedback.
All reactions