-
Notifications
You must be signed in to change notification settings - Fork 21
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
想到个有意思的东西,是不是可以做小作文被引(偷)数+查重数+点赞等维度判断小作文质量分数捏 #33
Comments
坏了 本鼠铸币了 影响因子应该做不成,毕竟5人底下都是偷来偷去的,期刊影响因子相同了属于是,改成质量分数 |
和朋友讨论了一下,感觉还是可以做,还蛮有意思的,以下是朋友的见解: 视频 -> conference 官号的每个视频投稿类似于一次conference,每一条原创评论类似于一篇paper。为每个conference(视频)计算其权重因子, 此时每个原创评论都有了其 和 ,若能构建评论引用的图网络,可将抄袭评论获得的分数,按一定图权重,加给被抄袭的原创评论。 但是由于图网络难以构建且意义不大,可以简化成抄袭评论所获得的 以一定权重加给原作者,权重默认可为1。 以上公式举个例子b,c,d,e 抄了 a,那么分数即为 而每一个活跃在评论区的文豪都是Author,对其发过的所有原创评论的 和 进行求和,就得到了衡量其个人总影响力的指标 ,以此可以做文豪排行榜 在没有视频数据的情况下,可以将视频影响因子从评论分数计算公式的自变量里删除,简化逻辑先凑合用。 @stream2000 @ch3cknull @michaelfyc 大佬们觉得捏 |
判断是否优质小作文能否使用 朴素贝叶斯 做类似于 垃圾邮件分类? 朴素贝叶斯判别优质小作文在不使用额外数据的情况下,我目前的思路是
b站表情额外处理上面说的额外处理,就是用正则匹配形似 [七海_生闷气] 这种文本形式,将其视作一个单独的字符 对于不同表情的处理方式暂时没想好,目前打算是都替换成空格再统计 查重文本框下面的 判断小作文类型 就简单用到了这个思路,不过只判断是否是字符画 计算方式存在的霸榜问题上面的这些计算由于我没太明白,所以还是要其他人再看一下? 这种计算方式对新的小作文不太友好的样子?感觉容易出现霸榜的情况 现在的 rank 的 总点赞榜 是有这种霸榜情况出现的,但是难以避免 |
另外问一下,生产环境下,现在数据读取是怎么读取的,还是直接加载全部数据在内存中么,原始数据是存在es还是db捏。 |
这个是上一个issue提的计算查重次数,按查重次数筛高质量小作文的延伸,是不是可以统计小作文被引(偷)数,展示这个高质量小作文列表,甚至由此定义一套小作文计算分数的计算方法捏
感觉很有意思诶
The text was updated successfully, but these errors were encountered: