-
Notifications
You must be signed in to change notification settings - Fork 85
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于提供的处理好的finetune flow level数据集的一些问题 #87
Comments
你好,请问为什么每个字节要重复一次呢?比如您举得例子: |
你好,感谢你对我们工作的关注。可以详细列举一下在哪些任务中的流处理吗? |
你好,感谢对我们工作的关注,这是使用字节对编码的结果,并不是唯一编码方法。 |
谢谢,我观察到你们的预训练样本也是这种字节对,我用你们的预训练模型去微调的话,不适用重复字节对编码的数据,而使用其他编码的方法,如不重复的,也可以吗? |
我们目前没尝试过,因为我们使用的编码与字典是对应的,因此不确定效果的影响。我们建议你可以尝试使用不同编码格式数据进行微调,并对比效果是否有明显差异进行评估可行性。 |
你好,我使用你们的模型做CSTNET的120分类,如果按照你们的预处理方法去除包头,效果就很糟糕,保留包头贼可以跑出还不错的效果 |
我注意到您在文章中表示,MAC header和IP header导致一些biased interference,所以在进行fine tune时需要删去,您在data_process/main.py提供的代码也表明对于data需要取[76:]。但我注意到您提供的finetune flow level数据集并没有删去这些包头信息。
如我随便打印一行
dcfe fe18 1834 34d5 d539 3938 38bc bc01 01a0 a0bf bfa8 a808 0800 0045 4500 0005 05dc dcba ba56 5600 0000 0032 3206 0683 836e 6e6f 6f0d 0d95 95f3 f396 96f2 f2a9
这其中开头是明显的MAC header和IP header,0800代表IPv4协议的以太网类型。如果我删去这些头,网络在分类任务上的性能并不好。请问您能解释一下您是如何做的吗
The text was updated successfully, but these errors were encountered: