-
Notifications
You must be signed in to change notification settings - Fork 22
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
尝试进行了复现,但是没有达到论文中的结果,不知道哪一步出现了问题。 #29
Comments
@sunmingqi-1 你好,文中的结果是在单机八卡上训练得到的,可能是因为你在单卡上训练导致的这个结果 |
@wwqq 十分感谢您的回复。单卡训练结果不是应该更好一些,1. 多卡不是只是更加快一些但是不影响结果? 我之前加载预训练参数的时候加载错了加载成了seaformer-seg这个项目中README.md提到的参数,就是下面这个: |
hey, maybe the batch size you should set a proper value(such as 16) if you use a single gpu to run it. |
@1787648106 you are right。 |
我想想,难道它的损失函数和使用的卡数有关吗 |
具体为什么我也不知道,我也觉得单卡和多卡,在最终精度上应该不能有太大的差距。 |
我觉得,可能是哪部分代码有问题,但是mmcv我首次使用,不知道它的损失,以及模型模块,训练脚本在哪。如果您知道的话,
希望您替我解答一下,万分感谢
凯
***@***.***
…------------------ 原始邮件 ------------------
发件人: "fudan-zvg/SeaFormer" ***@***.***>;
发送时间: 2024年1月11日(星期四) 下午3:32
***@***.***>;
***@***.******@***.***>;
主题: Re: [fudan-zvg/SeaFormer] 尝试进行了复现,但是没有达到论文中的结果,不知道哪一步出现了问题。 (Issue #29)
我想想,难道它的损失函数和使用的卡数有关
具体为什么我也不知道,我也觉得单卡和多卡,在最终精度上应该不能有太大的差距。
—
Reply to this email directly, view it on GitHub, or unsubscribe.
You are receiving this because you commented.Message ID: ***@***.***>
|
|
好的,谢谢您的回答 |
@sunmingqi-1 @zckcola 你好,可以按照https://github.com/fudan-zvg/SeaFormer/tree/main/seaformer-seg README操作指引来运行代码,所有实验默认都是使用8卡完成。如果使用更少的gpu训练模型,需要将config文件中的batch size等比例增加以保证总的batch size一致。比如config里batch size=2,gpus=8,如果使用1gpu,则需要将config文件中batch size改为16。 |
|
是的,可以提供一下运行的log文件吗,谢谢! |
我刚看见了,log文件在这里 |
|
@zckcola 你好 |
好的,谢谢您的解答 |
|
不要解压,直接copy就行了,cp SeaFormer_B_cls_76.4.pth.tar <init_cfg中的路径> |
|
十分感谢您的工作以及@wwqq之前的回复 ,我目前正在尝试复现这篇论文的代码但是没有成功,我想要做分割任务,我在seaformer-seg 的local_configs/seaformer/seaformer_small.py 中的model backbone 中的checkpoint 直接用的,在seaformer-cls 中的README.md中下载的参数,(我没有使用seaformer-cls 做预训练,直接使用的在Google 上下载的参数,不知道这一步是否正确。)就是下面这个:(一开始用成了seaformer-seg 的README.md中提及的参数)
下载后是一个SeaFormer_B_cls_76.4.pth.tar ,之后我执行命令
cp SeaFormer_S_cls_73.4.pth.tar SeaFormer_S.pth
(不知道这一步将.pth.tar 转为 .pth 文件处理的对不对),之后我修改了下面这个地方:
数据集使用的cityScapes,如下:
之后就没有修改其它的地方了,使用如下命令执行的:
CUDA_VISIBLE_DEVICES=2 sh tools/dist_train.sh local_configs/seaformer/seaformer_small_1024x512_160k_1x8city.py 1 --work-dir checkpoint_b
但是,最后指标都上不去了,
始终mIoU维持在45~50之间。之后我就停止了训练。
可以看到aAcc、mIoU、mAcc几乎没有变化(不知道是什么原因)?
我使用同样的方法,验证了seaformer_base ,也时候出现了这样的情况?
我的环境如下:
torch 1.10.0+cu111
torchaudio 0.10.0+rocm4.1
torchvision 0.11.0+cu111
mmcv-full 1.7.1
mmengine 0.9.1
mmsegmentation 1.2.1 /home/pc_stu2/Projects/mmsegmentation
复现这篇论文花了很长时间,但是还是不能和论文中的结果对应上,如果您有时间,十分希望您可以指导一下。
Originally posted by @sunmingqi-1 in #28 (comment)
The text was updated successfully, but these errors were encountered: