Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

您好,我这边每次建立job时,docker里面都会出现无法连接127.0.0.2:18080,导致所有任务都无法建立 #3143

Open
zhengxiangrong opened this issue Nov 27, 2024 · 14 comments

Comments

@zhengxiangrong
Copy link

1732677856976
@jialeicui
Copy link
Contributor

能否提供下您使用的 server / client 的版本?
以及方便的话提供一下 model / job 的脱敏配置

@zhengxiangrong
Copy link
Author

server / client版本应该就是v0.6.15对应的版本,我是直接git clone 下来的,然后配置的话我都没改动,swcli server start --host 0.0.0.0

@zhengxiangrong
Copy link
Author

然后如果我的启动命令是swcli server start --host 127.0.0.1的话,那么此时swcli model cp就会出现问题,就是在cloud_blob_cache.py文件的replace_url函数中返回url会出现127.0.0.2:18080如下图所示,导致模型无法上传到服务器
1732694588647

@jialeicui
Copy link
Contributor

您的意思是 swcli server start --host 0.0.0.0 是没有问题的是么?
另, 你最后的截图报错是本地运行的命令是么? 类似于 sw mo cp mnist cloud://server/project/1 这种么? (理论上本地 cp 到 remote 不会走 replace 的逻辑)

@jialeicui
Copy link
Contributor

还有就是麻烦看下您执行命令报这个错的环境里, dig bc-.starwhale.ai 的结果, 应该是 nxdomain 才对

@zhengxiangrong
Copy link
Author

如果是swcli server start --host 0.0.0.0在起job时,swcli model cp cloud://local-server/project/1不会报错, docker里面就会报错,报的就是第一张图的错误,如果是swcli server start --host 127.0.0.1 时,在swcli model cp cloud://local-server/project/1就会报错,此时报的错就是第二张图,也就是模型无法拷贝到服务器上

@zhengxiangrong
Copy link
Author

我这边socket.gethostbyname_ex("bc-.starwhale.ai")得到的结果如下图
1732761139289

@jialeicui
Copy link
Contributor

嗯, 那看起来问题可能就出在这里, starwhale.ai 是 starwhale 的域名, 我们保证了 bc-.starwhale.ai 这个域名一定不会解析出A记录
您那边能定位下 dns 解析的问题么? 让这种不存在的域名不要解析到 127.0.0.2

@zhengxiangrong
Copy link
Author

跟我使用虚拟机有关系嘛?好像在虚拟机上面都会出现这种情况

@jialeicui
Copy link
Contributor

大概率没关系, 我在 virtualbox 里安装了 ubuntu 24 测试了一下没有这个问题 (宿主机是 archlinux)
后面我准备把这个 cache 逻辑加一个强开关, 不用 nxdomain 域名了

@zhengxiangrong
Copy link
Author

嗯嗯,好的。谢谢

@zhengxiangrong
Copy link
Author

我的宿主机是window,虚拟机是linux ubuntu 24.04,你创建job 日志没报错嘛

@jialeicui
Copy link
Contributor

我这边都没有问题
你可以试试把虚机里的 dns 指向一个干净的 local dns 或者公开的 8.8.8.8 之类的再试试

@jialeicui
Copy link
Contributor

image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants