栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Determined AI 本地集群配置

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Determined AI 本地集群配置

  • 【参考自:】https://docs.determined.ai/latest/sysadmin-deploy-on-prem/index.html
【集群配置要求】

https://docs.determined.ai/latest/sysadmin-deploy-on-prem/requirements.html

【docker 安装】

按照下面链接步骤:
https://docs.determined.ai/latest/sysadmin-deploy-on-prem/requirements.html#install-docker

【docker 配置】

https://docs.determined.ai/latest/sysadmin-deploy-on-prem/docker.html
1、集群所有集群按照docker 安装步骤安装完成后并且确保集群每台机器的nvidia container Toolkit 都按照预期工作。
2、拉取 PostgreSQL 的官方 Docker 镜像。建议使用下面列出的版本。
docker pull postgres:10

3、拉取determined ai 容器
在这些服务将运行的每台机器上为 master 或 agent 拉取 Docker 镜像。在集群中的主节点运行一个主容器,在从节点机器上运行代理容器。一台机器可以同时承载主容器和代理容器。运行以下命令,替换VERSION为有效的确定版本,例如当前版本 0.17.2:

docker pull determinedai/determined-master:0.17.2
docker pull determinedai/determined-agent:0.17.2
【启动主节点容器】

启动主节点的容器需要配置默认的master.yaml 配置文件,可用的配置参数可用从这个链接https://docs.determined.ai/latest/sysadmin-basics/cluster-config.html#master-configuration获取。
我们可以使用官网上给定的默认配置值:https://raw.githubusercontent.com/determined-ai/determined/master/master/packaging/master.yaml
根据需要修改配置。
在主节点机器上输入:

det deploy local master-up

在从节点机器上输入

det deploy local agent-up 主节点机器ip

主节点机器查看:
masterip:8080

【运行官网测试程序】
wget https://docs.determined.ai/latest/_downloads/61c6df286ba829cb9730a0407275ce50/mnist_pytorch.tgz
tar xzvf mnist_pytorch.tgz
cd mnist_pytorch/
det experiment create const.yaml

(注意这里如果没有使用科学上网的话可能会遇到pip 超时的问题,参考下面自定义docker 镜像将image更新为自己的镜像)
如果系统的cuda 版本与默认的11.1不符合可以指定使用的docker 镜像
vim const.yaml
在最后追加指定的image:

environment:
    image: determinedai/environments:cuda-10.2-pytorch-1.7-tf-1.15-gpu-0.17.2

可用的docker image如下:

determinedai/environments:cuda-11.1-pytorch-1.9-lightning-1.3-tf-2.4-gpu-0.17.2 (默认)
determinedai/environments:cuda-10.2-pytorch-1.7-tf-1.15-gpu-0.17.2
determinedai/environments:cuda-10.1-pytorch-1.4-tf-2.2-gpu-067db2b
determinedai/environments:cuda-10.0-pytorch-1.4-tf-1.15-gpu-067db2b
determinedai/environments:cuda-11.2-tf-2.5-gpu-0.17.2
determinedai/environments:cuda-11.2-tf-2.6-gpu-0.17.2


 determinedai/environments:py-3.8-pytorch-1.9-lightning-1.3-tf-2.4-cpu-0.17.2
determinedai/environments:py-3.7-pytorch-1.7-tf-1.15-cpu-0.17.2
determinedai/environments:py-3.8-tf-2.5-cpu-0.17.2
determinedai/environments:py-3.8-tf-2.6-cpu-0.17.2
【自定义docker 镜像】:

进入目前的镜像:

docker run -it --name custom_determinedai determinedai/environments:cuda-10.2-pytorch-1.7-tf-1.15-gpu-0.17.2
修改镜像的时区、pip源等:

查看系统版本:

cat /etc/issue

更新ubuntu源为国内源这一步可以网上搜索相关教程:
如果没有代理科学上午且不需要google-cloud相关服务可以将下面文件删除以免apt-get update 时报错。

rm -f /etc/apt/sources.list.d/google-cloud-sdk.list

设置时区:

 apt install -y tzdata

选择时区

修改pip源

pip3 config set global.index-url http://mirrors.aliyun.com/pypi/simple
pip3 config set install.trusted-host mirrors.aliyun.com
apt-get install systemd

提交镜像:

docker login # 登录docker hub
docker ps -a #查看docker 修改后的容器hashid
docker commit -m "modify time zone and pip source sys source cn" -a yourname   容器hashid
# 运行后会出现image_id:
docker tag image_id your_docker_user_name/your_docker_repositories_name:your_version_name
docker push your_docker_user_name/your_docker_repositories_name:your_version_name
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/488800.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号