百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 文章教程 > 正文

使用 SkyPilot 在OCI云上运行分布式任务最佳实践

xsobi 2024-11-24 00:29 1 浏览

SkyPilot是一个受欢迎的管理AI及分布式工作负载和资源的工具,其在集群节点间管理了一个Ray集群,基于Ray集群可以运行基于Ray的分布式工作任务。可以使用SkyPilot以节省成本的方式管理GPU资源、TPU资源、NPU资源、HPC资源、CPU资源等等,比如可以设置在工作任务完成之后自动停止集群,这非常适合诸如模型训练等场景。

安装SkyPilot

# 下载 SkyPilot
git clone https://github.com/skypilot-org/skypilot.git

# 创建 Python 环境
conda create -n sky python=3.10

# 进入下载目录,然后执行 pip 命令安装OCI模块
pip install -e ".[oci]"

设置 OCI 配置文件

创建 ~/.oci 目录,该目录需要包含 config 文件和 API Key 文件,如下:

~/.oci/config
~/.oci/oci_api_key.pem

~/.oci/config 文件的内容类似如下:

[DEFAULT]
user=ocid1.user.oc1..aaaaaaaa
fingerprint=aa:bb:cc:dd:ee:ff:gg:hh:ii:jj:kk:ll:mm:nn:oo:pp
tenancy=ocid1.tenancy.oc1..aaaaaaaa
region=region_name
# Note that we should avoid using full home path for the key_file configuration, e.g. use ~/.oci instead of /home/username/.oci
key_file=~/.oci/oci_api_key.pem


创建集群

比如,启动一个2节点的集群:

sky launch -c "hysdev_2nodes" cpu_task.yaml

cpu_task.yaml 文件内容如下,此时可以在 setup 命令段设置好环境,安装好依赖包等初始化,但具体的任务逻辑(run命令段) 可以为空,即不执行具体的任务逻辑。等集群创建好之后我们再提交具体的任务。

name: cpu-task1

resources:
  # Optional; if left out, automatically pick the cheapest cloud.
  cloud: oci

  region: ap-seoul-1

  cpus: 2

  use_spot: False

# Working directory (optional) containing the project codebase.
# Its contents are synced to ~/sky_workdir/ on the cluster.
workdir: .

num_nodes: 2

# Typical use: pip install -r requirements.txt
# Invoked under the workdir (i.e., can use its files).
setup: |
  echo "*** Running setup for the task. ***"
  echo "For example, create your python env, create packages, etc. "

# Typical use: make use of resources, such as running training.
# Invoked under the workdir (i.e., can use its files).
run: |
  echo "*** Running the task on OCI ***"

输出:

Considered resources (2 nodes):
-------------------------------------------------------------------------------------------------------
 CLOUD   INSTANCE                   vCPUs   Mem(GB)   ACCELERATORS   REGION/ZONE   COST ($)   CHOSEN
-------------------------------------------------------------------------------------------------------
 OCI     VM.Standard.E4.Flex$_2_8   2       8         -              ap-seoul-1    0.07          ?
-------------------------------------------------------------------------------------------------------
Launching a new cluster 'hysdev_2nodes'. Proceed? [Y/n]:
?? Launching on OCI ap-seoul-1 (AP-SEOUL-1-AD-1).
└── Instances are up.
? Cluster launched: hysdev_2nodes.  View logs at: ~/sky_logs/sky-2024-11-10-18-09-19-874460/provision.log
Run commands not specified or empty.

Cluster name: hysdev_2nodes
├── To log into the head VM:    ssh hysdev_2nodes
├── To submit a job:            sky exec hysdev_2nodes yaml_file
├── To stop the cluster:        sky stop hysdev_2nodes
└── To teardown the cluster:    sky down hysdev_2nodes


运行工作任务:

工作任务可以是你的任何程序,可以直接放在 task 的任务文件的 run 段中。task 文件中的 workdir 指定本地需要运行的程序代码,它会自动同步的远程服务器上去。

比如,如下 mytask1.yaml 文件:

name: my-task

# 需要同步到远程服务器上的本地代码目录
workdir: .

# 具体需要执行的工作任务,可以是任何命令
run: |
  echo "*** Running the task on OCI ***"
  source ~/skypilot-runtime/bin/activate
  python task.py
  echo "The task is completed."

提交并运行工作任务:

sky exec hysdev_2nodes mytask1.yaml


这样我们就成功创建了一个集群,并调度集群的资源成功运行了一个指定的工作任务。

更多命令可以查看:

# 查看创建集群时的具体参数
sky launch -h

# 查看集群状态的具体参数
sky status -h

 Useful Commands
├── To cancel the job:          sky cancel hysdev_2nodes 1   (取消一个任务)
├── To stream job logs:         sky logs hysdev_2nodes 1  (查看任务实时log)
└── To view job queue:          sky queue hysdev_2nodes  (查看任务队列)

Cluster name: hysdev_2nodes
├── To log into the head VM:    ssh hysdev_2nodes  (ssh 到集群主节点)
├── To submit a job:            sky exec hysdev_2nodes yaml_file  (提交一个任务)
├── To stop the cluster:        sky stop hysdev_2nodes  (停止一个集群)
└── To teardown the cluster:    sky down hysdev_2nodes  (销毁一个集群)

相关推荐

好用的云函数!后端低代码接口开发,零基础编写API接口

前言在开发项目过程中,经常需要用到API接口,实现对数据库的CURD等操作。不管你是专业的PHP开发工程师,还是客户端开发工程师,或者是不懂编程但懂得数据库SQL查询,又或者是完全不太懂技术的人,通过...

快速上手:Windows 平台上 cURL 命令的使用方法

在工作流程中,为了快速验证API接口有效性,团队成员经常转向直接执行cURL命令的方法。这种做法不仅节省时间,而且促进了团队效率的提升。对于使用Windows系统的用户来说,这里有一套详细...

使用 Golang net/http 包:基础入门与实战

简介Go的net/http包是构建HTTP服务的核心库,功能强大且易于使用。它提供了基本的HTTP客户端和服务端支持,可以快速构建RESTAPI、Web应用等服务。本文将介绍ne...

#小白接口# 使用云函数,人人都能编写和发布自己的API接口

你只需编写简单的云函数,就可以实现自己的业务逻辑,发布后就可以生成自己的接口给客户端调用。果创云支持对云函数进行在线接口编程,进入开放平台我的接口-在线接口编程,设计一个新接口,设计和配置好接口参...

极度精神分裂:我家没有墙面开关,但我虚拟出来了一系列开关

本内容来源于@什么值得买APP,观点仅代表作者本人|作者:iN在之前和大家说过,在iN的家里是没有墙面开关的。...

window使用curl命令的注意事项 curl命令用法

cmd-使用curl命令的注意点前言最近在cmd中使用curl命令来测试restapi,发现有不少问题,这里记录一下。在cmd中使用curl命令的注意事项json不能由单引号包括起来json...

Linux 系统curl命令使用详解 linuxctrl

curl是一个强大的命令行工具,用于在Linux系统中进行数据传输。它支持多种协议,包括HTTP、HTTPS、FTP等,用于下载或上传数据,执行Web请求等。curl命令的常见用法和解...

Tornado 入门:初学者指南 tornados

Tornado是一个功能强大的PythonWeb框架和异步网络库。它最初是为了处理实时Web服务中的数千个同时连接而开发的。它独特的Web服务器和框架功能组合使其成为开发高性能Web...

PHP Curl的简单使用 php curl formdata

本文写给刚入PHP坑不久的新手们,作为工具文档,方便用时查阅。CURL是一个非常强大的开源库,它支持很多种协议,例如,HTTP、HTTPS、FTP、TELENT等。日常开发中,我们经常会需要用到cur...

Rust 服务器、服务和应用程序:7 Rust 中的服务器端 Web 应用简介

本章涵盖使用Actix提供静态网页...

我给 Apache 顶级项目提了个 Bug apache顶级项目有哪些

这篇文章记录了给Apache顶级项目-分库分表中间件ShardingSphere提交Bug的历程。说实话,这是一次比较曲折的Bug跟踪之旅。10月28日,我们在GitHub上提...

linux文件下载、服务器交互(curl)

基础环境curl命令描述...

curl简单使用 curl sh

1.curl--help#查看关键字2.curl-A“(添加user-agent<name>SendUser-Agent<name>toserver)”...

常用linux命令:curl 常用linux命令大全

//获取网页内容//不加任何选项使用curl时,默认会发送GET请求来获取内容到标准输出$curlhttp://www.baidu.com//输出<!DOCTYPEh...

三十七,Web渗透提高班之hack the box在线靶场注册及入门知识

一.注册hacktheboxHackTheBox是一个在线平台,允许测试您的渗透技能和代码,并与其他类似兴趣的成员交流想法和方法。它包含一些不断更新的挑战,并且模拟真实场景,其风格更倾向于CT...