Skip to content

lijiext/quickpool

Repository files navigation

一. 关于QUICKPOOL
QUICKPOOL是一款完全国产自研的算力调度系统,用于超算中心、智算中心等大规模计算集群的计算资源管理和任务算力调度。
QUICKPOOL将一组网络连通的服务器组成一个计算集群,整合池化计算资源,统一进行计算资源的管理和任务调度。用户可通过
统一的接口提交计算任务,透明地申请和使用集群资源。系统可以根据计算任务的资源需求,集群各计算节点的资源可用情况,
以及配置的调度策略,将任务调度分发到合适的计算节点上运行。调度时考虑集群内计算节点负载均衡,提高计算集群整体的
资源使用率,避免作业间资源争用,最大化任务运行效率。可针对不同场景灵活配置不同的调度策略,提高集群的作业吞吐量。
另外QUICKPOL提供集群、节点和作业各级别的容错机制,保证作业运行的可靠性和时效性。

QUICKPOOL的相关文档请到 https://quickpool.bj-hhss.com:8000/#/asset/index 文档中心下载:
* QUICKPOOL产品白皮书
* QUICKPOOL产品操作手册

二. 软件编译和运行准备
软件编译需要使用一些工具或者依赖组件的开发库,可以根据操作系统使用yum或apt安装。
1. 安装编译工具gcc、make。
    QUICKPOOL使用automake组织项目,请安装autoconf和automake。
2. 软件运行需要依赖一些组件,请为集群所有的节点安装以下依赖:
    *libyaml
    *tcl (8.x版本)
    *如果开启hwloc支持,请额外安装hwloc-libs和numactl-libs
3. 编译环境需要安装编译以下依赖:
    *libyaml-devel
    *tcl-devel
    *对于有些操作系统RHEL/CentOS 8+、Fedora 7+、Ubuntu等将libtirpc从glibc中独立出来,需要安装libtirpc-devel
    注意:对于libyaml-devel,yum/apt中如果找不到,需要下载与libyaml版本对应的rpm包安装。
4. 对于使用libnsl2的系统需要安装运行依赖libnsl,并创建软链接libnsl.so
    ln -s /usr/lib64/libnsl.so.1 /usr/lib64/libnsl.so
5. 如果编译开启hwloc支持,需要安装依赖hwloc-devel和numactl-devel

三. 软件编译安装步骤
1. QUICKPOOL使用automake组织项目,请依次运行以下命令生成makefile:
  autoreconf -ifv
  aclocal
 autoheader
 autoconf
 automake
2. 运行./configure生成makefile。
    可以使用以下选项指定软件安装目录,或者开启部分额外的功能。
    * --prefix=<install path> 指定安装目录,默认安装在/opt/quickpool-1.0。
      对于集群环境请安装在共享目录中,确保所有计算节点都可以访问。
    * --enable-debug=yes 编译debug版
    * --enable-cuda=yes 开启GPU调度功能
    * --with-hwloc 开启hwloc支持
    * --enable-tirpc 使用libtirpc库
     (对于某些操作系统如Ubuntu、RHEL/Centos 8+,Fedora 7+等libtirpc从glibc独立出来,需要开启此选项编译)
3. 运行make编译
4. 运行make install,软件将被安装到--prefix指定的目录中。

四. 环境准备和QUICKPOOL启动
1. 启动QUICKPOOL前请进行以下操作:(假定安装在/opt/quickpool中)
    a) 集群中各节点创建quickpool用户,确保UID一致。也可以使用NIS或者LDAP服务进行统一用户管理。
      useradd -s /bin/bash -m -u 2000 quickpool
    b) 将安装目录中所有文件和文件夹属主修改为quickpool
      chown -R quickpool: /opt/quickpool
    c) 在/etc/profile中添加环境变量加载脚本,每次登录shell将自动加载相关环境变量。
      source /opt/quickpool/etc/quickpool.sh
    d) 将/opt/quickpool/etc/qp.cluster.quickpool和/opt/quickpool/etc/qp.conf中的host1替换为管理节点主机名。
2. 第一次手动运行加载环境变量,或者重新登录shell。
    source /opt/quickpool/etc/quickpool.sh
3. 启动集群qp jm start all
4. 使用QUICKPOOL命令确认集群正常启动,如:
    qp node list -f
    qp node info -f

关于QUICKPOOL的使用,请参考《QUICKPOOL产品操作手册》,请到 https://quickpool.bj-hhss.com:8000/#/asset/index 下载。

About

No description, website, or topics provided.

Resources

License

Unknown, Unknown licenses found

Licenses found

Unknown
LICENSE
Unknown
COPYING

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages