分布式推理框架Exo-实现AI推理集群

mtain 2025年01月22日 262次浏览

一、说明

可以将同一个局域网中的手机、平板、电脑组合起来实现AI推理集群,例如:使用雷电接口将几台Mac mini连接起来。

GitHub:https://github.com/exo-explore/exo

二、安装

根据github的文章安装即可

注意:

  1. 使用python虚拟环境安装
  2. mac需要开启mlx(苹果公司推出的推理框架)

三、使用

1. 运行

设置国内的HF-Mirror镜像站点

# 查看帮助
HF_ENDPOINT=https://hf-mirror.com exo -h

# 直接启动
HF_ENDPOINT=https://hf-mirror.com exo

启动成功后
image.png

2. 访问

tinychat:http://xxx.xxx.xxx.xxx:52415/

3. 下载模型

注意: 先将集群跑起来,再进行下载,所有节点会参与下载,不同架构下载不同的模型文件

  • 在tinychat中下载
    image.png

  • 使用huggingface-cli下载指定仓库的模型(文档较少,不推荐)

# mac环境模型下载
# mac仅支持mlx推理框架
# https://hf-mirror.com/mlx-community
huggingface-cli download --resume-download mlx-community/DeepSeek-R1-Distill-Qwen-32B-4bit --local-dir DeepSeek-R1-Distill-Qwen-32B-4bit


# ubuntu环境模型下载
# ubuntu环境仅支持tinygrad推理框架
# https://hf-mirror.com/NousResearch
huggingface-cli download --resume-download NousResearch/Meta-Llama-3.1-70B-Instruct --local-dir Meta-Llama-3.1-70B-Instruct

手动下载完成迁移到目录:~/.cache/exo/downloads
image.png

注意:
目前ubuntu和mac环境下都能下载Llama模型,但仅有mac环境下可以下载DeepSeek-R1模型

微信截图_20250212165239.png

参考文章

exo - 利用家用设备打造低成本的 AI 集群:https://zhuanlan.zhihu.com/p/7693213678