分布式推理框架Exo-实现AI推理集群

mtain 2025年01月22日 361次浏览

一、说明

可以将同一个局域网中的手机、平板、电脑组合起来实现AI推理集群，例如：使用雷电接口将几台Mac mini连接起来。

GitHub:https://github.com/exo-explore/exo

二、安装

根据github的文章安装即可

注意：

使用python虚拟环境安装
mac需要开启mlx（苹果公司推出的推理框架）

三、使用

1. 运行

设置国内的HF-Mirror镜像站点

# 查看帮助
HF_ENDPOINT=https://hf-mirror.com exo -h

# 直接启动
HF_ENDPOINT=https://hf-mirror.com exo

启动成功后

2. 访问

tinychat：http://xxx.xxx.xxx.xxx:52415/

3. 下载模型

注意： 先将集群跑起来，再进行下载，所有节点会参与下载，不同架构下载不同的模型文件

在tinychat中下载
使用huggingface-cli下载指定仓库的模型（文档较少，不推荐）

# mac环境模型下载
# mac仅支持mlx推理框架
# https://hf-mirror.com/mlx-community
huggingface-cli download --resume-download mlx-community/DeepSeek-R1-Distill-Qwen-32B-4bit --local-dir DeepSeek-R1-Distill-Qwen-32B-4bit


# ubuntu环境模型下载
# ubuntu环境仅支持tinygrad推理框架
# https://hf-mirror.com/NousResearch
huggingface-cli download --resume-download NousResearch/Meta-Llama-3.1-70B-Instruct --local-dir Meta-Llama-3.1-70B-Instruct

手动下载完成迁移到目录：~/.cache/exo/downloads

注意：
目前ubuntu和mac环境下都能下载Llama模型，但仅有mac环境下可以下载DeepSeek-R1模型

微信截图_20250212165239.png

参考文章

exo - 利用家用设备打造低成本的 AI 集群：https://zhuanlan.zhihu.com/p/7693213678

上一篇： TFT SPI显示屏-ESP32示例代码下一篇：直流电-开环霍尔电流传感器