ORION端到端自动驾驶框架，通过视觉语言模型指导动作生成，实现整体的自主驾驶

端到端的自动驾驶方法在交互式的闭环评估中然难以做出正确的决策，主要是因为这种方法的因果推理能力有限，目前大家试图利用视觉语言模型（VLM）强大的理解和推理能力来解决这个难题，但是由于语义推理空间与动作空间中纯粹的数值轨迹输出之间的差距，很少有VLM在闭环评估中有比较良好的表现。

为了解决这个问题，我们提出了ORION，ORION是一个通过视觉语言指导的动作生成来实现端到端自动驾驶的框架，结合了QT-Former来聚合长期历史上下文，大型语言模型（LLM）用于驾驶场景推理，生成规划器用于精确轨迹预测。ORION进一步对齐推理空间和动作空间，实现了视觉问答VQA规划任务的统一端到端优化。

ORION在Bench2Drive数据集上取得了非常优秀的闭环性能成绩，驾驶得分为77.74，成功率为54.62%，比现有的最先进方法高出14.28分和19.61%的成功率。

你可以从GitHub克隆ORION项目然后开始使用。

git clone https://github.com/xiaomi-mlab/Orion.git
cd ./Orion
conda create -n orion python=3.8 -y
conda activate orion
pip install torch==2.4.1+cu118 torchvision==0.19.1+cu118 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu118
pip install -v -e .
pip install -r requirements.txt

你可以参考相关指南准备Bench2Drive数据集。

你可以使用以下命令进行开环评估。

./adzoo/orion/orion_dist_eval.sh adzoo/orion/configs/orion_stage3.py [--PATH_CHECKPOINTS] 1

你可以执行CoT推理（可能会很慢）。

./adzoo/orion/orion_dist_eval.sh adzoo/orion/configs/orion_stage3_cot.py [--PATH_CHECKPOINTS] 1

建议在NVIDIA A100或其他具有超过32GB内存的GPU上进行推理（默认为fp32）。

你可以参考相关指南克隆Bench2Drive评估工具并为CARLA做准备，按照指南使用Bench2Drive的评估工具。

你可以通过以下方式设置进行闭环评估：

TEAM_CONFIG=adzoo/orion/configs/orion_stage3_agent.py+[CHECKPOINT_PATH]

结果和检查点

ORION和其他基线方法的比较：

方法	L2（米）	驾驶得分	成功率（%）
ORION	-	77.74	54.62

ORION端到端自动驾驶框架，通过视觉语言模型指导动作生成，实现整体的自主驾驶

Chat2DB：AI驱动的数据库工具与SQL客户端

FlashMLA专为Hopper架构GPU设计的高效解码内核

万能命令 wn.run：URL 前缀调用 23 类在线工具，全平台免安装，支持视频解析/价格追踪

notion-mcp-server：Notion API的MCP服务器实现，支持通过指令或内容ID与Notion交互

谷歌开放协议Agent2Agent (A2A)为 AI 代理生态系统提供通用的通信标准，实现跨平台、跨应用的智能体协作

ReCamMaster 通过单个视频重新捕捉场景，生成具有全新相机运动轨迹的视频

Zerox OCR 开源 AI 文档工具，将 PDF、DOCX、图片等格式转换为 Markdown

Deskreen 多平台屏幕共享工具，将带有网络浏览器的设备（手机、平板或另一台电脑）转变为电脑的第二屏幕或镜像显示器

哔哩下载姬（DownKyi）哔哩哔哩视频下载工具

FastAPI 基于 Python 3.6+ 版本的异步 WEB 应用框架

插件化、定制化、无广告的免费音乐播放器 MusicFree

自动驾驶

插件化、定制化、无广告的免费音乐播放器 MusicFree

Reubah 基于网页的图像处理与文档转换工具

Ward服务器监控工具

Escrcpy ：基于 Scrcpy 的图形化安卓手机投屏+控制软件，支持Windows、macOS、Linux

KrillinAI 基于LLMs的本地视频翻译、配音和语音克隆的工具

MarkitDown：可以将PDF，PPT，word，Excel、图片、音频、html、csv 等转化成Markdown格式

Together Open Deep Research由AI驱动的深度研究工具，能生成含引用的综合性报告

LLManager 用于管理审批请求的 LangGraph 工作流

Python A2A：Google A2A协议的Python实现，集成MCP，用于构建可互操作的多智能体系统

OpenAI.fm 基于 OpenAI Text-to-Speech 模型的交互式演示项目，使用 OpenAI Speech API 将文本转换成语音