DeepResearcher基于强化学习的框架，端到端地训练基于LLM（大型语言模型）的深度研究代理

DeepResearcher是通过强化学习在真实环境中扩展基于大型语言模型的深度研究代理的端到端训练框架，能利用真实的网页搜索交互来增强模型的能力。

DeepResearcher可以在huggingface-hub上使用，用户可以通过以下命令安装所需的依赖项：

git clone https://github.com/GAIR-NLP/DeepResearcher.git
conda create -n deepresearcher python=3.10
conda activate deepresearcher
pip3 install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation

在使用ray训练模型之前，需要先启动ray，即使只有一个节点，也需要设置PET_NODE_RANK，以下是头节点的代码：

export PET_NODE_RANK=0
ray start --head

启动后端处理

运行以下命令启动服务器处理程序：

python ./scrl/handler/server_handler.py

在启动所有服务器处理程序后，可以在训练主机节点的配置文件中替换server_url_list，然后运行：

python ./scrl/handler/handler.py

训练模型

使用以下命令训练模型：

bash train_grpo.sh

评估结果

使用以下命令生成rollout：

bash evaluate.sh

可以在以下路径找到rollout文件：

./outputs/{project_name}/{experiment_name}/rollout/rollout_step_0.json

重命名并复制到：

./evaluate/{experiment_name}_result.json

然后运行以下命令计算指标：

python ./evaluate/cacluate_metrics.py {experiment_name}

可以在以下路径查看分数：

./evaluate/{experiment_name}_score.json

DeepResearcher受到了Deepseek-R1的启发，实现基于veRL和Search-r1。

LLManager 用于管理审批请求的 LangGraph 工作流

DeepResearcher基于强化学习的框架，端到端地训练基于LLM（大型语言模型）的深度研究代理

MCP Server for Milvus 让LLM应用可以通过模型上下文协议(MCP)访问Milvus向量数据库的功能

Llama3从零开始实现指南

FlashMLA专为Hopper架构GPU设计的高效解码内核

赤兔 Chitu 高性能大语言模型推理框架

基于Diffusion Transformer（DiT）的AI图像生成工具 InfiniteYou

OI Wiki 编程竞赛知识库

TrafficMonitor 桌面悬浮窗软件，显示当前的网速、CPU 利用率和内存利用率

Eko框架：开源JavaScript AI代理工具，构建AI Agent 工作流

AudioX音频处理工具库，基于扩散Transformer模型，可根据文本、视频、图像、音乐或音频等生成音频或音乐

Notesnook 开源端到端加密的笔记应用

GitHub Chinese Top Charts：GitHub中文排行榜，帮助你发现高分优秀中文项目

Lumina-mGPT 2.0 自回归图像生成模型，支持多种图像生成任务

谷歌开放协议Agent2Agent (A2A)为 AI 代理生态系统提供通用的通信标准，实现跨平台、跨应用的智能体协作

京东微前端框架 Micro-App

LLManager 用于管理审批请求的 LangGraph 工作流