登录
首页 > 媒体报道 > LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据

LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据

发布时间:2025-11-01 20:52:39

你是否还在为复杂的文件和海量数据而苦恼?是否希望能够自动从数据中挖掘出真正有价值的信息?

最近,来自人大与清华的研究团队推出DeepAnalyze —— 你的专属「数据科学家」。只需一个指令,它便能自动化分析你的数据、自主完成各类数据科学任务:

 

  • 数据任务:支持自动化数据准备、数据分析、数据建模、数据可视化、数据洞察
  • 数据研究:可在非结构化数据、半结构化数据、结构化数据中进行开放式深度研究,生成研究报告

 



DeepAnalyze是首个面向数据科学的Agentic LLM,无需任何workflow,仅凭一个LLM即可像数据科学家一样,自主完成多种复杂的数据任务。

DeepAnalyze的论文、代码、模型、数据均已开源,收获1.1K+GitHub星标,欢迎大家体验!

 

DeepAnalyze —— 你的专属「数据科学家」

 

DeepAnalyze在环境中自主编排和优化各种操作,完成复杂的数据科学任务。

DeepAnalyze在真实环境中学习复杂任务

数据无处不在,而数据科学一直被视为人类智能的重要体现。从Kaggle比赛到日常的数据分析实践,大量评测都在考察数据科学家在数据准备、分析、建模、可视化与洞察等方面的综合能力。

当前的数据智能体(Data Agent)通常依赖人工设计的workflow,来驱动大模型完成特定的数据分析与可视化任务。虽然在各类单点任务上已取得了令人瞩目的成果,但由于LLM的自主性仍然有限,它们距离理想的“全能自主数据科学家”依然存在明显差距。

随着大型语言模型智能水平的不断提升,一个关键问题也愈发突出:如何让LLM真正具备自主完成复杂数据科学任务的能力?



DeepAnalyze通过在真实环境中训练,学会自主编排、自适应优化操作,最终完成复杂的数据科学任务。为实现此,DeepAnalyze提出课程学习式Agentic训练范式(Curriculum-based Agentic Training ofDeepAnalyze)和面向数据的轨迹合成框架(Data-grounded Trajectory Synthesis)。

课程学习式Agentic训练

数据科学任务本身具有高度复杂性,这让基础LLM在早期训练阶段往往难以顺利完成任务。任务复杂性导致模型几乎得不到正向奖励信号(即“奖励稀疏”问题),强化学习过程容易停滞,甚至出现训练崩溃的情况。

为了解决这一难题,DeepAnalyze提出了「课程学习式 Agentic 训练」。其模拟人类数据科学家的学习路径,让LLM在真实环境中从简单到复杂、从单一任务到综合任务逐步进阶。通过这种渐进式训练,模型的能力得以稳步提升,避免在复杂任务中因为“奖励信号为零”而导致学习失败。

训练过程包括两大阶段:

 

  • 单能力微调:
  • 训练LLM在代码生成、结构化数据理解、逻辑推理等方面的基础能力;
  • 多能力Agentic训练:
  • 在真实任务环境中,让LLM学会运用多种能力,像数据科学家一样自主完成复杂任务。

 

面向数据的轨迹合成

在数据科学领域,缺乏完整的长链问题求解轨迹,这让LLM在探索解题空间时缺乏有效指导,只能进行低效、盲目的“试错式”探索,难以获得有意义的中间监督信号。

为了解决这一难题,DeepAnalyze提出了「面向数据的轨迹合成」方法。其能够自动合成50万条数据科学推理与环境交互数据,为大模型在庞大的搜索空间中提供正确路径的示范和引导。

数据合成包含两个关键部分:

 

  • 推理轨迹合成:
  • 基于现有的 TableQA、结构化知识理解、数据科学代码生成任务,构建带有完整推理路径的训练数据;
  • 交互轨迹合成:
  • 构建多智能体系统,从结构化数据源(如Spider和BIRD)中自动合成数据科学交互轨迹,提供和真实环境的交互轨迹。

 

DeepAnalyze支持面向数据的深度研究

DeepAnalyze支持面向数据的深度研究,能够自动生成具备分析师水准的研究报告。
在数据研究报告生成任务中,无论是内容深度还是报告结构,DeepAnalyze的表现都显著优于现有的闭源LLM。

Copyright 2011-2025 看报纸 版权所有  京ICP备2012156892号