1. Motivation & Problem
Agentic evolution은 LLM 기반 문제 해결을 “후보 생성 → 평가 → 피드백 기반 탐색 방향 결정"의 반복적 개선 프로세스로 재구성한 패러다임이다 (Sec. 1). 그러나 기존 방법론은 두 가지 형태로 굳어져 있으며 각각 한계가 명확하다.
- Procedure-based evolution: 선택·생성·평가·업데이트가 사전 정의된 외부 루프로 고정됨. 모듈성과 재현성은 좋지만 long-horizon 탐색이 고정된 selection rule, feedback summary, update heuristic에 묶인다 (Sec. 1).
- Agent-based evolution: 범용 에이전트가 피드백을 보고 trace를 검토하며 후보를 직접 편집한다. 유연하지만 후보·로그·가설·중간 파일이 누적되면서 컨텍스트가 drift하기 쉽다 (Sec. 1).
핵심 문제는 다음과 같다. 두 형태 모두 long-horizon에서 local optima에 빠진다. Procedure는 같은 hand-designed 탐색 패턴을 반복 exploit하고, agent는 잘못된 증거나 stale assumption에 과도하게 commit한다. 더 본질적으로, evolution 과정에서 누적되는 candidates, feedback, traces, failures, intermediate decisions를 조직화하고 미래 탐색을 제어하는 메커니즘 자체를 수정할 안정적 인터페이스가 없다 (Sec. 1).
논문은 이 문제를 해결하기 위해 agentic evolution을 interactive environment로 재공식화한다. 누적된 evolution context를 process-level state로 두고, meta-agent가 다음 후보를 직접 제안하는 것이 아니라 미래 evolution을 제어하는 procedure 또는 agent context를 편집한다 (Sec. 1).
2. Related Work & Contributions
기존 연구의 한계
Recent work는 collaborative agent로 exploration을 확장하거나 (CORAL [22]) evolution mechanism 자체를 self-modifying하게 만드는 방향 (HyperAgents [41]) 으로 한계를 해결하려 했다. 그러나 이들은 stronger search context와 editable improvement mechanism의 유용성을 보여주었을 뿐, long-horizon evolution을 위한 안정적 인터페이스를 제공하지는 못한다 (Sec. 1).
Prompt 최적화 계열 (DSPy [12], SPO [30], TextGrad [37], GEPA [1]) 과 agentic system 진화 계열 (ADAS [9], Darwin Gödel Machine [40], Huxley-Gödel Machine [27], AFlow [42]) 은 후보 생성 자체에 집중하며, 탐색을 제어하는 메커니즘에 대한 직접적 개입은 다루지 않는다 (Sec. 2).
본 논문의 기여
논문은 세 가지 기여를 명시한다 (Sec. 1).
- Environment Formulation: Agentic evolution을 interactive environment로 공식화. 누적된 evolution context가 process-level state가 되고, meta-action이 미래 evolution을 제어하는 메커니즘을 편집한다.
- Harnessed Meta-Editing: AEVO를 제안. Evaluation을 보호하고, 평가된 후보를 기록하며, meta-editing phase와 evolution segment로 coarse-grained intervention을 지원한다.
- Cross-Form Instantiation: Procedure-based와 agent-based evolution 양쪽에 동일 프레임워크를 instantiate. 표준 벤치마크에서 5개 baseline 대비 평균 26% 상대 개선, 3개 open-ended task에서 4개 baseline 대비 동일 iteration budget 하 SOTA를 달성.
3. Method
3.1 Agentic Evolution의 공식화
최적화 대상 artifact를 $x \in \mathcal{X}$ (program, prompt, workflow, skill, tool, agent component), round를 $r$로 두자. 각 round는 candidates, evaluation, execution traces, failures, costs를 담은 round context $c_r$을 산출하며, 누적 context는 다음과 같다 (Sec. 3.1).
$$C_r = (c_1, c_2, \ldots, c_r)$$
Optimization mechanism $\Pi$가 evolution을 진행시킨다.
$$c_r = \Pi(C_{r-1}), \quad C_r = C_{r-1} \oplus c_r$$
$\Pi$는 고정 알고리즘일 수도, agentic process일 수도 있다. Procedure-based evolution에서 $\Pi$는 selection-and-optimization rule로 명시적이고 rigid하며, agent-based evolution에서 $\Pi$는 agent의 context-conditioned behavior에 implicit하게 내재되어 있다 (Sec. 3.1).
3.2 Evolution as Environment
논문의 핵심 reformulation이다. Round $r$에서 environment의 state를 다음과 같이 정의한다 (Sec. 3.2).
$$s_r = (r, C_r)$$
Mechanism $\Pi_r$이 round마다 바뀔 수 있다고 두면 transition은 다음과 같다.
$$c_{r+1} = \Pi_r(C_r), \quad s_{r+1} = (r+1, C_r \oplus c_{r+1})$$
여기에 meta-agent $M$을 도입한다. State는 크고 noisy하므로 observation $\Phi$로 추출한다 (Sec. 3.2).
$$o_r = \Phi(s_r) = \Phi(r, C_r)$$
Meta-agent는 edit action을 산출한다.
$$a_r = M(o_r)$$
이 action은 다음 후보가 아니라 transition rule을 수정한다.
$$\Pi_{r+1} = \text{Edit}(\Pi_r, a_r)$$
이 공식은 두 evolution 형태 모두에 적용된다. Procedure-based에서는 selection, optimization, feedback use, budget allocation, update rule을 편집하고, agent-based에서는 skills, goals, tools, feedback format, execution context를 편집한다 (Sec. 3.2).
3.3 AEVO의 시스템 설계
AEVO는 위 environment view를 harnessed loop로 instantiate한다. 두 phase가 교대로 실행된다 (Sec. 4, Fig. 2).
Meta-editing phase: Meta-agent (Claude Code, Codex 등 coding-capable agent)가 workspace를 inspect하고, 누적 history를 분석한 뒤 meta-action을 산출한다. Meta-action은 두 요소로 구성된다.
- Workspace edit: $\Pi_r$을 정의하는 파일 (procedure code, prompts, skills, goals, tools, feedback formats, validators, notes, execution context) 의 수정
- Run plan: 다음 evolution segment의 iteration 수, budget, stopping condition
핵심은 meta-agent가 candidate generator가 아니라 process-level editor라는 점이다. Productive하면 iteration을 더 할당하고, invalid/redundant 시도가 반복되면 segment를 중단하고 $\Pi_r$을 수정한다 (Sec. 4.1).
Harnessed evolution segment: Meta-edit 이후 실행되는 구간이다. 현재 $\Pi_r$이 run plan 하에 동작하며 여러 candidate를 산출한다. 모든 official evaluation은 harness-controlled evaluator를 통과하며, artifact·score·trace·failure·cost·provenance가 candidate history에 append된다.
Harness의 역할은 reward hacking 방지에 결정적이다. Evaluator는 evolution agent와 meta-agent로부터 격리되어, 두 agent 모두 candidate 제출은 가능하지만 evaluator 내부 검사·hidden benchmark artifact 접근·official score 직접 기록은 불가능하다 (Sec. 4.1).
3.4 양 형태에의 Instantiation
동일한 two-phase loop가 두 형태에 적용된다 (Sec. 4.2).
- Procedure-based: $\Pi_r$이 명시적 procedure code. Meta-action이 selection 전략, optimization operator, feedback summary, filtering/retry logic, budget을 직접 편집한다.
- Agent-based: $\Pi_r$이 general-purpose evolution agent의 operating context (goals, skills, tools, memory files, shared notes, validators, execution setup). Meta-action이 skill, session goal, feedback presentation, shared notes를 편집한다. Inner agent는 candidate 생성을 책임지고, AEVO는 미래 evolution을 shape하는 context를 수정한다.
4. Experiments
4.1 Setup
5개 task로 평가한다 (Sec. 5.1).
- Standard benchmarks: Terminal-Bench [25], ARC-AGI-2 [5]
- Open-ended optimization: circle_packing_26 (CP26), autocorrelation_second (AC2), Anthropic Kernel optimization
Baseline은 세 family로 묶인다.
- Single-agent inference: ReAct
- Procedure-based evolution: ADAS, DGM, AFlow, SPO, GEPA, OpenEvolve, HyperAgents
- Agent-based evolution: Codex, Claude Code
Optimization model로 Claude-Opus-4.7과 GPT-5.4, execution model로 Gemini-3-Flash를 사용한다 (Sec. 5.1, Appendix B). Open-ended task는 최대 100 round, 25 round 연속 미개선 시 early-stop. Metric은 Best@3 (open-ended), Avg@3 (benchmark) 이다.
4.2 주요 결과
표준 벤치마크 (Table 2):
| Method | Terminal-Bench ↑ | ARC-AGI-2 ↑ |
|---|---|---|
| ReAct Pass@1 | 28.6 | 21.8 |
| ADAS | 38.6 | 36.0 |
| DGM | 44.3 | 29.8 |
| AFlow | 44.3 | 31.8 |
| SPO | 42.9 | 25.0 |
| GEPA | 41.4 | 22.5 |
| AEVO Procedure | 53.8 | 47.0 |
AEVO Procedure는 두 벤치마크 모두에서 최강 baseline 대비 평균 26% 상대 개선을 달성한다 (Sec. 5.2).
Open-ended optimization (Table 1): Kernel optimization task에서 AEVO Agent (GPT-5.4) 가 100 iteration 내 1138 cycles를 기록. 논문은 이를 동일 iteration budget 하에서 보고된 최고 결과로 주장한다 (Sec. 5.2). 200 iteration까지 연장하면 1121 cycles로 추가 개선되어, AEVO가 초기 강한 후보 발견 후에도 saturate하지 않고 계속 이득을 본다는 것이 Fig. 3에서 확인된다.
4.3 Cost 분석
벤치마크에서 AEVO는 procedure baseline 대비 약 3배의 round당 비용을 쓴다. 논문은 이를 “optimization-time reasoning을 scaling함으로써 성능을 개선"하는 것으로 해석한다 (Sec. 5.2).
Open-ended에서는 양상이 다르다. AEVO Agent의 round당 비용은 CP26 0.32–0.34, AC2 1.31–1.40, Kernel 1.23–1.27로 낮게 유지된다. Coding-agent interface의 prompt caching과 persistent context 덕분이다. 반면 HyperAgents는 expanding search history 위에 큰 prompt를 반복 구성하면서 CP26에서 9.50, AC2에서 2.83의 round당 비용을 기록한다 (Sec. 5.2).
4.4 Evolution Dynamics와 Ablation
Fig. 3의 trajectory는 두 가지를 보여준다 (Sec. 5.3).
- Plateau 이후 revision: OpenEvolve, HyperAgents는 현재 selection/mutation 전략이 useful candidate를 못 만들면 flatten된다. AEVO는 plateau 신호를 process-level feedback으로 받아 procedure·directive·search context를 조정해 step-wise 개선을 만든다.
- External budget vs internal stopping: Coding agent는 local 개선이 어려워지면 일찍 멈추는데 (Codex on Task 1, 3), AEVO는 external harness가 round·candidate record·evaluation feedback을 agent context 밖에 유지하므로 budget이 일관되게 소진된다.
Ablation (Table 3) 결과는 두 component 모두 critical임을 보인다 (Sec. 5.4, Appendix A).
- Full AEVO Agent: 1138 cycles, 100 round 완주, reward hacking 없음
- Meta-agent skill 제거: 1407 cycles까지만 도달, long-horizon search 약화
- Evolution harness 제거: 3 run 중 2 run이 reward hacking으로 invalid 결과 산출
Skill은 sustained meta-intervention을, harness는 protected evaluation boundary를 담당한다는 분리가 명확하다.
4.5 Case Study
Fig. 4의 ARC-AGI-2 case는 procedure evolution의 작동 방식을 보여준다 (Sec. 5.5). P0 (best-parent rewrite) → P1 (Pass@K + verifier-guided generation) → P2 (observation parsing fix) → P3 (refinement horizon 확장) → P4 (stale feedback drop + diverse sampling) 순서로 procedure가 진화하며, 실패한 candidate가 discard되지 않고 process-level evidence로 변환되어 다음 meta-edit의 근거가 된다.
5. Critical Evaluation
아이디어의 타당성
“Evolution mechanism 자체를 환경의 transition rule로 노출시키고 meta-agent로 편집한다"는 framing은 깔끔하다. Procedure-based의 rigidity와 agent-based의 drift라는 두 실패 모드를 동일한 추상 위에서 다룬다는 점에서 unification 가치가 있다. 특히 evaluator 격리, candidate history 기록, workspace 표준화를 harness로 묶은 설계는 reward hacking이라는 실제 위험을 ablation으로 입증해 강력하다 (Table 3).
다만 “interactive environment"라는 framing이 실제로 RL의 환경처럼 작동하는가는 의문이다. Reward function이 evolution score로 implicit하고, $\Phi$의 구체적 정의가 paper 본문에 명시되지 않으며, meta-agent의 action space가 “코드 편집"이라는 unbounded space다. 결국 meta-agent를 prompt-based coding agent로 구현하는 것이 핵심이며, RL 환경 metaphor는 motivation 수사에 가깝다.
실험 결과의 신뢰성
벤치마크에서 26% 개선은 분명히 크다. 그러나 다음 사항들이 결과 해석을 흐린다.
- 3배 cost: AEVO는 procedure baseline 대비 round당 약 3배 비용을 쓴다 (Sec. 5.2). Compute-matched 비교가 없다. ADAS·AFlow에 3배 budget을 주면 어디까지 개선되는지가 빠져 있어, “mechanism editing의 효과"와 “더 많은 reasoning compute"가 분리되지 않는다.
- Meta-agent 모델 의존성: Claude-Opus-4.7과 GPT-5.4를 meta-agent로 쓴다. 이 모델들의 coding agent 능력이 baseline의 generator 모델보다 강할 가능성이 있다. Same-model 통제가 보완되어야 fair comparison이 된다.
- Best@3, Avg@3: 3 run의 분산이 보고되지 않아 통계적 유의성을 판단하기 어렵다. Open-ended task의 단일 best 수치 (1138 cycles) 는 인상적이나 reproducibility 측면에서는 약하다.
Baseline 적절성
Procedure-based baseline은 풍부하다 (ADAS, DGM, AFlow, SPO, GEPA, OpenEvolve, HyperAgents). Agent-based baseline에서는 Codex와 Claude Code의 vanilla 사용이 비교 대상이며, HyperAgents가 self-modifying agent로서 가장 가까운 비교군이다. AEVO가 HyperAgents 대비 명확히 우위에 있다는 점은 “harness를 외부에 두는 설계"의 가치를 뒷받침한다.
다만 Anthropic Kernel optimization task에서 “동일 iteration budget 하 SOTA"라는 주장은 비교 대상이 4개 baseline에 한정되어 있어, claim의 범위를 보수적으로 받아들여야 한다.
한계점 및 실용성
- Meta-intervention 비용: 벤치마크에서 3배 cost는 production 환경에서 trade-off가 명확하다. 논문도 “cheaper meta-intervention strategies"를 future work로 명시한다 (Sec. 6).
- Harness 설계 부담: Workspace layout, evaluator isolation, candidate history, meta-agent skill spec은 모두 task별로 설계해야 한다. Cross-domain transfer가 가능한지는 불분명하다.
- $\Phi$의 brittle함: Observation을 어떻게 추출할지가 meta-agent의 성능에 결정적인데, Appendix C.2.3의 meta-agent skill을 보면 결국 hand-engineered prompt와 workspace convention에 의존한다. “Environment"라는 추상이 실제로 generic하지 않다.
- Reward hacking 보호의 완전성: Evaluator isolation이 harness로 강제되지만, meta-agent가 procedure 코드를 직접 편집할 수 있으므로 procedure-level reward hacking (예: evaluation metric을 우회하는 candidate 생성 패턴) 까지 방지하는지는 명시적으로 다루어지지 않는다.
실제 문제 해결 가능성
논문이 보여준 결과는 long-horizon agentic search가 필요한 두 시나리오에서 실용적이다.
- Open-ended scientific/engineering optimization: Kernel optimization처럼 evaluation이 명확하고 후보 공간이 unbounded한 task. AEVO Agent의 낮은 round당 비용과 plateau 회복 능력이 직접적 이득이다.
- Agentic benchmark에서 procedure 자동 설계: Terminal-Bench, ARC-AGI-2처럼 task suite가 고정된 환경에서 procedure를 자동 발견하는 데 유효하다.
반면 다음 시나리오에서는 한계가 명확하다.
- 단발성 task (single-shot generation): Meta-editing의 overhead가 정당화되지 않음
- Evaluation이 noisy하거나 비싼 task: Harness-controlled evaluator의 격리가 어려움
- Real-time constraint가 있는 task: 두 phase 교대 루프의 wall-clock cost
종합하면, AEVO는 mechanism-level intervention이라는 새로운 axis를 agentic evolution에 도입한 명확한 기여를 했고, harness 설계의 ablation 증거도 설득력 있다. 다만 compute-matched comparison의 부재, “environment” framing과 실제 구현 사이의 간극, harness 설계 비용은 후속 연구에서 다루어져야 할 한계로 남아 있다.
References
- [1] Lakshya A Agrawal et al. GEPA: Reflective prompt evolution can outperform reinforcement learning. arXiv:2507.19457, 2025.
- [5] Francois Chollet et al. ARC-AGI-2: A new challenge for frontier AI reasoning systems. arXiv:2505.11831, 2025.
- [9] Shengran Hu, Cong Lu, Jeff Clune. Automated design of agentic systems. arXiv:2408.08435, 2024.
- [12] Omar Khattab et al. DSPy: Compiling declarative language model calls into self-improving pipelines. 2024.
- [22] Ao Qu et al. CORAL: Towards autonomous multi-agent evolution for open-ended discovery. arXiv:2604.01658, 2026.
- [25] The Terminal-Bench Team. Terminal-Bench: A benchmark for AI agents in terminal environments. 2025.
- [27] Wenyi Wang et al. Huxley-Gödel Machine: Human-level coding agent development by an approximation of the optimal self-improving machine. arXiv:2510.21614, 2025.
- [30] Jinyu Xiang et al. Self-supervised prompt optimization. arXiv:2502.06855, 2025.
- [37] Mert Yuksekgonul et al. TextGrad: Automatic “differentiation” via text. arXiv:2406.07496, 2024.
- [40] Jenny Zhang et al. Darwin Gödel Machine: Open-ended evolution of self-improving agents. arXiv:2505.22954, 2025.
- [41] Jenny Zhang et al. HyperAgents. arXiv:2603.19461, 2026.
- [42] Jiayi Zhang et al. AFlow: Automating agentic workflow generation. arXiv:2410.10762, 2024.