Beginning#
Recently I’ve been in a “World Top 500” company for internship, and my JD is Data/AI intern.
Yeah, you may guess it right, I’ve been in Bosch for 3 days when I write this short.
So I would like to share some documents, to record the path to mastering agentic AI.
需要思考复习几个点:
- RAG的流程
- Embedding的BM25和Sparse方案有什么区别
- Rerank的原理是什么,为什么RFF融合重排后还要Rerank。
- 评估RAG性能的常用指标有哪些(Precision, Recall, MRR, Hit Rate)
Resources#
- 为什么需要Rerank,及其原理
- RAG检索优化:从 68% 到 82.2%
- 评估 RAG 性能指标
- F1 Score
- 阿里云Embedding模型
- 阿里云百炼模型广场
- OpenAI API Docs Retrieval API
Learning Points#
检索+生成 2阶段评估指标#
| 阶段 | 评估对象 | 常用指标 |
|---|---|---|
| Retrieval(召回) | Top-K 文档的相关性 | Recall@K, MRR, Precision@K, nDCG |
| Generation(生成 / Rerank + LM) | 最终生成答案质量 | Exact Match (EM), F1-score, BLEU, ROUGE, METEOR, QA-specific metrics |
在检索阶段的指标:创建真实情况(知道哪些文档与给定查询相关)可能耗时耗力,通常需要人工标注(Ground Truth)。
Browser Use#
最近在实习探索浏览器自动化的agent,发现browser-use的sdk开源了,基于playwright改造的新增agentic AI的运行框架,还有官方的cloud平台支持云端托管。