Evaluations #286

bjwswang · 2023-11-24T03:03:30Z

Overall workflow

TO BE DEFINED

Evaluation Types

RAG Evaluation

@Lanture1064 @bjwswang

Our current RAG solution flow :

Dataset/VersionedDataset provides source files
Dataprocessing process source files to QA csv with QAGenerationChain
Knowledgebase generates embeddings from the QA csv file to vectorstore
RetrievalQAChain do similarity search against knowledgebase
LLM do chat with the similarity searched content as the context

Based on our research ,we decide to use this evaluation framework https://github.com/explodinggradients/ragas

Subtasks:

Evaluation Lifecycle management

@0xff-dev @bjwswang

For definitions:

Define a new CRD RAG under group evaluations.arcadia.kubeagi.k8s.com.cn provide lifecycle management of Evaluation Task #507

For task runner:

Able to use kubernetes Job as evaluation runner #508
Able to use Tekton(CI/CD) as evaluation runner [Not planned]
Able to use volcano(a powerful batching system) as evaluation runner [Not planned]

For apiserver:

Add evalutions apis: create/update/delete/list #565

Overall Workflow

nkwangleiGIT · 2023-11-25T15:23:00Z

@Lanture1064 pls do further investigation.

nkwangleiGIT · 2023-12-01T06:28:27Z

here is another project related to evaluate:
https://github.com/promptfoo/promptfoo

nkwangleiGIT · 2023-12-23T01:14:58Z

Some other thoughts:

支持 Prompt 在不同 LLM 下的评估，生成测试报告
- RAG 评估、RAG Question Generation
- 自动生成问题，分析问题质量，过滤掉相似度不高的问题
- 评估指标：检索评估 - Hit Rate、MRR，回答评估 - 公正性、相关性、一致性等

bjwswang · 2024-01-04T10:23:48Z

Some other thoughts:

支持 Prompt 在不同 LLM 下的评估，生成测试报告

RAG 评估、RAG Question Generation

自动生成问题，分析问题质量，过滤掉相似度不高的问题

评估指标：检索评估 - Hit Rate、MRR，回答评估 - 公正性、相关性、一致性等

RAG问题生成这里采用数据处理服务提供的能力即可
ragas的指标(metrics)比较完善。一些框架的对比可以在 https://shimo.im/docs/1d3aMzQ1wXHnwV3g

bjwswang · 2024-01-31T01:50:48Z

This story can be closed. For other features like support tektonci and other llms ,we can track in individual issues.

bjwswang added the Story label Nov 24, 2023

nkwangleiGIT assigned Lanture1064 Nov 25, 2023

bjwswang added this to the v0.2.0 milestone Dec 13, 2023

bjwswang added the priority-high label Dec 22, 2023

bjwswang assigned 0xff-dev and bjwswang Dec 30, 2023

bjwswang changed the title ~~RAG Evaluations~~ Evaluations Jan 4, 2024

bjwswang closed this as completed Jan 31, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Evaluations #286

Evaluations #286

bjwswang commented Nov 24, 2023 •

edited

Loading

nkwangleiGIT commented Nov 25, 2023

nkwangleiGIT commented Dec 1, 2023

nkwangleiGIT commented Dec 23, 2023 •

edited

Loading

bjwswang commented Jan 4, 2024

bjwswang commented Jan 31, 2024

Evaluations #286

Evaluations #286

Comments

bjwswang commented Nov 24, 2023 • edited Loading

Overall workflow

Evaluation Types

RAG Evaluation

Evaluation Lifecycle management

Overall Workflow

nkwangleiGIT commented Nov 25, 2023

nkwangleiGIT commented Dec 1, 2023

nkwangleiGIT commented Dec 23, 2023 • edited Loading

bjwswang commented Jan 4, 2024

bjwswang commented Jan 31, 2024

bjwswang commented Nov 24, 2023 •

edited

Loading

nkwangleiGIT commented Dec 23, 2023 •

edited

Loading