LLM Evaluator Pro

丝美导航 AI技能集 AI智能技能

LLM Evaluator Pro

LLM Evaluator Pro是一款基于GPT-5-nano的AI模型评估工具，通过Langfuse对追踪的相关性、准确性、幻觉和实用性进行评分。

标签：

链接直达手机查看

LLM Evaluator Pro

LLM Evaluator Pro是什么

LLM Evaluator Pro是一款用于评估LLM模型追踪性能的工具，适用于需要评估和优化AI模型追踪相关性的场景，如数据科学、AI研究和产品开发。

由 aiwithabidi 开发 | 累计安装 415 次 | 开源协议：MIT-0

LLM Evaluator Pro的主要功能

模型评估：使用GPT-5-nano作为评判标准，对追踪的相关性、准确性、幻觉和实用性进行评分。
Langfuse支持：基于Langfuse技术，支持对追踪进行多维度评估。
追踪评分：支持对单个追踪或一组追踪进行评分，并提供详细的评分结果。
回填评分：可对最近未评分的追踪进行回填评分，提高评估效率。
自定义评估器：支持自定义评估器，以满足不同评估需求。

如何使用LLM Evaluator Pro

安装：下载LLM Evaluator Pro并按照说明进行安装。
配置：根据需要配置评估器和评分标准。
评分：使用命令行工具对追踪进行评分，并查看评分结果。
分析：根据评分结果分析模型性能，并进行优化。
报告：生成评估报告，用于展示评估结果。

LLM Evaluator Pro的项目地址

项目官网：https://clawhub.ai/aiwithabidi/llm-evaluator-pro

LLM Evaluator Pro的应用场景

用于评估和优化AI模型追踪相关性。
在数据科学项目中，对模型输出进行质量监控。
在AI研究和产品开发中，对模型性能进行评估。
在自然语言处理领域，对文本生成模型的输出进行评估。
在机器学习项目中，对模型的预测准确性进行评估。

相关导航

结构化任务规划与分步执行 V2（异步子代理架构）

结构化任务规划与分步执行V2，通过异步子代理架构实现任务分解、执行与监控，支持LLM判断和状态跟踪。

初始版本：支持 28+ 新闻源、10+ LLM 模型、情感分析、图表生成、数据持久化、定时任务

财经新闻分析器，深度分析财经新闻，提供情感、影响评估和关键信息提取，生成专业投资简报。

ZeroRules ― Deterministic Task Interceptor

ZeroRules - 确定性任务拦截器，通过本地处理数学、时间、货币等任务，节省50-70%的LLM令牌成本。

Z.AI Web Search

Z.AI Web Search API提供AI优化网络搜索，返回结构化搜索结果，适用于LLM处理。

xianyu-auto-fulfillment

闲鱼自动发货框架，实现虚拟商品自动化发货，支持自定义发货流程。

Windfall Inference

Windfall Inference提供高效、环保的空间路由LLM推理服务，支持多种模型，费用低至$0.004/req。

Which LLM? Deterministic model selection for agent

基于HTTP 402支付和结果积分的确定性决策排名API，为智能体提供LLM模型选择。

voiceclaw

VoiceClaw是一款基于OpenClaw的智能语音对话接口，通过唤醒词检测、流式LLM响应和文本到语音技术，实现用户与OpenClaw的语音交互。

Video Subtitle Generator

利用WhisperX和LLM翻译技术，自动生成和翻译视频字幕的工具。

Veille

Veille是一个用于OpenClaw的RSS聚合器，去重引擎，LLM评分和输出分发工具，用于从配置源获取最新文章。

US Stock Analyst by leading AI LLM models with Blo

基于AI LLM模型和彭博数据的美国股市分析工具，提供金融数据、新闻、社会情绪等多维度分析。

Unified LLM Gateway - One API for 70+ AI models. R

统一LLM网关，一站式接入70+ AI模型，支持GPT、Claude等，简化AI应用开发。

暂无评论