
LLM as a judge. 라고 정의하는 모양이다.
만들어둔 모듈을 LLM을 통해서 평가하도록 하는건데, 사용자가 뭔가 정리하는게 아니고 바이브 코딩으로 만든 코드를 LLM (chat GPT) 로 분석해서 점수를 부여하도록 해보는것이다.
- rag_utilization (RAG 활용도): 8.67/10
- completeness (답변 완성도): 8.0/10
- relevance (질문-답변 연관도): 9.0/10
- creativity (창의성): 5.0/10
- practicality (실용성): 8.0/10
overall_average (전체 평균 점수): 7.53/10
아이디어 만들기인데, 터무니없는 아이디어들이 나오길래 어느정도 절제를 시켰더니만.. 창의성이 바닥을 친다.
실제로 일론머스크를 초대해서 파티를열어 홍보하라는 이상한내용을 어떻게 좋은아이디어라고 하겠냐만은....
참 딜레마다..

무분별하게 LLM이 그냥 대충 생각한대로 쓰지않도록 브레인스토밍 기법을 정리해둔 문서를 참고하라고 했는데, 좀더 강하게 적용을 강제하던가 해서 RAG활용도를올려야 하나 싶다.
브레인스토밍 기법을 10가지정도 문서화 했는데 SWOT 기법만 유별나게 잘나오는게 이상해서보니.. 프롬프트 엔지니어링에 명시된 바있었음.
이것도 여려기법을 활용하도록 수정이 필요하다.
창의성도 문제이다.
이상한 말을 하기에 "현실적 실행 가능성" 을 강제했던게 문제인것 같다.
전반적으로 수정해봐야겠다.
기본적으로 독창성을 강조하다보니, 다른사람들이 잘만들어놓은 또는 시장에서 유용한 아이디어들을 모두 우회하는거 같아...
독창성이 아니 창조적이고 생산적인 내용으로 수정을 요구했다.
터무니없는 답변하지않게 구체적인 답변을 실행법을 요구하는것도, 아이디어를 생산하고 나서 실행에 필요한 구체적인 답을 찾는것으로 요구했다.
같은말 같지만 미묘하게 다른 언어들의 전달력에 LLM이 얼마나 민감하게 반응하는지를 몸소 느끼게 되고있다.
사람끼리도 말을 잘 전달하고 오해없이 전달해야하지만...AI도 얼마나 민감하게 반응하는지를 몸으로 느끼는 감정.

우선 창의성을 최대한 높이고 싶긴했지만, 실제 나오는 출력물은 창의적이라고 스스로 판단했고...
LLM 판사가 독창성을 기준으로 평가하니 평가가 좀 박하게 나오는걸 볼수있었음..
이건 개선할 사항이라고 판단하기 어렵다는 의견이라 이대로 우선 기능은 픽스하기로했다.

세부 항목 비교
| RAG 활용도 | 7.78 | → 8.11 | +0.33 ✅ 4.2% 향상 |
| 완성도 | 8.22 | → 8.00 | -0.22 ⚠️ 약간 하락(오차범위) |
| 연관도 | 9.00 | → 9.00 | ✅ 유지 (최고점) |
| 창의성 | 4.67 | → 5.00 | +0.33 ✅ 7.1% 향상 |
| 실용성 | 8.00 | → 8.00 | ✅ 유지 |
| 총점 | 7.53 | → 7.62 | +0.09 ✅ 1.2% 향상 |
주요 성과:
- RAG 활용도 4.2% 향상
- 창의성 7.1% 향상
- 총점 1.2% 향상
- 실제 아이디어 품질 크게 향상
(플로랄 아트, 캘리그래피 디저트 등)
'학원 TEAM 프로젝트 > 심화과정 Team Project(최종)' 카테고리의 다른 글
| - 깃 커밋 메시지 잠깐 정리 (참고용) (0) | 2025.12.03 |
|---|---|
| 기록 20 . 멀티 에이전트 구현 하다. (0) | 2025.12.03 |
| 기록 18 . Slack 연동하기 시작 (0) | 2025.11.25 |
| 기록 17 . 애니메이션 음성이 필요한데... (0) | 2025.11.24 |
| 기록 16 . 음성을 넣어보려고한다. (XTTS-v2) (0) | 2025.11.24 |