Interactive UMAP 3D Semantic Atlas

Enterprise-Grade RAG Sandbox

  • Цель: симуляция работы с конфиденциальными документами — регламенты, ГОСТы, сложные таблицы.
  • Ограничения: ограниченный бюджет и строгие требования к достоверности (Zero-Hallucination).
  • Инженерный фокус: полный уход от готовых LLM-фреймворков (LangChain/LlamaIndex) в пользу контролируемой low-level архитектуры.

Parsing & Chunking

  • DOCX Parser (python-docx + lxml): Прямой парсинг DOCX с сохранением позиций элементов, merged cells, UC/BP-ссылок
  • Domain Tokenization: 4 типа чанков — term_definition, uc_scenario, form_definition, text_block — с типизированными ассемблерами
  • планы на развитие: Semantic boundary detection, late chunking, parent-child chunk hierarchy

Embeddings & Vector DB

  • BAAI/bge-m3 (Dual-Retrieval): Dense (1024-dim cosine) + Sparse (lexical_weights) → Qdrant named vectors
  • план на развитие: embedding-optimized text preprocessing

Backend & LLM

  • FastAPI: Асинхронный бэкенд с SSE-стримингом и Circuit Breaker
  • Layered Prompt Contract (YAML): 4-слойная архитектура промптов (core → control → presentation → diagnostics), Pydantic-валидация
  • Local LLM (Qwen 2.5 / Ollama)

Retrieval & Reranking

  • Hybrid Search: Dense (Qdrant cosine) + Sparse (Qdrant native → BM25 fallback) → RRF Fusion (k=60)
  • bge-reranker-v2-m3: Cross-encoder переранжирование с sigmoid нормализацией, lazy loading, graceful fallback
  • Intent-Aware Filtering: LLM-классификация запроса → автофильтрация chunk_types в Qdrant
  • план на развитие: hypothetical document embedding (HyDE)

Generation & Validation

  • Strict JSON Response Contract: {answer, chunk_id, confidence} с принудительной привязкой к source chunk
  • IZIDA Verification Engine: 3 уровня строгости (high/medium/low), dual-metric similarity (SequenceMatcher + Jaccard), coverage ratio
  • Proof Bundle (WORM Audit): Immutable JSON bundle каждого запроса с автоматической ротацией

Observability

  • Multi-Stage OTel Telemetry → Arize Phoenix: embed → retrieval → fusion → rerank → generate, OpenInference span kinds
  • Structured JSON Logging + SSE Streaming: 6 типов событий, monotonic ordering, trace_id linkage
  • Anomaly Detection: Per-stage детектор (top1_low, gap_small, logprob_mean_low, rerank_output_drop) → auto debug-level escalation

Frontend

  • Vue 3 + Pinia + Tailwind CSS
  • UMAP 3D Semantic Atlas (Plotly.js): Проекция векторов с semantic graph edges
  • Session History + Trace Explorer

Ключевые теги

RAG architectureHybrid retrievalRerankingQdrantPrompt contractsObservability