Vector Databases & RAG for Semantic Search and Retrieval

Posted by Anonymous and classified in Computers

Written on January 1, 2026 in English with a size of 206.28 KB

1. Vector Databases — High-Dimensional Embeddings

Store and search high-dimensional vector embeddings. Used in semantic search, similarity search, and RAG pipelines.

Flat Index (Brute Force) → accurate but slow.
Approximate Nearest Neighbor (ANN) → fast and scalable.
- Algorithms: HNSW, FAISS, Annoy.

Enhances LLM output by integrating retrieved external knowledge.

Indexing: Convert raw data (PDF, HTML, Word) → embeddings.
Retrieval: Retrieve relevant document chunks using similarity search.
Generation: LLM synthesizes results with the query to produce the final answer.

Type	Description	Example
Sparse (Lexical)	Term-based retrieval	TF-IDF, BM25
Dense (Semantic)	Embedding-based	BERT, SentenceTransformers

Uses Cosine Similarity or Euclidean Distance to find nearest neighbors.
ANN Algorithms: Graph-based (HNSW), Hash-based (LSH), Clustering-based (IVF-PQ).

Metric	Description
Exact Match (EM)	Checks if generated answer equals ground truth
Semantic Similarity	BLEU, ROUGE, BERTScore, Cosine Similarity
Knowledge Gap Detection	Ability to respond with "don't know" when uncertain
Groundedness / Faithfulness	Whether output relies on retrieved information or hallucination

Method	Description
Fixed-Length	Simple, but may cut context
Recursive Chunking	Section → paragraph → sentence
Token-Based	Aligns with model tokenization
Overlapping Chunks	Preserve sentence continuity

Trade-offs:

Small chunks → better retrieval, less context. Large chunks → more context, less precision.

Best chunk sizes: 512–1024 tokens. Optimal retrieval: Top-k = 7–9 chunks.

Graph Construction: Extract triples (Entity A → Relation → Entity B). Example: ("Azure AI Studio" → integrates_with → "OpenAI APIs").
Community Clustering: Groups related entities (Leiden Algorithm).
Hierarchical Summarization: Local → Global summaries.
Query Modes: Local, Global, DRIFT, Dynamic Community Selection.
LLM Response Generation:
- Map Phase: Local summaries.
- Reduce Phase: Combine & refine for final output.

Tags: