Math Intuitions | Concepts

TL;DR

Embeddings are vectors in high-dimensional space where similar meanings cluster together. Understanding dot products, cosine similarity, and matrix multiplication is essential for working with embeddings and attention mechanisms.

Visual Overview

Embedding Space

Key insight: When a model converts text to embeddings, it’s placing words/sentences at coordinates in a space where distance = meaning difference.

What Dimensions Represent

Dimensions

Dot Product

The dot product is the fundamental operation in neural networks. Attention, similarity, and layer computations all use it.

Dot Product

In attention: Query . Key computes relevance. High dot product = this key is relevant to this query.

Cosine Similarity

Cosine similarity is a normalized dot product. It measures direction alignment, ignoring magnitude.

Cosine Similarity

In practice: Most embedding models output normalized vectors (length = 1). When vectors are normalized, dot product = cosine similarity.

Distance Metrics

Euclidean Distance (L2)

Euclidean Distance

Cosine Distance

When to Use What

Metric	When	Why
Cosine similarity	Text embeddings	Direction = semantic meaning
Cosine distance	Retrieval ranking	Lower = more similar
Euclidean (L2)	Some image embeddings	Magnitude can carry info
Dot product	Normalized vectors	Fast, equals cosine sim

Default choice: Cosine similarity for text. It’s what embedding models are trained to optimize.

Matrix Multiplication

Neural networks are stacks of matrix multiplications. Understanding this operation clarifies how models transform representations.

Matrix Multiplication

In Attention

Attention is built from these primitives:

Attention Computation

Why projections? Different W_Q, W_K, W_V let the model learn different “views” of the input. Query projection emphasizes “what am I looking for?” Key projection emphasizes “what do I contain?” Value projection emphasizes “what information should I contribute?”

Dimensionality and Capacity

More dimensions = more capacity to represent distinctions.

Dimensionality Tradeoff

Common dimensions:

Small/fast: 384 (e5-small, all-MiniLM)
Standard: 768 (BERT, many embedding models)
Large: 1024-4096 (GPT-scale, high-quality embeddings)

When This Matters

Situation	Concept to apply
Choosing an embedding model	Dimensionality tradeoff
Understanding retrieval	Cosine similarity for ranking
Understanding attention	Q.K dot products, softmax, V weighting
Debugging “wrong results returned”	Check distance metric matches model
Understanding layer transformations	Matrix multiply as space transformation
Optimizing inference	Dot products are the computational bottleneck