LLMO — Large Language Model Optimization — adressiert ein anderes Szenario als GEO: nicht das Such-Interface mit Quellenangaben, sondern den offenen Chat. Wenn jemand ChatGPT, Claude oder Gemini fragt “Wie funktionieren Hexo-Permalinks?” und das Modell aus seinem Trainingsdaten-Korpus oder einer Real-time-Recherche antwortet — landet eure Seite dort oder nicht.
LLMO kümmert sich grundsätzlich um zwei Dinge: dass eure Inhalte ins Trainings-Korpus aufgenommen werden (oder eben nicht, falls ihr das nicht wollt), und dass sie in Real-time-Lookups sichtbar sind.
Zwei Wege in eine LLM-Antwort
Weg A: Trainingsdaten
Wenn ein Modell trainiert wird (GPT-5, Claude Opus 4.x, Gemini 2.x …), liest es einen riesigen Web-Korpus. Wenn eure Seite Teil davon ist, kann das Modell eure Inhalte in JEDER zukünftigen Antwort paraphrasieren — auch ohne Real-time-Lookup. Aber: nur “klassische” Faktenfragen profitieren davon. Aktuelle Themen brauchen Weg B.
Crawler für Trainingsdaten:
GPTBot(OpenAI)ClaudeBot/anthropic-ai(Anthropic)Google-Extended(Gemini-Training, getrennt vom Search-Index)CCBot(Common Crawl, Open-Data — Basis vieler Modelle)
Weg B: Real-time-Lookup (Function-Calling / Web-Tools)
Moderne Chat-Interfaces holen sich aktuelle Daten live. ChatGPT macht das über Bing, Claude über eigene Such-Tools (Claude with Search), Gemini über Google. Die Real-time-Crawler:
OAI-SearchBot/ChatGPT-User(OpenAI)Claude-User(Anthropic, Web-Suche)Google-Extendedkann hier auch greifen
Beide Wege respektieren robots.txt-Direktiven. Wer Disallow für einen Crawler setzt, ist aus dem entsprechenden Weg raus.
Die LLMO-Hebel
1. Bewusste Crawler-Policy
Das ist die wichtigste Entscheidung. Vier Optionen:
Option A — Volle Allow (alle Bots): Inhalte gehen ins Training UND in Real-time-Lookups. Maximale Sichtbarkeit. Eure Inhalte können in den Modellgewichten landen.
Option B — Volle Disallow (alle Bots): Inhalte sind unsichtbar für jede LLM. Maximaler Schutz, keine Zitation.
Option C — Training Disallow, Search Allow: Der Klassiker für Publisher. GPTBot, ClaudeBot, anthropic-ai, Google-Extended, CCBot blockieren; OAI-SearchBot, ChatGPT-User, Claude-User, PerplexityBot erlauben.
Option D — Hybrid mit Ausnahmen: Spezifische Bots gezielt, der Rest per Wildcard-Default.
Bei mir ist es Option A — bewusst, weil dieser Blog ein persönliches Projekt ist und ich von LLM-Zitation eher profitiere als verliere.
2. Plain-Markdown-Quellen
LLMs trainieren auf rohem Text. HTML-Markup ist Noise; Markdown ist fast rauschfrei. Wer Markdown-Quellen unter z.B. /llms-full.txt anbietet, ist Modell-Trainings-freundlich.
Ich generiere bei mir die /llms-full.txt automatisch als verkettetes Markdown aller indexierbaren Posts. Das ist gleichzeitig AIO und LLMO.
3. Author-Attribution
LLMs zitieren häufiger Quellen mit klarem Verfasser. Eine <meta>-Author + Person-Schema + sichtbare Byline im Artikel erhöhen die Wahrscheinlichkeit deutlich.
In meinem alten Bestand hatte KEIN einziger Post eine sichtbare Byline. Klares LLMO-Defizit. Nachgezogen — jetzt steht oben Name, Datum, Update-Datum und Lesezeit.
4. Frische via dateModified
LLM-Trainingsdaten haben ein Cutoff-Datum. Real-time-Lookups bevorzugen frische Inhalte. Eine dateModified-Microdata die regelmäßig aktualisiert wird, hilft beiden Wegen. Empfehlung: bei jeder substantiellen Edit den updated:-Frontmatter setzen. Auch Tippfehler-Fixes zählen.
5. Markdown im Body, nicht nur HTML
Hexo (und die meisten statische-Site-Generatoren) rendern Markdown zu HTML. Das ist OK — aber wenn ihr parallel eine reine Markdown-Quelle anbietet (über /llms-full.txt oder einen API-Endpoint), macht ihr es den LLM-Crawlern leichter.
6. Definitionen und Beispiele
LLMs nutzen Embeddings, um semantische Nähe zwischen User-Frage und Inhalt zu finden. Wenn ein Post den Begriff X definiert UND Beispiele für die Anwendung von X liefert, kommt er bei mehr verschiedenen User-Fragen als nähe-Treffer raus.
Glossar-Posts (wie dieser Cluster-Glossar) sind dafür Goldminen.
Was LLMO nicht ist
- Kein Garant für Zitation in einer konkreten Antwort. Modelle entscheiden autonom, was sie zitieren.
- Kein direkter Traffic-Generator. LLM-Antworten haben sehr niedrige Click-Through-Raten. Der Nutzen ist Branding, Autorität, indirekte Erwähnung.
- Kein Ersatz für SEO oder GEO. Die meisten Modelle nutzen Such-Indizes als Retrieval-Backbone.
- Keine garantierte Trainingsdaten-Aufnahme. Auch mit Allow-Policy kann ein Modell-Anbieter entscheiden, eure Seite nicht zu crawlen — oder beim nächsten Training rauszuwerfen.
Wie messe ich LLMO-Erfolg
Schwierig, ähnlich wie bei GEO. Optionen:
- Manuelle Stichproben: monatlich gleiche Faktenfragen in ChatGPT, Claude, Gemini stellen. Tauchst du in der Antwort auf? Wirst du als Quelle genannt?
Claude-User/ChatGPT-UserReferrer: wenn ein User auf einen Quellen-Link in einer Antwort klickt, landet er manchmal mit dem entsprechenden User-Agent oder Referrer auf der Seite. Selten, aber kommt vor.- Indirekte Marker: Erwähnungen in Newslettern, Social-Media-Posts in denen jemand “ich habe ChatGPT gefragt und es hat einfach-aleks.com genannt” schreibt. Anekdotisch, aber gültig.
Die Schnittmenge zu GEO
GEO und LLMO überlappen zu ungefähr 80%:
| Hebel | SEO | GEO | LLMO |
|---|---|---|---|
| Strukturierte Daten | ✓ | ✓ | ✓ |
| Klare Headings | ✓ | ✓ | ✓ |
| Author-Attribution | ✓ | ✓ | ✓ |
llms.txt | — | (—) | ✓ |
dateModified | ✓ | ✓ | ✓ |
| Crawler-Policy | (Robots) | ✓ | ✓ |
| Plain-Markdown | — | (—) | ✓ |
| Frage-fokussierte Headings | (—) | ✓ | (—) |
| Embedding-freundliche Definitionen | — | (—) | ✓ |
Die 80% gemeinsame Basis ist guter Content + saubere Technik. LLMO-Spezifika oben drauf: /llms.txt, Crawler-Policy für Training-Bots, Plain-Markdown-Quellen.
Wo geht’s weiter
- GEO — Such-Engine-Variante
- GAIO — der Marketing-Oberbegriff
- AIO — der echte Oberbegriff
- SEO — die Basis
- Glossar aller fünf Begriffe