{
"assistant_response": "# Interne TF-IDF-Analyse (Crawl #6, 220 Seiten)\n\n**Korpus pro Seite:** `title` + `meta_description` + `h1_texts` + `h2_texts` → SEO-gewichtete Felder, **kein Body-Text** (speichern wir derzeit nicht).\n**Vokabular:** 922 einzigartige Tokens nach Entfernen deutscher Stopwords und Tokens ≤ 2 Zeichen.\n\n## Top 25 globale Terms (Summe über alle Seiten)\n\n| Rang | Term | TF-IDF-Summe | df (Seiten) | Deutung |\n|------|------|--------------|-------------|---------|\n| 1 | **ausbildung** | 23,66 | 106 | Kernprodukt, dominant |\n| 2 | campus | 18,91 | 216 | Markenname (auf fast jeder Seite) |\n| 3 | see | 18,62 | 215 | Markenname-Bestandteil |\n| 4 | **wann** | 9,47 | 24 | FAQ-Frageformen („wann beginnt…\") |\n| 5 | **change** | 9,32 | 39 | Change-Ausbildung ist eigenständiges Angebot |\n| 6 | **coaching** | 8,91 | 55 | Coaching-Ausbildung |\n| 7 | **teamcoach** | 8,18 | 24 | dediziertes Angebot |\n| 8 | mindestteilnehmerzahl | 6,44 | 11 | FAQ-Cluster zu Teilnahmebedingungen |\n| 9 | abschluss | 6,29 | 12 | FAQ-Cluster |\n| 10 | **systemische** | 6,03 | 43 | Methodisches Profil der Marke |\n| 11 | viele, anmelden, tasche, inhalte, fördermöglichkeiten, module, münchen, anwesenheitspflicht, statt, erfolgt, zahlung, teilnahmegebühr, coach, abschlüsse, zertifikate | 4,3–5,7 | 6–29 | überwiegend FAQ-Themen |\n\n## Inhaltliche Einsichten\n\n**Starkes Signal:**\n- Die Marke positioniert sich klar um **Ausbildung \/ Coaching \/ Change \/ Teamcoach \/ systemische** Methodik — die Top-Terms entsprechen dem Geschäftskern.\n- Regionalbezug `münchen` (df 21) ist präsent.\n\n**Beobachtung:**\n- **Sehr viele FAQ-Seiten** (UFAQ-Plugin): `mindestteilnehmerzahl`, `anwesenheitspflicht`, `fördermöglichkeiten`, `anmeldeschluss`, `zahlungsbedingungen` tauchen als charakteristische Einzelseiten-Terms auf. Diese dominieren das Korpus zahlenmäßig, tragen aber wenig zum strategischen SEO-Profil bei.\n- `campus` und `see` erscheinen auf 215–216 von 220 Seiten — IDF drückt ihren Beitrag pro Seite, die absolute Summe ist aber hoch, weil sie überall sind (Markenwiedererkennung ok, aber als Unique-Selling-Point-Keywords wertlos).\n\n**Ausreißer:**\n- `fördermöglichkeiten` erscheint nur 6×, hat aber TF-IDF 5,11 — schlüsselwort mit hoher Erklärungskraft, verdient dedizierte Landing-Page-Optimierung.\n- `bildungsgutschein`, `bildungsurlaub` sind auf je einer FAQ-Seite — hoch-konvertierende Keywords, aber extrem schlecht verteilt. Kandidat für Pillar-Page.\n\n## Top-Scorer pro Seite (Auszug)\n\n| URL | Top-Term |\n|-----|----------|\n| `\/impressum\/` | impressum (2,85) |\n| `\/ufaq\/gibt-es-einen-anmeldeschluss\/` | anmeldeschluss (2,51) |\n| `\/ufaq\/welche-zahlungsbedingungen-gibt-es\/` | zahlungsbedingungen (2,39) |\n| `\/ueberblick\/` | überblick (2,23) |\n| `\/ufaq\/gibt-es-foerdermoeglichkeiten\/` | fördermöglichkeiten (2,23) |\n| `\/ufaq\/gibt-es-eine-anwesenheitspflicht\/` | anwesenheitspflicht (2,16) |\n| `\/ufaq\/kann-ich-bildungsurlaub-nehmen\/` | bildungsurlaub (1,67) |\n| `\/ufaq\/wie-laeuft-die-abschlusspruefung-ab\/` | abschlussprüfung (1,67) |\n\n## Einschränkung\n\nDie Analyse basiert auf **~1 500 Terms** (titles\/headings\/meta). **Body-Text wird nicht persistiert**, daher fehlen Fließtext-Keywords. Zwei Verbesserungsoptionen:\n\n1. **Tokens persistieren:** neue Tabelle `page_tokens (page_id, token, tf)` + Parser speichert tokenisierten Body; TF-IDF wird SQL-nativ möglich.\n2. **HTML-Roh-Cache nutzen:** bei aktiviertem `FileStorage.store_html` ließe sich TF-IDF on-demand aus der Platte rechnen (derzeit nicht aktiviert).\n\nSoll ich eine der Optionen umsetzen für echte Body-basierte TF-IDF?"
}