- AI Bytes
- Posts
- Byte Newsletter – Weltmodelle im Fokus
Byte Newsletter – Weltmodelle im Fokus

Hey,
Willkommen zum Byte Newsletter – Wöchentliche Bits & Bytes zu KI-Technologie.
Diese Bytes gibt es heute:
Welt-Modelle im Fokus: Marble und SIMA 2
GPT-5.1 überzeugt eher mit EQ, als IQ
Neue (multimodale) ERNIE-Modelle von Baidu
Erschreckend reale Digitale Avatare von Tavus
AI-Scouts von Yutori für Routine-Aufgaben im Web
Der Byte Newsletter ist brandneu! ✨
Wir freuen uns riesig, dass du schon jetzt mit dabei bist! 🥳
Wenn du 1-2 Minuten Zeit hast, schreib uns gerne deine Wünsche, Ideen und Anregungen, für diesen Newsletter.
Mit deinem Feedback bauen wir mit Byte eine deutschsprachige AI-Community zum gemeinsamen Austausch auf! 🚀

🌍 Deepdive der Woche: Weltmodelle – Wir starten mit Marble von World Labs
Was ist passiert?
World Labs, das Startup der AI-Pionierin Fei-Fei Li, hat aus dem Stealth Modus heraus Marble, ein multimodales Weltmodell, vorgestellt. Zuvor sammelte Li über $230 Millionen an Wagniskapital und erreichte eine Bewertung von über $1 Milliarde, ohne ein öffentliches Produkt zu betreiben.
Das Kernkonzept
Marble ist ein generatives Modell für “Spatial-Worlds”, also räumliche, konsistente 3D-Welten.
Multimodalität: 3D-Welten lassen sich in Marble aus Text-, Bilder- oder Video-Prompts generieren.
3D-Editor: Die räumliche Welt lässt sich in einem 3D-Editor interaktiv und in Echtzeit im Browser anpassen.
Kombinierte Welten: Einzelne Welten können zu großen, immersiven Umgebungen kombiniert werden.
Export: Fertige Welten lassen sich in 2D oder 3D exportieren, z.B. für Game Engines, AR / VR Plattformen oder für andere gängige Tools.
Marble hebt sich dadurch ab, dass die 3D Welten während der “Begehung” editierbar sind und konsistent bleiben.
Spatial Intelligence: Was macht Weltmodelle aus?
Spatial Intelligence ist die Fähigkeit eines AI-Systems, physische und geometrische Räume wahrzunehmen, zu modellieren, zu analysieren und intelligent darin zu handeln.
Ähnlich wie Menschen oder Tiere werden Weltmodelle also darauf trainiert, ihre räumliche Umgebung zu verstehen.
Damit unterscheiden sie sich fundamental von bisherigen Generative-AI-Modellen. Forscher wie Fei-Fei Li oder Yann LeCun gehen davon aus, dass Welt-Modelle der Schlüssel für AGI sein könnten.
Use Cases: Vom Kino bis zur Robotik
Film & VFX 🎬
Filmemacher nutzen Tools wie Marble zur Erstellung konsistenter 3D-Umgebungen für Virtual Production.
Anstelle von aufwendigem Filmstudio-Bau können Umgebungen schnell und kostengünstig angepasst oder neu arrangiert werden.
Robotik & Simulation 🤖
Mit Weltmodellen lassen sich Simulationsumgebungen generieren, die für das Training von Robotik-Modellen verwendet werden können.
Training und Testing können durch Einsatz von Tiefendaten, Beleuchtung und generierter 3D-Geometrie stark beschleunigt werden.
Gaming & Immersive Media 🎮
Marble lässt sich mit der Unreal Engine oder Unity kombinieren, um die generierten Welten innerhalb der Game-Engines zu verwenden.
Weltmodelle ermöglichen komplett neue und individuell personalisierbare AR- / VR-Erfahrungen.
Architektur & Design 🏗️
Architekten können schnelle Konzept-Visualisierung von Räumen aus Beschreibungen oder Skizzen generieren.
Makler können anhand von Fotos 3D-Rundgänge ohne teures und aufwendiges Equipment anbieten.
Warum das wichtig ist
Spatial Intelligence und Weltmodelle sind der nächste evolutionäre Schritt nach LLMs und generativen Bildmodellen. Viele Experten gehen davon aus, dass Weltmodelle eine Grundvoraussetzung sind, um AI-Technologie auf das nächste Level heben zu können.
Neben World Labs forschen auch andere KI-Labs von NVIDIA, Meta und Google DeepMind (z.B. mit Genie) intensiv an dieser neuen Technologie.
Unsere 2 Bytes
Das Marble Tool hat uns ziemlich beeindruckt. Die begehbaren Welten waren konsistent und ließen sich gut über die bereitgestellten Tools bearbeiten.
Neben physikalischer Korrektheit und vollständig korrekter 3D-Darstellung gibt es allerdings noch einige andere Hürden, die genommen werden müssen, damit Weltmodelle den versprochenen Impact haben können.
Wir behalten den Sektor auf jeden Fall weiterhin im Auge und berichten über kommende Updates und Fortschritte!

🎮 SIMA 2: Ein Agent zum Navigieren von Weltmodellen
Passend zu dem Launch von Marble hat Google DeepMind vergangene Woche SIMA 2 vorgestellt. SIMA 2 ist ein KI-Agent, der auf Basis von Gemini 2.5 flash-lite in virtuellen 3D-Umgebungen komplexe Aufgaben löst.
Der Nachfolger von SIMA 1 (März 2024) wurde auf mehreren hundert Stunden Videospiel-Daten trainiert und verdoppelt den Erfolg beim Bewältigen unbekannter Aufgaben von 31% auf knapp 71% Erfolgsquote. SIMA 2 befindet sich damit ungefähr auf dem Niveau von Menschen, die mit Videospielen interagieren.
Die Details
Trainingsdaten & Umgebungen: SIMA 2 lernt durch Videospieldaten in 3D-Spielen wie Goat Simulator 3, wo er Umgebungen autonom navigiert und Werkzeuge zum Erledigen von Aufgaben benutzt.
Kernfähigkeiten: Zum Bewältigen der Aufgaben müssen komplexe, mehrstufige Aufgaben in neuen Umgebungen gelöst werden. Methoden wie Instruction-Following und Multi-Step-Reasoning werden mit Trial-and-Error kombiniert.
Komplementär zu Weltmodellen: SIMA 2 lässt sich mit Genie 3, DeepMinds Weltmodell, kombinieren, das ähnlich wie Marble aus Textprompts interaktive 3D-Umgebungen in Echtzeit generiert.
Warum das wichtig ist:
SIMA 2 ist eine logische Ergänzung zu den Weltmodellen. Der Agent greift auf klassische KI-Agenten-Methoden wie Multi-Step-Reasoning, Instruction Following und Tool-Calls zu, um virtuelle Welten zu navigieren. Dabei lernt der Agent aus Fehlern und interagiert iterativ souveräner mit seiner Umgebung.
Was zunächst wie ein reines Gaming-Feature wirkt, könnte zukünftig die Grundlage für Robotics-Systeme werden. Agenten wie SIMA können beispielsweise zum Training verwendet werden oder Schwachstellen in generierten Welten aufdecken.
👾 AI Model Updates

GPT-5.1: Update fördert mehr EQ als IQ
Release: 12.11.2025 – OpenAI upgraded die GPT-5 Serie mit zwei neuen Modellen: GPT-5.1 Instant und GPT-5.1 Thinking
Specs: Optimiertes Thinking-Budget • Persönlichkeiten und Schreibstilvarianten in ChatGPT • Verbesserte Instruction Following
API & Preise: $1,25 / $10,00 (pro 1 Mio. Input / Output Token)
Benchmarks: Leichte Verbesserungen in AIME 2025 und Codeforces
Use-Cases: Conversational AI • Math & Coding (über Codex)
TL;DR: GPT-5.1 Instant wirkt wärmer und gesprächiger; GPT-5.1 Thinking passt Reasoning-Zeit dynamisch an und antwortet schneller auf einfache Tasks und denkt länger über komplexe Aufgaben nach.

ERNIE-4.5-VL-28B-A3B-Thinking: Ein neues Open Weights Lightweight-Multimodal-Reasoning-Modell
Release: 10.11.2025 – Baidu veröffentlicht das neue multimodale Open-Weights-Modell ERNIE-4.5-VL-28B-A3B mit MoE-Architektur
Specs: 28B Gesamtparameter (nur 3B aktiv durch MoE) • Multimodale Eingabe (Text + Bild + Video)
API & Preise: Verfügbar auf Hugging Face für lokale Ausführung • $0,14 / $0,56 (pro 1 Mio. Input / Output Token) auf NovitaAI
Benchmarks: Performance in multimodalen / visuellen Benchmarks auf vergleichbarer Stufe mit großen General-AIs wie GPT-5 oder Gemini 2.5 Pro
Use-Cases: Visual Reasoning (Chart-Analyse, kausale Schlussfolgerung) • Visual Grounding mit Structured Output • Video-Analyse mit Zeitstempeln • Tool-Use (Image Search, Zoom)
TL;DR: Baidu's multimodales Lightweight-Modell aus der ERNIE-4.5 Modellfamilie ist ein effizientes Modell für visuelle Aufgaben, das starke Benchmark-Scores erreicht und sehr effizient auf lokaler Hardware ausgeführt werden kann.
🛠️ Neue KI-Tools
Claude Skill – Tipps zum Verbessern des Designs beim Vibe Coding mit Claude
Tavus PALs – Video-Calls mit erschreckend echten AI-Avataren
OpenAI Cookbook – Tutorial: Prompt-Optimierung für KI-Agenten mit GEPA
Yutori – AI-Agenten für alltägliche Web-Aufgaben
🇩🇪 OpenAI verliert in München vor Gericht
Was ist passiert?
Das Münchner Landgericht hat entschieden, dass OpenAI deutsches Urheberrecht verletzt, indem ChatGPT mit Songtexten deutscher Künstler (ohne Genehmigung) trainiert wurde.
Angeführt wurde die Klage von der GEMA, die laut eigenen Angaben die Rechte von etwa 100.000 Künstlernn vertritt. Als prominente Beispiele wurden “Männer” von Herbert Grönemeyer und “Atemlos” von Helene Fischer” angeführt.
Das Urteil verpflichtet OpenAI zu Schadensersatz in noch nicht bekannter Höhe.
Warum das wichtig ist:
Das Urteil stellt für die GEMA einen Präzedenzfall dar und könnte zukünftig als Präzedenzfall in weiteren Klagen verwendet werden.
OpenAI versuchte sich mit der Argumentation aus der Verantwortung zu ziehen ("Nutzer sind schuld, nicht wir"), was das Gericht ablehnte.
Deutschland setzt damit klare Grenzen gegen unkontrolliertes AI-Scraping.
Unsere 2 Bytes
Urheberrecht ist für Generative KI-Modelle ein kritisches Thema. Sobald Schöpfungen quasi 1:1 von KI wiedergegeben werden, findet für uns eine Verletzung der Rechte statt.
KI revolutioniert kreative Schaffungsprozesse, was sowohl negativ als auch positiv (als Weiterentwicklung) interpretiert werden kann. Viele kreative Geschäftsfelder werden bereits heute disruptiert und Schadensersatzklagen können als kleine Entschädigung gewertet werden.
Das Urteil aus München ordnen wir als eine erste sinnvolle Grenze für Entwickler von Foundation-Models ein.
