Blog Store
Zurück zum Blog

Vision Transformer und AGI für die selbstoptimierende Stadt mit NVIDIA

Wie REBOTNIX mit bis zu sieben parallelen Vision-Transformer-Modellen, AGI-Orchestratoren und NVIDIA Jetson Thor kommunale Infrastruktur automatisch erkennt, bewertet und in operative Prozesse überführt.

NVIDIA Jetson Thor · NemoClaw · Nemotron FP4
REBOTNIX Smart City Übersicht

Seit 2019 entwickelt REBOTNIX Smart-City-Anwendungen, die Städten helfen, sauberer, sicherer und effizienter zu werden. Die zentrale Herausforderung liegt in der enormen Menge visueller Daten. Städte in Nordrhein-Westfalen können je nach Anwendungsfall bis zu 400 Millionen Bilder erzeugen, die gespeichert, verstanden, ausgewertet und in operative Prozesse übersetzt werden müssen.

Eine klassische Cloud-Architektur wäre zu teuer, zu langsam und schwer skalierbar. REBOTNIX verarbeitet die Daten deshalb direkt im Fahrzeug.

Sieben Modelle, ein Fahrzeug

Bis zu sieben hochoptimierte Vision-Transformer-Modelle laufen parallel und erkennen relevante Zustände im öffentlichen Raum. Diese Modelle identifizieren illegale Müllablagerungen, beschädigte oder verdeckte Verkehrszeichen, Baustellenzustände, Straßenschäden und andere sicherheitsrelevante Ereignisse.

Der entscheidende Vorteil: Die Stadt muss nicht mehr mit Rohbildern arbeiten, sondern erhält bereits erkannte Ereignisse mit Kontext, Priorität und operativer Relevanz.

Erkannter Verkehrszeichen-Zustand
Automatische Erkennung von Verkehrszeichen-Zuständen im Stadtbetrieb

KINEVA Context Compression

Für eine effiziente Datenübertragung setzt REBOTNIX auf KINEVA Context Compression. Die Technologie reduziert Bilddaten gezielt und erhält dabei die relevanten Bildbereiche, die für KI-Auswertung und Dokumentation benötigt werden. Nur das Relevante wird übertragen.

AGI-Orchestratoren als operative Schicht

Im nächsten Schritt werden die erkannten Ereignisse von AGI-Orchestratoren verarbeitet. Diese verbinden die Ergebnisse der Vision-Transformer-Modelle mit Kontext, Prioritäten, Zuständigkeiten und operativen Workflows. Eine einzelne Erkennung wird so zu einem steuerbaren Prozess.

Baustellen-Erkennung im Einsatz
Automatische Baustellenerkennung mit Kontextinformationen und Prioritätsbewertung

Ausgerichtet auf NVIDIA Jetson Thor

Die REBOTNIX-AGI-Architektur ist auf NVIDIA Jetson Thor ausgerichtet, einer Plattform für Physical AI, Edge AI und industrielle Echtzeit-Anwendungen. Jetson Thor ist für hochleistungsfähige KI-Verarbeitung am Edge konzipiert: Robotik, autonome Systeme, Sensorverarbeitung und Echtzeit-Entscheidungsfindung. NVIDIA beschreibt die Vision für agentische KI in der physischen Welt auf ihrem Blog.

REBOTNIX nutzt NVIDIA NemoClaw als Software-Stack für autonome Agenten und NVIDIA Nemotron als KI-Modell. Nemotron wird von REBOTNIX in regelmäßigen Abständen auf FP4 fine-tuned, um Entscheidungsfindung, Priorisierung und Prozessorchestrierung kontinuierlich zu verbessern.

Die selbstoptimierende Plattform

Das Ergebnis ist eine selbstoptimierende Plattform für die Stadt von morgen. Vision Transformer erkennen, was im öffentlichen Raum geschieht. AGI-Orchestratoren entscheiden, was als Nächstes passieren soll. NVIDIA-Technologie liefert die Rechenleistung und den Software-Stack, um diese Intelligenz in Fahrzeugen und im kommunalen Betrieb nutzbar zu machen.

Vorteile für Entscheidungsträger

Für Stadtverwaltungen, kommunale Betreiber und Infrastrukturverantwortliche schafft die Plattform direkten operativen Mehrwert.

Geringere Übertragungskosten Relevante Ereignisse werden bereits im Fahrzeug vorverarbeitet. Bandbreiten- und Cloud-Kosten sinken, der Aufwand für manuelle Sichtung entfällt.
Schnellere Reaktionsfähigkeit Müllablagerungen, beschädigte Verkehrszeichen oder sicherheitsrelevante Ereignisse werden automatisch erkannt, priorisiert und in Workflows geleitet.
Kontinuierliches Lagebild Statt isolierter Datenpunkte erhält die Stadt ein aktualisiertes Lagebild mit priorisierten Aufgaben für Ressourcen- und Dienstleistersteuerung.
Lineare Skalierung ohne lineare Kosten Mit NVIDIA Jetson Orin NX, Vision-Transformer-Verarbeitung am Edge und AGI-Orchestrierung wächst die Kapazität, ohne dass Infrastrukturkosten proportional steigen.

Städte erhalten ein technologisches Fundament, um Smart-City-Anwendungen von Pilotprojekten in den Tagesbetrieb zu überführen.

Back to Blog

Vision Transformers and AGI for the Self-Optimizing City with NVIDIA

How REBOTNIX uses up to seven parallel Vision Transformer models, AGI orchestrators, and NVIDIA Jetson Thor to automatically detect, assess, and translate municipal infrastructure events into operational processes.

NVIDIA Jetson Thor · NemoClaw · Nemotron FP4
REBOTNIX Smart City Overview

Since 2019, REBOTNIX has been developing Smart City applications that help cities become cleaner, safer and more efficient. The central challenge is the enormous amount of visual data. Depending on the use case, cities in North Rhine-Westphalia can generate up to 400 million images that need to be stored, understood, evaluated and translated into operational processes.

A traditional cloud architecture would be too expensive, too slow and difficult to scale. REBOTNIX therefore processes the data directly inside the vehicle.

Seven Models, One Vehicle

Up to seven highly optimized Vision Transformer models run in parallel and detect relevant conditions in public spaces. These models identify illegal waste dumping, damaged or obstructed traffic signs, construction site conditions, road damage and other safety-relevant events.

The key advantage is that the city no longer has to work with raw images, but with detected events that already include context, priority and operational relevance.

Traffic sign condition detection
Automated traffic sign condition detection in daily municipal operations

KINEVA Context Compression

For efficient data transmission, REBOTNIX uses KINEVA Context Compression. The technology reduces image data in a targeted way while preserving the relevant image areas needed for AI evaluation and documentation. Only what matters gets transmitted.

AGI Orchestrators as the Operational Layer

In the next step, the detected events are processed by AGI orchestrators. These orchestrators connect the results of the Vision Transformer models with context, priorities, responsibilities and operational workflows. A single detection is transformed into a controllable process.

Construction site detection in action
Automated construction site detection with context information and priority assessment

Aligned with NVIDIA Jetson Thor

REBOTNIX's AGI architecture is aligned with NVIDIA Jetson Thor, a platform for physical AI, edge AI and industrial real-time applications. Jetson Thor is designed for high-performance AI processing at the edge: robotics, autonomous systems, sensor processing and real-time decision-making. NVIDIA outlines their vision for agentic AI in the physical world on their blog.

REBOTNIX uses NVIDIA NemoClaw as a software stack for autonomous agents and NVIDIA Nemotron as the AI model. Nemotron is fine-tuned by REBOTNIX at regular intervals on FP4 to continuously improve decision-making, prioritization and process orchestration.

The Self-Optimizing Platform

The result is a self-optimizing platform for the city of tomorrow. Vision Transformers detect what is happening in public space. AGI orchestrators decide what should happen next. NVIDIA technology provides the compute power and software stack needed to bring this intelligence into vehicles and municipal operations at scale.

Benefits for Decision Makers

For city administrations, municipal operators and infrastructure leaders, the platform creates direct operational value.

Lower transmission costs Relevant events are already detected and preprocessed inside the vehicle. This lowers bandwidth costs, cloud costs and the effort required for manual review.
Faster response capability Illegal waste dumping, damaged traffic signs or safety-relevant events are automatically detected, prioritized and routed into the right operational workflows.
Continuous operational picture Instead of isolated data points, the city receives a continuously updated operational picture with prioritized tasks for resource and service provider management.
Scale without linear cost growth With NVIDIA Jetson Orin NX, Vision Transformer processing at the edge and AGI orchestration with NemoClaw and Nemotron, capacity grows without infrastructure costs growing proportionally.

Cities gain a technological foundation to move Smart City applications from pilot projects into daily operations.