AI Video Face Search
Computer-Vision-System zur Erkennung spezifischer Personen oder Objekte für B-Roll-Klassifizierung
Technologies Used
Computer Vision
Machine Learning
Facenet
Streamlit
Python
Prototyping
Executive Summary
Diese Anwendung automatisiert den arbeitsintensiven Prozess der Videoindizierung. Ursprünglich für Medienproduktionsteams entwickelt, nutzt sie fortschrittliche Computer Vision, um Stunden von Filmmaterial zu scannen und spezifische Personen sofort zu finden, wodurch eine manuelle Suchaufgabe in einen automatisierten Hochgeschwindigkeits-Workflow verwandelt wird.
Business Context
Content-Ersteller und Medienarchive stehen vor einer gemeinsamen Herausforderung: Das Abrufen spezifischer Aufnahmen aus riesigen Videobibliotheken ist langsam und teuer. Die manuelle Überprüfung von B-Roll- oder Archivmaterial schafft einen Engpass. Diese Lösung adressiert dies, indem sie eine 'semantische' Suche innerhalb von Videoinhalten ermöglicht – das Finden von Personen nicht nach Dateinamen, sondern nach ihrer visuellen Identität.
Live Streamlit Demo
Probieren Sie die Anwendung selbst aus. Laden Sie ein Video und ein Referenzfoto hoch (oder nutzen Sie die Demodaten), um die Gesichtssuche in Aktion zu sehen.
Quellcode
Sehen Sie sich das Repository für technische Details zur Computer-Vision-Pipeline, Embedding-Generierung und Leistungsoptimierung an.
Computer Vision Pipeline
Das System folgt einer modularen Pipeline: Frame-Extraktion -> Gesichtserkennung (MTCNN) -> Embedding-Generierung (Inception Resnet) -> Vektor-Ähnlichkeitssuche. Diese Modularität ermöglicht eine unabhängige Optimierung jeder Stufe, wobei Geschwindigkeit und Genauigkeit ausgeglichen werden.
Technical Approach
Das System nutzt einen One-Shot-Learning-Ansatz mit Deep Learning (Inception Resnet V1). Im Gegensatz zu herkömmlichen Modellen, die Tausende von Trainingsbildern erfordern, 'registriert' diese Architektur eine neue Identität anhand weniger Referenzfotos. Es kombiniert MTCNN für robuste Gesichtserkennung mit Facenet-PyTorch zur Generierung von 512-dimensionalen Embeddings, was eine präzise Identitätsübereinstimmung bei unterschiedlichen Lichtverhältnissen und Winkeln ermöglicht.
Key Outcomes
Erreichte Echtzeit-Verarbeitungsgeschwindigkeiten für Standard-Definition-Video. Das System bewältigt erfolgreich teilweise Verdeckungen und Profilansichten. Bereitstellung einer benutzerfreundlichen Streamlit-Oberfläche, die komplexe ML-Operationen abstrahiert und die Technologie für nicht-technische Video-Editoren zugänglich macht.
Business Value
Reduziert die Suchzeit in der Postproduktion drastisch und ermöglicht Teams, vorhandene Inhalte effektiver wiederzuverwenden. Die 'Registrierungs'-Funktion bietet Flexibilität, um neue Subjekte ohne technisches Eingreifen zu verfolgen, wodurch sichergestellt wird, dass das Tool mit den Anforderungen der Organisation skaliert.