Profile picture
Brian Jin
Applied AI Engineer
Home
Portfolio
Multi-Agent Technical Ticket Assistant
Customer Churn Prediction
AI Video Face Search
Über mich
Kontakt
DE | EN
Zurück

AI Video Face Search

Computer-Vision-System zur Erkennung spezifischer Personen oder Objekte für B-Roll-Klassifizierung

Technologies Used
Computer Vision
Machine Learning
Facenet
Streamlit
Python
Prototyping
Executive Summary

Diese Anwendung automatisiert den arbeitsintensiven Prozess der Videoindizierung. Ursprünglich für Medienproduktionsteams entwickelt, nutzt sie fortschrittliche Computer Vision, um Stunden von Filmmaterial zu scannen und spezifische Personen sofort zu finden, wodurch eine manuelle Suchaufgabe in einen automatisierten Hochgeschwindigkeits-Workflow verwandelt wird.

Business Context

Content-Ersteller und Medienarchive stehen vor einer gemeinsamen Herausforderung: Das Abrufen spezifischer Aufnahmen aus riesigen Videobibliotheken ist langsam und teuer. Die manuelle Überprüfung von B-Roll- oder Archivmaterial schafft einen Engpass. Diese Lösung adressiert dies, indem sie eine 'semantische' Suche innerhalb von Videoinhalten ermöglicht – das Finden von Personen nicht nach Dateinamen, sondern nach ihrer visuellen Identität.

Live Streamlit Demo

Probieren Sie die Anwendung selbst aus. Laden Sie ein Video und ein Referenzfoto hoch (oder nutzen Sie die Demodaten), um die Gesichtssuche in Aktion zu sehen.

🚀 Live Demo
Quellcode

Sehen Sie sich das Repository für technische Details zur Computer-Vision-Pipeline, Embedding-Generierung und Leistungsoptimierung an.

💻 View Source Code
Computer Vision Pipeline

Das System folgt einer modularen Pipeline: Frame-Extraktion -> Gesichtserkennung (MTCNN) -> Embedding-Generierung (Inception Resnet) -> Vektor-Ähnlichkeitssuche. Diese Modularität ermöglicht eine unabhängige Optimierung jeder Stufe, wobei Geschwindigkeit und Genauigkeit ausgeglichen werden.

Workflow Architecture
Technical Approach

Das System nutzt einen One-Shot-Learning-Ansatz mit Deep Learning (Inception Resnet V1). Im Gegensatz zu herkömmlichen Modellen, die Tausende von Trainingsbildern erfordern, 'registriert' diese Architektur eine neue Identität anhand weniger Referenzfotos. Es kombiniert MTCNN für robuste Gesichtserkennung mit Facenet-PyTorch zur Generierung von 512-dimensionalen Embeddings, was eine präzise Identitätsübereinstimmung bei unterschiedlichen Lichtverhältnissen und Winkeln ermöglicht.

Key Outcomes

Erreichte Echtzeit-Verarbeitungsgeschwindigkeiten für Standard-Definition-Video. Das System bewältigt erfolgreich teilweise Verdeckungen und Profilansichten. Bereitstellung einer benutzerfreundlichen Streamlit-Oberfläche, die komplexe ML-Operationen abstrahiert und die Technologie für nicht-technische Video-Editoren zugänglich macht.

Business Value

Reduziert die Suchzeit in der Postproduktion drastisch und ermöglicht Teams, vorhandene Inhalte effektiver wiederzuverwenden. Die 'Registrierungs'-Funktion bietet Flexibilität, um neue Subjekte ohne technisches Eingreifen zu verfolgen, wodurch sichergestellt wird, dass das Tool mit den Anforderungen der Organisation skaliert.

Rechtliches:
Impressum Datenschutz AGB
© 2025 Brian Zelun Jin. Alle Rechte vorbehalten.