Automatic Rush Generation with Application to Theatre Performances

Thèse
 - 
LJK
Vineet GANDHI
Jeudi 18 décembre 2014
Réalisation technique : Djamel Hadji | Tous droits réservés

Professional quality videos of live staged performances are created by recording them from different appropriate viewpoints. These are then edited together to portray an eloquent story replete with the ability to draw out the intended emotion from the viewers. Creating such competent videos typically requires a team of skilled camera operators to capture the scene from multiple viewpoints. In this thesis, we explore an alternative approach where we automatically compute camera movements in post-production using specially designed computer vision methods. A high resolution static camera replaces the plural camera crew and their efficient camera movements are then simulated by virtually panning - tilting - zooming within the original recordings. We show that multiple virtual cameras can be simulated by choosing different trajectories of cropping windows inside the original recording. One of the key novelties of this work is an optimization framework for computing the virtual camera trajectories using the information extracted from the original video based on computer vision techniques. The actors present on stage are considered as the most important elements of the scene. For the task of localizing and naming actors, we introduce generative models for learning view independent person and costume specific detectors from a set of labeled examples. We explain how to learn the models from a small number of labeled keyframes or video tracks, and how to detect novel appearances of the actors in a maximum likelihood framework. We demonstrate that such actor specific models can accurately localize actors despite changes in view point and occlusions, and significantly improve the detection recall rates over generic detectors. The thesis then proposes an offline algorithm for tracking objects and actors in long video sequences using these actor specific models. Detections are first performed to independently select candidate locations of the actor/object in each frame of the video. The candidate detections are then combined into smooth trajectories by minimizing a cost function accounting for false detections and occlusions. Using the actor tracks, we then describe a method for automatically generating multiple clips suitable for video editing by simulating pan-tilt-zoom camera movements within the frame of a single static camera. Our method requires only minimal user input to define the subject matter of each sub-clip. The composition of each sub-clip is automatically computed in a novel convex optimization framework. Our approach encodes several common cinematographic practices into a single convex cost function minimization problem, resulting in aesthetically pleasing sub-clips which can easily be edited together using off-the-shelf multi-clip video editing software. The proposed methods have been tested and validated on a challenging corpus of theatre recordings. They open the way to novel applications of computer vision methods for cost effective video production of live performances including, but not restricted to, theatre, music and opera. French Abstract: Les captations professionnelles de pièces de théâtre utilisent un grand nombre de caméras afin de montrer l'ensemble du spectacle sous tous ses angles. C'est un processus complexe et coûteux, qui fait appel aux compétences d'un grand nombre de techniciens qualifiés pour assurer le cadrage puis le montage de toutes les prises de vues. Dans cette thèse, nous explorons une approche différente, consistant à calculer automatiquement en post-production des cadrages dynamiques à partir d'un petit nombre de prises de vues obtenues en caméra fixe, sans opérateurs. Pour atteindre cet objectif, nous proposons de nouveaux algorithmes de vision par ordinateur qui nous permettent de formaliser et reproduire les régles du cadrage cinématographique. Dans cette thèse, nous proposons de nouvelles méthodes d'analyse vidéo pour calculer automatiquement le cadrage le plus approprié aux mouvements des acteurs qui évoluent sur scène. Nous simulons pour cela les mouvements d'une caméra "pan-tilt-zoom" extraite du cadre d'une prise de vue en caméra fixe. Une contribution importante de la thèse consiste à formaliser le problème du cadrage cinématographique comme un problème d'optimisation convexe. Dans une première partie de la thèse, nous proposons des méthodes nouvelles pour détecter et reconnaitre les acteurs à l'aide d'une modélisation explicite de leurs apparences, qui inclue leurs caractères physiques ainsi que leurs costumes et chevelures. Nous présentons une approche pour apprendre ces modèles d'apparence à partir d'un petit nombre d'exemples, en maximisant leur vraisemblance. Nous montrons l'efficacité de ces méthodes sur des exemples de films de théâtre et de cinéma. Dans une seconde partie de la thèse, nous montrons comment ces méthodes peuvent être utilisées pour effectuer le suivi des acteurs d'une pièce de théâtre, y compris sur de longues séquences de plusieurs minutes, par l'utilisation de méthodes efficaces de programmation dynamique, qui permettent de prendre en compte les entrées et sorties de scène des acteurs, ainsi que leurs occultations mutuelles. Dans une troisième partie de la thèse, nous décrivons une méthode générale pour calculer dynamiquement le cadrage d'une caméra virtuelle incluant un nombre quelconque d'acteurs, tout en excluant les autre acteurs dans la mesure du possible. Notre méthode prend en compte un grand nombre de considérations esthétiques que nous avons extraites des ouvrages techniques consacrés à la cinématographie et au montage. Notre approche présente l'avantage de formaliser les règles de la cinématographie et du montage sous la forme d'un problème d'optimisation convexe, pour lequel nous pouvons proposer une solution efficace. Tout au long de la thèse, nous illustrons et validons les approches proposées sur des exemples réels et complexes, que nous avons filmés au Théâtre de Lyon - Célestins. Les méthodes que nous proposons s'appliquent généralement au spectacle vivant (théâtre, musique, opéra) et permettent d'envisager de nouvelles applications de la vision par ordinateur dans le domaine de la production audio-visuelle.

L'UMS MI2S a fermé le 31 décembre 2016, les vidéos hébergées sur son site le sont maintenant sur le site de GRICAD. Conformément à la loi informatique et libertés du 6 janvier 1978 modifiée, vous pouvez exercer vos droits de rétraction ou de modification relatifs aux autorisations validées par MI2S auprès de l'UMS GRICAD.