Universidad San Sebastián  
 

Repositorio Institucional Universidad San Sebastián

Búsqueda avanzada

Descubre información por...

 

Título

Ver títulos
 

Autor

Ver autores
 

Tipo

Ver tipos
 

Materia

Ver materias

Buscar documentos por...




Mostrar el registro sencillo del ítem

dc.contributor Universidad San Sebastián. Facultad de Ingeniería en_US
dc.contributor.author Mora Barrientos, Soraya Paz
dc.date 2025
dc.date.accessioned 2025-12-18T18:42:31Z
dc.date.available 2025-12-18T18:42:31Z
dc.date.issued 2025
dc.identifier.uri https://repositorio.uss.cl/handle/uss/20028
dc.description.abstract La capacidad de anticipar cómo se moverán los objetos en una secuencia de vídeo se ha transformado en uno de los grandes desafíos dentro de la visión computacional ya que es escencian para generar aplicaciones como la navegación autónoma, la vigilancia y la robótica, donde la anticipación de escenarios futuros resulta esencial para la toma de decisiones. No obstante, a pesar de los avances alcanzados, los métodos actuales aún presentan limitaciones importantes. Por ejemplo, las arquitecturas convolucionales y sus variantes 3D muestran un buen rendimiento en horizontes temporales cortos y medianos, pero pierden coherencia en el movimiento cuando se extiende el número de predicciones. Por otro lado, los modelos recurrentes y aquellos basados en interpolación aportan mayor consistencia temporal, pero presentan un elevado consumo de recursos y dificultades para adaptarse a escenarios reales complejos. Dentro de este panorama, el flujo óptico aparece como una herramienta clave porque ofrece una descripción explícita del movimiento aparente en la escena bajando el coste computacional. Sin embargo, en la práctica, este recurso ha sido integrado de manera limitada dentro de las arquitecturas de predicción, lo que reduce su potencial para garantizar estabilidad y coherencia en horizontes de tiempo más largos. Esto planteó una pregunta central que guió el presente trabajo: ¿en qué punto de una arquitectura resulta más efectivo incorporar el flujo óptico para obtener predicciones confiables en entornos urbanos? Para responder a esta pregunta, se exploraron tres modelos inspirados en codificación predictiva utilizando la siguiente estrategia: usar el flujo óptico como entrada en el modelo (Pre-Encoder, PE), estimarlo en el espacio latente tras el codificador (Post-Latent Space, PLS) o bien incorporarlo como un término regulador en la función de pérdida (ACCLIP). El objetivo general fue estudiar hasta qué punto la integración del flujo óptico mejora la capacidad de predicción de trayectorias de objetos en relación con un observador móvil, y cómo influye en la fidelidad visual y temporal de las secuencias generadas. La evaluación experimental se llevó a cabo en los conjuntos de datos KITTI, KTH–Action y Caltech Pedestrian, abarcando diferentes tipos de escenas y dinámicas. Esta investigación demostró que la incorporación explícita del flujo óptico, ya sea como señal de entrada o como supervisión, es clave para preservar la coherencia estructural y temporal en la predicción de videos. A partir de estos hallazgos, se proponen posibles mejoras arquitectónicas, como la inclusión de mecanismos de atención o módulos de refinamiento dinámico, y se identificaron desafíos abiertos relacionados con la exploración de nuevas redes y métodos de cálculo de flujo óptico, así como también la reducción de la latencia para poder generar predicciones en tiempo real. en_US
dc.description.abstract The ability to anticipate how objects will move in a video sequence has become one of the major challenges in computer vision, as it is essential for applications such as autonomous navigation, surveillance, and robotics, where the anticipation of future scenarios is crucial for decision-making. Nevertheless, despite the progress achieved, current methods still present significant limitations. For example, convolutional architectures and their 3D variants show good performance in shortand medium-term horizons, but lose motion coherence as the number of predictions increases. On the other hand, recurrent models and those based on interpolation provide greater temporal consistency, but require high computational resources and face difficulties in adapting to complex real-world scenarios. Within this context, optical flow emerges as a key tool because it offers an explicit description of the apparent motion in the scene while reducing computational cost. However, in practice, this resource has been integrated only in a limited way within prediction architectures, which reduces its potential to ensure stability and coherence over longer time horizons. This raised a central question that guided the present work: at which point in an architecture is it most effective to incorporate optical flow in order to obtain reliable predictions in urban environments? To address this question, three models inspired by predictive coding were explored using the following strategy: employing optical flow as input to the model (Pre-Encoder, PE), estimating it in the latent space after the encoder (Post-Latent Space, PLS), or incorporating it as a regularization term in the loss function (ACCLIP). The overall objective was to study to what extent the integration of optical flow improves the ability to predict object trajectories with respect to a moving observer, and how it influences the visual and temporal fidelity of the generated sequences. The experimental evaluation was conducted on the KITTI, KTH–Action, and Caltech Pedestrian datasets, covering different types of scenes and dynamics. This research demonstrated that the explicit incorporation of optical flow, whether as an input signal or as supervision, is key to preserving structural and temporal coherence in video prediction. Based on these findings, possible architectural improvements are proposed, such as the inclusion of attention mechanisms or dynamic refinement modules, and open challenges were identified related to the exploration of new networks and optical flow estimation methods, as well as reducing latency to enable real-time predictions. en_US
dc.format application/pdf, 6.0-MB en_US
dc.language.iso es en_US
dc.publisher Universidad San Sebastián en_US
dc.subject Tesis Doctorado en Biología Computacional en_US
dc.subject Visión computacional en_US
dc.subject Flujo óptico en_US
dc.subject Codificación predictiva en_US
dc.title Codificación predictiva de la trayectoria de objetos en movimiento usando flujo óptico en_US
dc.type Tesis en_US
dc.contributor.guide Pérez-Acle, Tomas
dc.coverage.location Santiago en_US
uss.facultad Facultad de Ingeniería en_US
uss.carrera Doctorado en Biología Computacional en_US
uss.sede Bellavista en_US
uss.programa Postgrado en_US

 

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem