Mostrar el registro sencillo del ítem
| dc.contributor | Universidad San Sebastián. Facultad de Ingeniería | en_US |
| dc.contributor.author | Mora Barrientos, Soraya Paz | |
| dc.date | 2025 | |
| dc.date.accessioned | 2025-12-18T18:42:31Z | |
| dc.date.available | 2025-12-18T18:42:31Z | |
| dc.date.issued | 2025 | |
| dc.identifier.uri | https://repositorio.uss.cl/handle/uss/20028 | |
| dc.description.abstract | La capacidad de anticipar cómo se moverán los objetos en una secuencia de vídeo se ha transformado en uno de los grandes desafíos dentro de la visión computacional ya que es escencian para generar aplicaciones como la navegación autónoma, la vigilancia y la robótica, donde la anticipación de escenarios futuros resulta esencial para la toma de decisiones. No obstante, a pesar de los avances alcanzados, los métodos actuales aún presentan limitaciones importantes. Por ejemplo, las arquitecturas convolucionales y sus variantes 3D muestran un buen rendimiento en horizontes temporales cortos y medianos, pero pierden coherencia en el movimiento cuando se extiende el número de predicciones. Por otro lado, los modelos recurrentes y aquellos basados en interpolación aportan mayor consistencia temporal, pero presentan un elevado consumo de recursos y dificultades para adaptarse a escenarios reales complejos. Dentro de este panorama, el flujo óptico aparece como una herramienta clave porque ofrece una descripción explícita del movimiento aparente en la escena bajando el coste computacional. Sin embargo, en la práctica, este recurso ha sido integrado de manera limitada dentro de las arquitecturas de predicción, lo que reduce su potencial para garantizar estabilidad y coherencia en horizontes de tiempo más largos. Esto planteó una pregunta central que guió el presente trabajo: ¿en qué punto de una arquitectura resulta más efectivo incorporar el flujo óptico para obtener predicciones confiables en entornos urbanos? Para responder a esta pregunta, se exploraron tres modelos inspirados en codificación predictiva utilizando la siguiente estrategia: usar el flujo óptico como entrada en el modelo (Pre-Encoder, PE), estimarlo en el espacio latente tras el codificador (Post-Latent Space, PLS) o bien incorporarlo como un término regulador en la función de pérdida (ACCLIP). El objetivo general fue estudiar hasta qué punto la integración del flujo óptico mejora la capacidad de predicción de trayectorias de objetos en relación con un observador móvil, y cómo influye en la fidelidad visual y temporal de las secuencias generadas. La evaluación experimental se llevó a cabo en los conjuntos de datos KITTI, KTH–Action y Caltech Pedestrian, abarcando diferentes tipos de escenas y dinámicas. Esta investigación demostró que la incorporación explícita del flujo óptico, ya sea como señal de entrada o como supervisión, es clave para preservar la coherencia estructural y temporal en la predicción de videos. A partir de estos hallazgos, se proponen posibles mejoras arquitectónicas, como la inclusión de mecanismos de atención o módulos de refinamiento dinámico, y se identificaron desafíos abiertos relacionados con la exploración de nuevas redes y métodos de cálculo de flujo óptico, así como también la reducción de la latencia para poder generar predicciones en tiempo real. | en_US |
| dc.description.abstract | The ability to anticipate how objects will move in a video sequence has become one of the major challenges in computer vision, as it is essential for applications such as autonomous navigation, surveillance, and robotics, where the anticipation of future scenarios is crucial for decision-making. Nevertheless, despite the progress achieved, current methods still present significant limitations. For example, convolutional architectures and their 3D variants show good performance in shortand medium-term horizons, but lose motion coherence as the number of predictions increases. On the other hand, recurrent models and those based on interpolation provide greater temporal consistency, but require high computational resources and face difficulties in adapting to complex real-world scenarios. Within this context, optical flow emerges as a key tool because it offers an explicit description of the apparent motion in the scene while reducing computational cost. However, in practice, this resource has been integrated only in a limited way within prediction architectures, which reduces its potential to ensure stability and coherence over longer time horizons. This raised a central question that guided the present work: at which point in an architecture is it most effective to incorporate optical flow in order to obtain reliable predictions in urban environments? To address this question, three models inspired by predictive coding were explored using the following strategy: employing optical flow as input to the model (Pre-Encoder, PE), estimating it in the latent space after the encoder (Post-Latent Space, PLS), or incorporating it as a regularization term in the loss function (ACCLIP). The overall objective was to study to what extent the integration of optical flow improves the ability to predict object trajectories with respect to a moving observer, and how it influences the visual and temporal fidelity of the generated sequences. The experimental evaluation was conducted on the KITTI, KTH–Action, and Caltech Pedestrian datasets, covering different types of scenes and dynamics. This research demonstrated that the explicit incorporation of optical flow, whether as an input signal or as supervision, is key to preserving structural and temporal coherence in video prediction. Based on these findings, possible architectural improvements are proposed, such as the inclusion of attention mechanisms or dynamic refinement modules, and open challenges were identified related to the exploration of new networks and optical flow estimation methods, as well as reducing latency to enable real-time predictions. | en_US |
| dc.format | application/pdf, 6.0-MB | en_US |
| dc.language.iso | es | en_US |
| dc.publisher | Universidad San Sebastián | en_US |
| dc.subject | Tesis Doctorado en Biología Computacional | en_US |
| dc.subject | Visión computacional | en_US |
| dc.subject | Flujo óptico | en_US |
| dc.subject | Codificación predictiva | en_US |
| dc.title | Codificación predictiva de la trayectoria de objetos en movimiento usando flujo óptico | en_US |
| dc.type | Tesis | en_US |
| dc.contributor.guide | Pérez-Acle, Tomas | |
| dc.coverage.location | Santiago | en_US |
| uss.facultad | Facultad de Ingeniería | en_US |
| uss.carrera | Doctorado en Biología Computacional | en_US |
| uss.sede | Bellavista | en_US |
| uss.programa | Postgrado | en_US |