Local cover image
Local cover image

Detección de registros académicos duplicados obtenidos desde repositorios digitales

By: Contributor(s): Material type: TextTextPublication details: 2020Description: 1 archivo (3,21 MB) : il. colSubject(s): Online resources:
Contents:
Capítulo 1 Introducción -- Motivación -- Objetivos -- Objetivo general -- Objetivos secundarios -- Escenario de trabajo -- Ingesta masiva de registros -- Estructura de la tesis -- Capítulo 2 - Marco teórico -- Introducción -- Repositorios digitales -- Repositorios institucionales -- Repositorios institucionales en Argentina -- Metadatos -- Registro de metadatos -- Esquema de metadatos -- Dublin Core -- Perfiles de aplicación -- Identificadores persistentes -- Handle System -- DOI (Digital Object Identifier) -- ORCID -- Interoperabilidad vía OAI-PMH -- Interoperabilidad entre esquemas de metadatos -- Mapeo de metadatos -- Capítulo 3 - Detección de registros académicos duplicados -- Introducción -- Deduplicación de registros -- Heterogeneidad de los datos -- Deduplicación de registros académicos -- Heterogeneidad en los metadatos de distintas fuentes -- Uso de identificadores persistentes -- Técnicas para la detección de registros duplicados -- Modelos probabilísticos de emparejamiento -- Aprendizaje supervisado y semi supervisado -- Técnicas basadas en aprendizaje activo -- Técnicas basadas en distancia -- Enfoques basados en reglas -- Aprendizaje sin supervisión -- Metodologías para optimizar la cantidad de comparaciones -- Soluciones existentes -- Capítulo 4 - Análisis y desarrollo -- Introducción -- Desarrollo de un primer prototipo -- Solución propuesta -- Núcleo de la herramienta -- Esquema de metadatos genérico -- Normalización de la tipología de cada registro -- Engine y algoritmo de comparación -- Reglas -- Resultado asociado a la evaluación de una regla -- Tipos de reglas -- Elección del conjunto de reglas a evaluar -- Lógica de comparación de las reglas -- Comparación de metadatos -- Comparación de autores -- Comparación de títulos -- Comparación de fechas -- Auxiliar utils -- Funciones de similitud entre strings -- Distancia Levenshtein -- Distancia Jaro-Winkler -- Metaphone -- Función utilizada -- Obtención de identificadores -- Resultado de una deduplicación -- Mapeo de metadatos -- Funcionamiento -- Combinación de columnas -- Capítulo 5 - Desarrollo de la aplicación web -- Introducción -- Tecnologías utilizadas -- Aplicación back-end -- Extensiones al modelo -- Tarea de deduplicación -- Tarea de mapeo -- Endpoints principales de la API REST -- Aplicación front-end -- Interfaz de usuario de la herramienta de deduplicación -- Pantalla de inicio -- Formulario para iniciar una tarea -- Detalle de una tarea -- Listado de tareas -- Interfaz de usuario del módulo de mapeo -- Formulario para iniciar una tarea -- Detalle de una tarea -- Listado de tareas -- Capítulo 6 - Proceso de importación y resultados obtenidos -- Introducción -- Proceso para importaciones masivas -- Obtención de registros desde un repositorio -- Mapeo de metadatos a formato genérico -- Deduplicación con registros del repositorio destino -- Reconciliación de metadatos -- Mapeo a formato esperado por el repositorio destino -- Correcciones sobre los metadatos -- Obtención de los objetos digitales asociados a cada registro -- Generar archivo de importación y carga del mismo -- Casos de aplicación -- SCOPUS -- Memoria Académica -- CONICET Digital -- Capítulo 7 - Conclusiones y trabajos futuros -- Conclusión -- Trabajos futuros -- Mejorar performance de la herramienta de deduplicación -- Expandir módulo de comparación de autores -- Enriquecimiento de registros detectados como duplicados -- Explorar enfoque de Aprendizaje Automático -- Incorporar funcionalidad de deduplicación dentro del sistema de repositorio -- Bibliografía
Dissertation note: Tesina (Licenciatura en Sistemas) - Universidad Nacional de La Plata. Facultad de Informática, 2020.
Star ratings
    Average rating: 0.0 (0 votes)
Holdings
Item type Home library Collection Call number URL Status Date due Barcode
Tesis de posgrado Tesis de posgrado Biblioteca de la Facultad de Informática TES 20/53 (Browse shelf(Opens below)) Available DIF-04929
Tesis de posgrado Tesis de posgrado Biblioteca de la Facultad de Informática Biblioteca digital Link to resource No corresponde
Tesis de posgrado Tesis de posgrado Biblioteca de la Facultad de Informática Biblioteca digital Link to resource No corresponde

Tesina (Licenciatura en Sistemas) - Universidad Nacional de La Plata. Facultad de Informática, 2020.

Capítulo 1 Introducción -- Motivación -- Objetivos -- Objetivo general -- Objetivos secundarios -- Escenario de trabajo -- Ingesta masiva de registros -- Estructura de la tesis -- Capítulo 2 - Marco teórico -- Introducción -- Repositorios digitales -- Repositorios institucionales -- Repositorios institucionales en Argentina -- Metadatos -- Registro de metadatos -- Esquema de metadatos -- Dublin Core -- Perfiles de aplicación -- Identificadores persistentes -- Handle System -- DOI (Digital Object Identifier) -- ORCID -- Interoperabilidad vía OAI-PMH -- Interoperabilidad entre esquemas de metadatos -- Mapeo de metadatos -- Capítulo 3 - Detección de registros académicos duplicados -- Introducción -- Deduplicación de registros -- Heterogeneidad de los datos -- Deduplicación de registros académicos -- Heterogeneidad en los metadatos de distintas fuentes -- Uso de identificadores persistentes -- Técnicas para la detección de registros duplicados -- Modelos probabilísticos de emparejamiento -- Aprendizaje supervisado y semi supervisado -- Técnicas basadas en aprendizaje activo -- Técnicas basadas en distancia -- Enfoques basados en reglas -- Aprendizaje sin supervisión -- Metodologías para optimizar la cantidad de comparaciones -- Soluciones existentes -- Capítulo 4 - Análisis y desarrollo -- Introducción -- Desarrollo de un primer prototipo -- Solución propuesta -- Núcleo de la herramienta -- Esquema de metadatos genérico -- Normalización de la tipología de cada registro -- Engine y algoritmo de comparación -- Reglas -- Resultado asociado a la evaluación de una regla -- Tipos de reglas -- Elección del conjunto de reglas a evaluar -- Lógica de comparación de las reglas -- Comparación de metadatos -- Comparación de autores -- Comparación de títulos -- Comparación de fechas -- Auxiliar utils -- Funciones de similitud entre strings -- Distancia Levenshtein -- Distancia Jaro-Winkler -- Metaphone -- Función utilizada -- Obtención de identificadores -- Resultado de una deduplicación -- Mapeo de metadatos -- Funcionamiento -- Combinación de columnas -- Capítulo 5 - Desarrollo de la aplicación web -- Introducción -- Tecnologías utilizadas -- Aplicación back-end -- Extensiones al modelo -- Tarea de deduplicación -- Tarea de mapeo -- Endpoints principales de la API REST -- Aplicación front-end -- Interfaz de usuario de la herramienta de deduplicación -- Pantalla de inicio -- Formulario para iniciar una tarea -- Detalle de una tarea -- Listado de tareas -- Interfaz de usuario del módulo de mapeo -- Formulario para iniciar una tarea -- Detalle de una tarea -- Listado de tareas -- Capítulo 6 - Proceso de importación y resultados obtenidos -- Introducción -- Proceso para importaciones masivas -- Obtención de registros desde un repositorio -- Mapeo de metadatos a formato genérico -- Deduplicación con registros del repositorio destino -- Reconciliación de metadatos -- Mapeo a formato esperado por el repositorio destino -- Correcciones sobre los metadatos -- Obtención de los objetos digitales asociados a cada registro -- Generar archivo de importación y carga del mismo -- Casos de aplicación -- SCOPUS -- Memoria Académica -- CONICET Digital -- Capítulo 7 - Conclusiones y trabajos futuros -- Conclusión -- Trabajos futuros -- Mejorar performance de la herramienta de deduplicación -- Expandir módulo de comparación de autores -- Enriquecimiento de registros detectados como duplicados -- Explorar enfoque de Aprendizaje Automático -- Incorporar funcionalidad de deduplicación dentro del sistema de repositorio -- Bibliografía

Click on an image to view it in the image viewer

Local cover image