REPOSITORIO DE INICIATIVAS FINALISTAS DEL CONCURSO FUNCIONA

InicioRepositorio de Iniciativas finalistas del concurso FuncionaAño 2018 › Implementación de un sistema de Codificación Automática de Textos
Nombre de la iniciativa:

Implementación de un sistema de Codificación Automática de Textos

Nombre del organismo

Instituto Nacional de Estadísticas

Descripción general del proyecto

Sistema en base a un programa de aprendizaje de máquinas, desarrollado en lenguaje R que permite convertir de forma automática un determinado texto a un código que lo clasifica. Se utiliza para procesar encuestas donde las respuestas de las personas a preguntas vinculadas a ocupación y sector económico, se registran como texto y son posteriormente clasificados según directrices internacionales. Reemplaza un proceso manual de codificación, de uso intensivo de horas de trabajo para su ejecución. Mejora eficiencia, eficacia y precisión del proceso de codificación de los clasificadores internacionales que utilizan los distintos productos del INE y del Sistema Estadístico Nacional (SEN). En definitiva, la iniciativa corresponde a la implementación de un shock tecnológico con impacto positivo en la calidad de los productos y en sus costos de producción. Alta escalabilidad. Desde 2019 se utilizará de manera transversal en el INE y es transferible a otros servicios y/o encuestas públicas.

Porque la iniciativa es innovadora

No existen otras soluciones de codificación automática de texto en organismos públicos de Chile y Sudamérica. En 2017, la ocupación “Comerciante establecido”, se observó más de 1.500 veces en la Encuesta de Empleo. Fue codificada manualmente en el código correcto en un 83%, pues se codificó también en más de siete códigos diferentes. El sistema automático es más rápido y preciso, evita estos errores de codificación múltiple y elimina un consumo de más de 3.600 horas efectivas de trabajo al mes.

Beneficiados con la iniciativa

Impacta positivamente en los usuarios al interior del INE, pues disminuye significativamente el tiempo y costo de procesamiento de la codificación: en términos concretos, en la ENE se pasa de utilizar 22 personas permanentes con jornada completa, a utilizar solo 4 personas, incluyendo validaciones posteriores incluidas. Eso representa un ahorro de más de 70% del costo mano de obra. La automatización permite reducir los tiempos de espera de procesamiento entre 4 a 6 días por mes.

Elementos claves para implementar la iniciativa

La iniciativa está implementándose en las encuestas del INE, y puede replicarse en otras como CASEN. El sistema puede aplicarse en salud, analizando fichas médicas para prevenir enfermedades, o en educación, alertando sobre situaciones de bullyng.

Proceso de Gestión e Implementación de la iniciativa

A partir de los primeros datos del Censo 2017, se obtuvo un set de cerca de 180 mil textos clasificados a mano. Dada la necesidad de codificar todos los textos que describen el sector económico de los más de 8 millones de ocupados que se pesquisarían en el mismo Censo, se desarrolló, como propuesta, un método que utilizó los casos ya codificados, para predecir matemáticamente su respectivo código, lo que se logró con una coincidencia de 85%. Posteriormente, el sistema es implementado en la Encuesta de Empleo, para los clasificadores internacionales de rama de actividad económica y ocupación, pero con mejoras en el proceso de predicción, a través del uso de algoritmos de vanguardia como el Support Vector Machine, cuyos resultados de coincidencia alcanzan hasta 95%.

Integrantes

José Luis Aránguiz Alarcón
Nicolás Van Hausen Villablanca
Nicolás Maturana Arizpe
Randy Fuentes Valenzuela

Contacto

jose.aranguiz@ine.cl
nicolas.hausen@ine.cl
nicolas.maturana@ine.cl
randy.guentes@ine.cl