Explotación de Información

De wikiRiesgos
Ir a la navegación Ir a la búsqueda

Explotación de Información es una sub-disciplina de la Informática que aporta herramientas de Minería de Datos para extraer el conocimiento no trivial que se encuentra (implícitamente) en los datos disponibles de diferentes fuentes de información dentro del marco de un proyecto ingenieril.<ref>Pollo-Cattaneo, M., García-Martínez, R., Britos, P., Pesado, P., Bertone, R., Rodríguez, D., Merlino, H., Pytel, P., Vanrell, J. 2012. Elementos para una Ingeniería de Explotación de Información. Proyecciones 10(1): 67-84. ISSN 1667-8400. http://www.unla.edu.ar/sistemas/gisi/papers/UTN-FRBA-Proyecciones-10-1-67-84-2012.pdf</ref>

Historia

Debido a la gran cantidad de datos que poseen las organizaciones actualmente en sus repositorios, es necesario contar con mecanismos que permitan descubrir relaciones, fluctuaciones y dependencias entre dichos datos. Para realizar dicha transformación, es posible aplicar técnicas o algoritmos de Minería de Datos. Muchas de esas técnicas provienen del campo del Aprendizaje Automático por lo que los modelos, o patrones de conocimiento, son obtenidos automáticamente.
Sin embargo, a partir de estudios realizados sobre proyectos de este tipo, han detectado que la mayoría finalizan con fracasos. En el año 2000, se había determinado que el 85% de los proyectos no alcanzan sus metas.<ref>Fayyad, U.M. 2000. Tutorial Report. Summer school of DM. Monash University, Australia.</ref> Esto llevo a la especificación de metodologías (con sus correspondientes procesos, actividades y técnicas) que guíen el desarrollo de estos proyectos. Como resultado, en el año 2005 el porcentaje de fracaso ha bajado a aproximadamente el 60%.<ref>Gondar, J.E. 2005. Metodología del Data Mining. Number 84-96272-21-4. Data Mining Institute S.L..</ref> Esto parece indicar que la utilización directa de las técnicas de Minería de Datos garanticen el éxito de proyecto, sino que es necesario darle un marco ingenieril para su desarrollo.<ref>García-Martínez, R., Britos, P., Pesado, P., Bertone, R., Pollo-Cattaneo, F., Rodríguez, D., Pytel, P., Vanrell. J. (2011). Towards an Information Mining Engineering. En Software Engineering, Methods, Modeling and Teaching. Sello Editorial Universidad de Medellín. ISBN 978-958-8692-32-6. Páginas 83-99. http://www.unla.edu.ar/sistemas/gisi/papers/Software-Engeneering-ISBN-978-958-8692-32-6-pag-83-99.pdf</ref> Esto es similar a lo sucedido entre la programación de software y la Ingeniería de Software.

Metodologías

Las principales metodologías para desarrollo de proyectos de Explotación de Información son:

Según una encuesta realizada por kdnuggets.com, CRISP-DM es la guía de referencia más ampliamente utilizada en el desarrollo de proyectos de Explotación de Información. Esta supremacía se mantiene desde el año 2002 y se debe, entre otras razones, a que es de libre distribución (sin costo alguno) y se la considera la metodología independiente del dominio más efectiva por incluir en su alcance todas las complejidades del proyecto pero con tareas fáciles de aplicar. En este sentido se distingue de la metodología P3TQ que es mucho más compleja. Por otro lado, el Modelo de Proceso para Proyectos de Explotación de Información es una adaptación de CRISP-DM con el modelo COMPETISOFT.<ref>Oktaba, H., Garcia, F., Piattini, M., Ruiz, F., Pino y F.J. y Alquicira, C. 2007. Software Process Improvement: The COMPETISOFT Project. Computer 40(10), pp. 21-28.</ref> Este modelo de procesos elimina todas las fases no necesarias, dejando sólo las que son imprescindibles para realizar la explotación de información y, además, agrega nuevas fases para aspectos específicos de este tipo de proyectos cuando son desarrollados en PyMEs.

Procesos

Se denomina Proceso de Explotación de Información<ref>Britos, P., García-Martínez, R. (2009). Propuesta de Procesos de Explotación de Información. Proceedings XV Congreso Argentino de Ciencias de la Computación. Workshop de Base de Datos y Minería de Datos. Págs. 1041-1050. ISBN 978-897-24068-4-1. http://www.iidia.com.ar/rgm/comunicaciones/CACIC-2009-WBDMD-1041-1050.pdf</ref> a un conjunto de técnicas o algoritmos de Minería de Datos que busca resolver un problema de negocio en una organización. Para determinar el proceso que mejor se adecue es necesario identificar los objetivos del proyecto y las características de las fuentes de datos disponibles. Los principales procesos son:

  • Proceso de Descubrimiento de Reglas de Comportamiento que se aplica cuando se requiere identificar cuáles son las condiciones para obtener determinado resultado en el dominio del problema. Para ello, son utilizados los denominados algoritmos de inducción como ID3 o C4.5.
  • Proceso de Descubrimiento de Grupos que se utiliza cuando se requiere identificar una partición en la masa de información disponible sobre el dominio de problema. Para identificar estas particiones se aplican algoritmos de segmentación de datos como es el caso de la RNA de Kohonen.
  • Proceso de Ponderación de Atributos aplicado cuando es necesario identificar cuáles son los factores con mayor incidencia (o frecuencia de ocurrencia) sobre un determinado resultado del problema, esto se logra aplicando el operador de Naive Bayes.

Estos tres procesos se pueden combinar generando para resolver situaciones más complejas. Por ejemplo, si es necesario identificar las características de los grupos descubiertos se puede aplicar primero el proceso Descubrimiento de Grupos y sobre estos resultados usar el proceso de Descubrimiento de Reglas de Comportamiento.

Referencias

<references group=""></references>

Enlaces externos