La Ciencia de Datos tiene el objetivo de llevar al investigador (Científico de Datos) hacia un nivel más profundo y sólido de conocimiento sobre los datos. Para lograrlo, se propone considerar el siguiente modelo compuesto por seis etapas.
![]() |
| Modelo de un proyecto en Ciencia de Datos. |
Una vez que se ha reconocido la existencia y la diversidad de los datos, el siguiente paso es proporcionarles estructura. Con el análisis de datos se busca explicar y documentar sus metadatos, así como establecer la clasificación correspondiente que permita comprenderlos mejor. En esta segunda etapa se abre la posibilidad de conocer con mayor precisión los datos y prepararlos para su procesamiento posterior. Se recomienda iniciar con análisis estadísticos de tipo descriptivo e inferencial.
Luego de haber estructurado y analizado los datos, el tercer paso es aplicar técnicas de minería de datos. Estas técnicas permiten analizar el conjunto completo de datos ya estructurados, lo que favorece un mejor entendimiento de su comportamiento y de sus posibles patrones. El propósito de esta etapa es descubrir relaciones entre las variables, así como medir el grado de dependencia o asociación entre ellas.
En la cuarta etapa se centra en la interpretación de los resultados obtenidos. Para ello, además de haber realizado todo el procesamiento de los datos indicado hasta ahora, es necesario comprender el contexto del proyecto, es decir, identificar con claridad los objetivos a cumplir y las preguntas de investigación que se busca a responder, integrando además las nuevas relaciones identificadas durante el análisis. En esta etapa se otorga mayor sentido y validez a la información obtenida, lo que contribuye a la generación de conocimiento más sólido y útil para la toma decisiones.
De acuerdo con las particularidades del proyecto, se determinará si se continúa con la etapa que permita visualizar de forma dinámica e interactiva las relaciones entre variables y sus resultados asociados y, finalmente, se evaluará la pertinencia de socializar o difundir los resultados del proyecto de Ciencia de Datos. Cabe mencionar que estas dos últimas etapas suelen estar más orientadas hacia proyectos de Business Intelligence, donde la visualización y la comunicación de los resultados juegan un papel central en la toma de decisiones orgnizacionales.
"No todo lo que puede ser contado cuenta, y no todo lo que cuenta puede ser contado"
William Bruce Cameron (1963)
