A comienzos del 2007 tuve el inmenso privilegio de asistir a un curso único: Visualización de Información enseñado por Ben Fry (creador de Processing) y Golan Levin, reconocido artista digital. Este curso (único e irrepetible en su especie), se centró en el proceso de generar visualizaciones a partir de grandes cuerpos de datos. El énfasis no estaba puesto en el despliegue técnico —o la proeza del código— sino la capacidad de poder urdir narrativas interesantes a partir de un montón amorfo de data.
La metodología de trabajo fue la siguiente, siguiendo la propuesta por Ben Fry en su tesis doctoral, Computational Information Design.
- Adquisición de datos: Recolección y catastro de datos dinámicos y cambiantes
- Análisis de datos: (eng: Parsing) Formateo de datos de acuerdo al uso, conexión de la data a la aplicación propia.
- Filtración de datos: Automatización de procesos manuales que tienden a ser altamente tediosos
- Data mining: Estracción de datos significativos
- Representación: Elección y diseño del lenguaje visual, prototipado
- Refinación: Cambio o ajuste de las leyes de representación
- Interacción: Transición contínua entre los diversos estados o puntos de vista alternativos, navegación y adaptación por parte del usuario.
Claramente la parte más sucia del proceso es la adquisición de datos porque generalmente hay que sacarlos de lugares donde no los quieren prestar. Hay que construir robots que roben sistemáticamente los datos de determinado sitio web (pero no tan sistemáticamente, para que no te pillen y bloqueen tu IP) buscar y escarbar en tablas HTML, lipiar tags inútiles, etc.
Responder a Visualización de datos, el próximo desafío | Taller Digital Cancelar respuesta