Source Forge Discoverer

 

Ya he añadido los ficheros correspondientes al job SourceForge Discoverer con sus correspondientes transformaciones. Este trabajo se encarga de obtener, mediante peticiones rss, los nombres de todos los proyectos alojados en SourceForge y almacenarlos en la base de datos.

También se ha añadido el fichero uri.txt, que sirve para almacenar cual fue la última URI de la que se obtuvieron los nombres de los proyectos. De esta manera, si el proceso se para, voluntaria o inesperedamente, podremos continuar la descarga por donde íbamos y evitar así empezar de nuevo.

Si queréis probarlo deberéis configurar algunas cosas en Pentaho:

  • Configurar la conexión a la base de datos [1]
  • Pentaho no permite el uso de rutas relativas, por lo que en la configuración actual el tratará de leer el fichero uri.txt de un directorio local a mi ordenador. Para arreglarlo existen dos opciones. La primera consiste en cambiar el parámetro DATA_PATH_1 de todas las transformaciones/trabajos en Edit/Settings/Parameters y poniendo en el valor por defecto la ruta en la que vosotros tenéis alojado el fichero uri.txt. La segunda solución se basa en modificar las tareas ‘Source Forge Parameters Generator’/'Text File Input’ y ‘Source Forge URI Holder’/'Text File Output’  especificando la ruta correcta del fichero uri.txt
  •  Para disminuir los tiempos de carga de la base de datos he anulado algunas restricciones y es posible que al ejecutarlo os de algún fallo de clave foránea. De nuevo existen dos opciones: Quitar la restricción de claves foráneas de la tabla projects o esperar a que, en unos días suba un script que rellenará dicha tabla.

El siguiente paso es algo más duro. Debemos descargar los ficheros RDF asociados a los proyectos de los cuales acabamos de obtener los nombres. Estos RDF son: un DOAP con la información general del proyecto, ficheros que contienen información de los Tickets y ficheros que contienen información de las descargas.

 

Veamos cómo se me da la cosa. Saludos.

 

PD: Este viernes, seguramente, me pase por OpenData Sevilla para aprender un poco más de este mundillo. Os animo a todos a asistir.

 

[1] http://wiki.pentaho.com/display/ServerDoc1x/01.+Setting+Up+Your+Database+Connections

About these ads

Deja un comentario

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Conectando a %s