web crawler

What kind of data should the tool work with?

Bibliopedia lleva a cabo técnicas avanzas de extracción de datos y referencias cruzadas de literatura académica para crear un colaboratorio centrado en humanidades. Como un prototipo, busca herramientas como JSTOR y la Bibilioteca del Congreso de Estados Unidos para encontrar metadatos acerca de artículos académicos y libros que mencionan las narrativas de viaje medievales más famosas . “The Travels of Sir John Mandeville” , analiza los artículos y libros para las citas, luego guarda los resultados en una base de datos de acceso para todo público.

Code license: Open source
Last updated: 2 Jul 2015

Heritrix es un rastreador web usado por el Archivo de Internet, que ofrece una interfaz de usuario basada en la web luego de una configuración inicial en una máquina de Linux. También utilizado por la Biblioteca del Congreso de los Estados Unidos, Heritrix captura metadatos en el formato Web ARChive (WARC).

Code license: Open source, Apache License
Last updated: 6 May 2015

SiteSucker es un programa OSX e iOS que puede descargar sitios web completos, incluyendo imágenes y vídeos.

Last updated: 6 May 2015

HTTrack es una interfaz fácil de usar que sirve para descargar sitios web (inclusive HTML, imágenes y otros archivos) o para actualizar una copia de un sitio previamente descargado.

Code license: Open source, GNU GPL
Last updated: 6 May 2015

DownThemAll is a Firefox plugin that allows users to download all the links or images contained in a webpage.

Last updated: 29 Dec 2014

GNU Wget is a free software package for retrieving files using HTTP, HTTPS and FTP.

Code license: Open source, GNU GPL
Last updated: 29 Dec 2014

PDFmyURL converts websites to PDFs. Premium, paid features include watermarks and preference configuration (e.g. paper size, table of contents, disabling/enabling links, etc.)

Last updated: 29 Dec 2014

Pattern is a Python web mining module with tools for data retrieval (Google + Twitter + Wikipedia API, web spider, HTML DOM parser), text analysis (rule-based shallow parser, WordNet interface, syntactical + semantical n-gram search algorithm, tf-idf + cosine similarity + LSA metrics) and data visualization (graph networks).

Code license: BSD, Open source
Last updated: 29 Dec 2014

SiteCrawler is a website downloading application that allows users to capture entire sites or selected portions of sites like image galleries.

Code license: Closed source
Last updated: 29 Dec 2014
CSV
Subscribe to web crawler