Text mining

What kind of data should the tool work with?

Con DiscoverText, los usuarios pueden importar datos desde una amplia variedad de fuentes (como Facebook &amp, inicio de Twitter, texto simple, Word, Excel, comentarios públicos de YouTube, blogs o wikis, PDF, entre otros), codificarlos y generar nubes de palabras e informes.

Code license: Closed source
Last updated: 24 Feb 2017

ANNIS is an open source, cross platform (Linux, Mac, Windows), web browser-based search and visualization architecture for complex multi-layer linguistic corpora with diverse types of annotation. ANNIS, which stands for ANNotation of Information Structure, was originally designed to provide access to the data of the SFB 632 - “Information Structure: The Linguistic Means for Structuring Utterances, Sentences and Texts”. It has since then been extended to a large number of projects annotating a variety of phenomena.

Code license: Open source, Apache License
Last updated: 16 Sep 2016

EPPT allows users to encode image-based scholarly editions without having to know XML syntax. It automates or semi-automates repeating attributes, and provides templates to reduce errors and accelerate the encoding process.

Last updated: 9 Aug 2016

TXM

TXM es una multiplataforma de código abierto y libre basado en el software de análisis de texto Unicode, XML y TEI, y utiliza Windows, Mac OS X y Linux. Se encuentra también disponible como un software para portales compatibles J2EE (basados en GWT) para acceso en línea con control de acceso construido. (Para más información, consulte el portal de demostración: http://portal.textometrie.org/demo).

Code license: Open source, GNU GPL v3
Last updated: 29 Jun 2016

IBM AeroText is an information extraction system for developing knowledge-based content analysis applications.

Last updated: 15 Jun 2016

Una base de datos geográfica global que puede ser utilizada para identificar y etiquetar todas las referencias de una ubicación. La base de datos contiene más de 8 millones de entradas, cada una con un nombre geográfico (en varios idiomas), latitud, longitud, altitud, la población, la subdivisión administrativa, código postal e información de particularidades del lugar.
Características:
     Construido sobre la web, permite búsquedas transparentes y el uso de contenidos a través de las herramientas y sitios de terceros

Last updated: 7 Jun 2016

GeoParser is a text analysis tool that may be used to identify and tag references to geographic location in a text resource using Natural Language Processing to analyse the composition of a resource and identifying words that match its geographic database. The approach is useful for processing names that may have one of several locations (e.g. Belfast in Ireland, New Zealand and Canada) and distinguishing names that may be confused with other common words (e.g. Reading in Berkshire and reading as an activity).

Last updated: 7 Jun 2016

El proyecto Alpheios surge con el objetivo de ayudar a las personas a comprender cuál es el modo más eficaz y divertido posible de aprender idiomas, de manera tal que puedan entender su propia herencia literaria y cultural, así como la de otros pueblos de la historia. Una de las herramientas principales, un complemento de Firefox, permite que cuando el lector accede a una página con palabras en latín, griego antiguo o árabe, y hace clic en una palabra, obtenga su definición y análisis morfológico.

Code license: Open source, GNU GPL
Last updated: 7 Jun 2016

CLAW es el software del idioma inglés para llevar a cabo el etiquetado gramatical (POS, por sus siglas en inglés). La clasificación de palabras en una o más categorías basada en su definición, su relación con otras palabras y otros contextos, también conocida como “etiquetado de clase de palabras”.

Code license: Closed source
Last updated: 3 May 2016

TokenX es un entorno web para visualizar , analizar y practicar con piezas de textos. Las opciones que permite realizar son entre otras: nubes de tags, resaltar palabras, palabras claves emergentes desde su contexto , desarrollar un recuento de palabras teniendo en cuenta su contexto o sin él, sustituir palabras y destacar puntuaciones o caracteres no conocidos.
El programa ofrece distintos archivos como modelos , o los usuarios pueden redirigir TokenX hacia un archivo XML online.

Last updated: 19 Apr 2016

TAToo is an embeddable Flash widget that displays TAPOR analytics for the page on which it resides.

Code license: Apache License
Last updated: 23 Feb 2016

The TAPoR Portal is an online environment where users can keep track of texts they want to study (uploaded or available online), learn about and try different tools, and run tools on texts.

Last updated: 23 Feb 2016

PhiloLine is an add-on for the Philologic text retrieval engine that provides a sequence alignment algorithm for humanities text analysis designed to identify "similar passages" in large collections of texts.

Code license: Open source, GNU GPL
Last updated: 22 Feb 2016

Philomine es una extensión para el motor de recuperación de texto Philologic que puede efectuar diferentes tareas para el aprendizaje por computadora, la minería de texto y la agrupación de documentos.

Code license: Open source, GNU GPL
Last updated: 22 Feb 2016

Combinado con Leptonica, la Biblioteca para el Procesamiento de Imágenes, Tesseract puede leer una gran variedad de formatos de imagen y convertirlos a texto en más de 40 idiomas.

Este código es un simple motor de OCR. No tiene formato de salida ni interfaz de usuario. Puede detectar tono fijo y texto proporcional. Sin embargo, en 1995 este motor estaba entre los 3 mejores en términos de precisión de caracteres, y opera tanto en Linux como en Windows. El código de programación está incluido en la versión de código abierto.

Code license: Open source, Apache License
Last updated: 27 Jan 2016

Textal es una aplicación gratuita de iOS para el análisis de textos. Textal permite analizar documentos, cadenas de mensajes en Twitter y páginas web. También posibilita la creación nubes de texto con enlace a los datos fuente. Trae una memoria cargada con un gran número de textos en el dominio público. Las nubes de texto se pueden compartir fácilmente a través de Twitter o por correo electrónico.

Last updated: 18 Dec 2015

Superfastmatch está diseñado para encontrar duplicados exactos de cadenas de texto entre documentos.

Code license: Open source, GNU GPL
Last updated: 1 Dec 2015

Voyeur es un entonro de análisis de texto basado en la web en el cual los usuarios pueden aplicar una amplia variedad de herramientas a cualquier texto que importen.

Last updated: 3 Nov 2015

El programa MONK workbench provee 525 obras de la Literatura de América del siglo XVIII y XIX y 37 obras de teatro y 5 obras de poesía escritas por William Shakespeare, junto con herramientas que permiten la investigación literaria a través del descubrimiento, el análisis y la visualización de patrones.

Last updated: 12 Aug 2015

Philologic se encarga de la búsqueda de textos integrales, y de la recuperación y del análisis de herramientas que pueden utilizarse con programas como TEI-Lite XML/SGML, Unicode, plaintext, Dublin Core/HTML y DocBook.

Code license: GNU GPL, Open source
Last updated: 9 Aug 2015

Programa de análisis de texto bajo estadística de lenguaje natural cuyo objetivo es determinar la estructura gramatical de los textos en cuestión.

Code license: GNU GPL, Open source
Last updated: 18 Jun 2015

Textpresso es un sistema de minería de texto para literatura científica. Los dos elementos principales de Textpresso son (1) el acceso al texto completo, de modo que se pueden hacer búsquedas en artículos enteros, y (2) el uso de categorías de conceptos y clasificaciones de la biología que denotan una relación con un objeto dado (por ejemplo, asociación, regulación, etc.) o que lo describen (por ejemplo, métodos, etc.).

Code license: Open source
Last updated: 28 May 2015

"Linguistic Inquiry and Word Count (LIWC) es un software de análisis de datos para consultas lingüísticas y conteo de palabras... LIWC permite calcular el grado de uso de diversas categorías de palabras a través de un gran conjunto de textos". Análisis web limitado disponible.

Last updated: 23 May 2015

Whatizit puede adquirir hasta 500.000 términos que se copian en el cuadro de texto, para ejecutar cualquier operación de segmentación de análisis de texto predefinida.

Last updated: 23 May 2015

WordSmith permite a los usuarios desarrollar concordancias, encontrar palabras claves y desarrollar lista de palabras a partir de archivos de textos planos.

Last updated: 22 May 2015

Scrapy es una biblioteca de programación de código abierto para el rastreo web y la extracción de texto de las páginas web escritas en Python. Se pueden realizar llamadas con la utilización del código Scrapy desde el interior de las aplicaciones y secuencias propias de cada usuario para así automatizar la tarea de extraer información de los sitios webs.

Code license: Open source
Last updated: 22 May 2015

Diction analiza textos a nivel lingüístico para indicar rasgos como certeza, actividad, optimismo, realismo y frecuencia.

Last updated: 19 May 2015

Lexos es una herramienta en línea que permite al usuario "restregar" (limpiar) los textos, cortar fragmentos en diferentes tamaños, manejar los fragmentos y conjuntos de fragmentos, y elegir a partir de una gama de herramientas de análisis para investigar estos textos.Sus funciones incluyen la construcción de dendogramas, la realización de gráficos sobre promedios móviles de frecuencias de palabras o proporciones de palabras o letras, y el juego con las visualizaciones de las frecuencias de palabras, como nubes de palabras y visualización en burbujas.

Code license: Open source
Last updated: 17 May 2015

CAT es un entorno para la codificación en grupo y el análisis de datasets. Incluye la medición de acuerdos entre pares (inter-rater reliability) . Los usuarios pueden crear una cuenta gratis o descargar la aplicación con ASP.NET para correr el programa de forma independiente.

Last updated: 9 May 2015

AntWordProfiler es un software libre para el análisis de texto. En este caso analiza la frecuencia de palabras.

Last updated: 9 May 2015

Juxta es una herramienta de escritorio multiplataforma y de código abierto para comparar y compilar varios testimonios, convirtiéndolos en un único texto. El programa permite configurar cualquiera de los testimonios como texto de base, agregar o quitar testimonios, cambiar el texto base, hacer anotaciones a las comparaciones generadas por Juxta y guardar los resultados.

Code license: Open source, Creative Commons
Last updated: 4 May 2015

Este programa escanea archivos docx, txt u otros archivos de texto (como HTML y XML) y cuenta las veces que aparece cada palabra o frase (permite el uso de detección de patrones). No hay límite de tamaño para archivo de texto a procesar. Las palabras/frases pueden ordenarse alfabéticamente o por frecuencia.

Code license: Closed source
Last updated: 1 May 2015

Este programa escanea archivos de MS Word docx o archivos de texto (incluyendo archivos HTML y XML) con texto codificado vía ANSI o UTF-8, y cuenta la frecuencia de diferentes palabras. Las palabras encontradas pueden ordenarse alfabéticamente o por frecuencia.

Code license: Closed source
Last updated: 30 Apr 2015

Luego de crear una cuenta gratuita, los usuarios pueden hacer minería de datos y analizar el contenido de JSTOR. Al enviar una solicitud de búsqueda, el usuario recibirá una muestra aleatoria de 1,000 documentos de entre los 4.6 millones alojados en JSTOR; se pueden recibir más documentos contactando a JSTOR directamente. Los usuarios pueden elegir recibir los siguientes resultados:

Last updated: 29 Apr 2015

MorphAdorner es un programa de comandos de Java que canaliza la gestión para procesos de "embellecimiento" morfológicos de palabras en un texto.
Actualmente provee métodos para la mejora de un texto con ortografía estándar, partes de oración o Lemmata.También permite la "tokenización" de texto ( dividir el texto en sentencias-frases-palabras) , reconociendo los límites en una oración , extrayendo nombres y lugares.

Code license: NCSA, Open source
Last updated: 21 Apr 2015

Bitext ofrece tecnologías semánticas multilingües en el campo del Análisis de Texto vía API con servicios como Extracción de Entidades, Extracción de Conceptos, Análisis de Emociones y Categorización de Texto.

Last updated: 25 Mar 2015

JGAAP es un programa para el análisis textual, la categorización de textos y la atribución de autoría.

Last updated: 25 Mar 2015

Este paquete permite a los usuarios formar modelos de temas en MALLET y cargar los resultados directamente en R.

Code license: Open source, MIT License
Last updated: 25 Mar 2015

TAMS Analyzer es un programa que funciona con TAMS y permite asignar códigos etnográficos a fragmentos de un texto simplemente seleccionando el texto correspondiente y haciendo doble clic en el nombre del código de una lista. Una vez hecho esto, permite extraer, analizar y guardar la información codificada.

Code license: Open source, GNU GPL
Last updated: 24 Mar 2015

TextSTAT es un programa simple para el análisis de textos. Lee archivos de texto sin formato (en diferentes codificaciones ) y archivos HTML (directamente desde Internet), y genera listas y concordancias de frecuencia de palabras a partir de los mismos. Incluye un motor de búsqueda automático que lee las páginas web que se le indique y genera con ellas un corpus de TextStat. También posee un lector de noticias que coloca mensajes de noticias en un archivo de corpus legible para TextStat .

Last updated: 24 Mar 2015

VARD 2 is an interactive piece of software produced in Java designed to assist users of historical corpora in dealing with spelling variation, particularly in Early Modern English texts. The tool is intended to be a pre-processor to other corpus linguistic methods such as keyword analysis, collocations and annotation (e.g. POS and semantic tagging), the aim being to improve the accuracy of these tools

Last updated: 19 Feb 2015

A software tool for performing concordance – the analysis of a set of words within its immediate context - on a body of text. The tool performs full concordance, reading and analysing each and every word in a text. It was initially written for the analysis of English texts, but has since been extended to cater for other Western languages. Limited support is also provided for text in East Asian scripts, such as Chinese and Korean.

Features:

Code license: Closed source
Last updated: 11 Feb 2015

AntConc is free concordance software. It is multi-platform and easy to deploy and use.

AntConc is part of a suite of related tools for text processing and analysis, including applications for parallel corpus analysis, word profiling, PDF to text conversion, text structure analysis, detecting and converting character encodings, Japanese and Chinese segmenter and tokenizer, wordclass tagger, and spelling variant anaysis. The developer is currently drafting a more explicit licence for the use of the software.

Last updated: 11 Feb 2015

CATMA (Computer Aided Textual Markup & Analysis) is a free, open source markup and analysis tool from the University of Hamburg's Department of Languages, Literature and Media. It incorporates three interactive modules: (1) The tagger enables flexible and individual textual markup and markup editing. (2) The analyzer incorporates a query language and predefined functions. It also includes a query builder that allows users to construct queries from combinations of pre-defined questions while allowing for manual modification for more specific questions.

Code license: GNU GPL v3
Last updated: 29 Dec 2014

Weka provides machine learning algorithms in Java for data mining and predictive modeling tasks. These algorithms can either be incorporated into other Java code or called from the Weka Workbench, a GUI environment.

Code license: Open source, GNU GPL
Last updated: 29 Dec 2014

PAIR is a sequence alignment algorithm for humanities text analysis designed to identify "similar passages" in large collections of texts. In addition to a Philologic add-on, PAIR is available as Text::Pair, a generalized Perl module that supports one-against-many comparisons. A corpus is indexed and incoming texts are compared against the entire corpus for text reuse.

Code license: Open source, GNU GPL
Last updated: 29 Dec 2014

MONK is a digital environment designed to help humanities scholars discover and analyze patterns in the texts they study.

Last updated: 29 Dec 2014

HyperPo is a user-friendly text exploration and analysis program that allows users to import texts or use texts available online (in English or French), and provides frequency lists of characters, words and series of words, color-coding to indicate repetition, KWIC, co-occurrence and distribution lists, and the ability to simultaneously compare data from multiple texts.

Last updated: 29 Dec 2014

MALLET is a Java-based package for statistical natural language processing, document classification, clustering, topic modeling, information extraction, and other machine learning applications to text.

Code license: CPL, Open source
Last updated: 29 Dec 2014

text analytic and data extraction framework: data and semantic analytics in a suite of business applications.

Last updated: 29 Dec 2014

Basis provides natural language processing technology for the analysis of unstructured multilingual text.

Last updated: 29 Dec 2014

IBM InfoSphere is intended for enterprise-scale data warehouses, delivering access to structured and unstructured information and operational and transactional data.

Last updated: 29 Dec 2014

Netlytic is a web-based system for automated text analysis and discovery of social networks from electronic communication such as emails, forums, blogs and chats.

What can the current version of Netlytic do?
Import and clean your data set from an RSS feed, an external database or a text file
Find and explore emerging themes of discussions
Build and visualize Chain Networks (social networks based on the number of messages exchanged between individuals) and Name Networks (social networks built from mining personal names).

Last updated: 29 Dec 2014

MMax2 is a text annotation tool for creating and visualizing annotations. It has advanced and customizable methods for information and relation visualization.
Features:

  • Determination of the word class / part of speech (POS) for words in a text
  • Determination of word senses, including the disambiguation of homonymous and polysemous words
  • Detection of anaphoric expressions and identification of their antecedents
Last updated: 29 Dec 2014

The main programs that comprise the Information processor are called the analyst server and query or knowledge processor. The analyst program can be called from a command line, from an html form, or through a TCP/IP socket protocol. The query processor can be accessed with any browser using HTML commands. It analyzes text and allows the user to search it.

Code license: Closed source
Last updated: 29 Dec 2014

Wmatrix is web-based software for corpus analysis and comparison. It provides a web interface to the USAS and CLAWS corpus annotation tools, and standard corpus linguistic methodologies such as frequency lists and concordances. It also extends the keywords method to key grammatical categories and key semantic domains.

Last updated: 29 Dec 2014

CHET-C, or Chapel Hill Electronic Text-Converter, is a browser based software tool designed to convert digital texts that employ standard epigraphic conventions such as the Leiden sigla into EpiDoc-compliant XML files.

The tool can be accessed online at http://www.stoa.org/projects/epidoc/stable/chetc-js/chetc.html. Fragments of epigraphic text using standard sigla (eg Leiden convention markup) are pasted into the tool and Epidoc compliant XML is generated.

Code license: Open source, GNU GPL
Last updated: 29 Dec 2014

XSugar is a proof of concept tool for mapping textual content between a flat file schema and XML format. It performs statistical analysis to establish if transformations between the two formats are bi-directional, enabling content that has been converted into an XML format to be re-exported to the original flat file structure, or vice-versa. To validate the conversion, a schema must exist for source and destination formats, e.g. a bespoke XFlat encoded XML document that contains a definition of the structure of a class of flat files, an XML schema.

Features:

Code license: GNU GPL, Open source
Last updated: 29 Dec 2014

CollateX-based text collation client. CollateX, run on an server independent from the URL above, is a powerful, fully automatic, baseless text collation engine for multiple witnesses. A second collation technique, ncritic, provides a slightly different baseless text collation. Each engine complements each other nicely. The user can use different files, even URLs, then output the result in GraphML, TEI, JSON, HTML, or SVG. Fuzzy matching is an option.

Last updated: 29 Dec 2014

Pdf-extract is an open source set of tools and libraries for identifying and extracting semantically significant regions of a scholarly journal article (or conference proceeding) PDF.

Last updated: 29 Dec 2014

An online text analysis tool that provides detailed statistics of your text, including features like the anlysis of words groups, finding out keyword density, analysing the prominence of word or expressions.

Last updated: 29 Dec 2014

Voyant Tools is a web-based reading and analysis environment for digital texts.

Code license: Open source
Last updated: 29 Dec 2014

This online tool can be used for a wide variety of annotation tasks, including visualization and collaboration.

brat is designed in particular for structured annotation, where the notes are not freeform text but have a fixed form that can be automatically processed and "interpreted" by a computer. brat also supports the annotation of n-ary associations that can link together any number of other annotations participating in specific roles. brat also implements a number of features relying on natural language processing techniques to support human annotation efforts.

Last updated: 29 Dec 2014

The term "lexomics" was originally coined to describe the computer-assisted detection of "words" (short sequences of bases) in genomes. When applied to literature as we do here, lexomics is the analysis of the frequency, distribution, and arrangement of words in large-scale patterns. The current suite of lexomics tools are:

  • scrubber -- strips tags, removes stop words, applies lemma lists, and prepares texts for diviText
  • diviText -- cuts texts into chunks in one of three ways, count words, exports the results
Last updated: 29 Dec 2014

The purpose of ATLAS.ti is to help researchers uncover and systematically analyze complex phenomena hidden in text and multimedia data. The program provides tools that let the user locate, code, and annotate findings in primary data material, to weigh and evaluate their importance, and to visualize complex relations between them.

Last updated: 29 Dec 2014

QDA Miner is an easy-to-use mixed-methods qualitative data analysis software package for coding, annotating, retrieving and analyzing small and large collections of documents and images. QDA Miner may be used to analyze interview or focus-group transcripts, legal documents, journal articles, even entire books, as well as drawing, photographs, paintings, and other types of visual documents.

Last updated: 29 Dec 2014

WordStat is a text analysis module for QDA Miner or SimStat. WordStat combines content analysis method by using dictionary approach and many algorithms exploration or various text mining methods. WordStat can apply existing categorization dictionaries to a new text corpus. It also may be used in the development and validation of new categorization dictionaries.

Last updated: 29 Dec 2014

WordCruncher is a text retrieval and analysis program that allows users to index or use a text, including very large multilingual Unicode documents. It supports the addition of tags (such as part of speech, definitions, lemma, etc), graphics, and hyperlinks to text or multimedia files. In addition to supporting contextual and tag searching, WordCruncher also includes many analytical reports, including collocation, vocabulary dispersion, frequency distribution, vocabulary usage, and various other reports.

Last updated: 29 Dec 2014

Nomenklatura is a reference data recon server. It is a service that allows users to define and manage manage lists of canonical entities (e.g. person or organization names) and aliases that connect to one of the canonical entities. This helps to clean up messy data in which a single entity may be referred to by many names.It includes a user interface, an API, and a reconciliation endpoint for OpenRefine for matching data from data sets with the canonical entries.

Code license: Open source
Last updated: 29 Dec 2014

Word and Phrase utilizes the Corpus of Contemporary American English (COCA) to analyze texts for word frequencies, collocations, and concordance lines. Users copy and paste texts into a web interface.

Last updated: 29 Dec 2014
CSV
Subscribe to Text mining