Para analizar los tópicos de NYT o de tu bitácora preferida
Minería textual o text mining es un método de análisis de datos que promete ser muy útil para sistematizar la información que encontramos en la web, especialmente la información des-estructurada que encontramos en las bitácoras y en otros medios ciudadanos, como Indymedia.
Una nueva técnica para minería textual, basada en el uso de modelos estadísticos para el análisis de tópicos, fue probada en un estudio reciente realizado por investigadores de la University of California – Irvine. El estudio Analyzing Entities and Topics in News Articles Using Statistical Topic Models (Newman, Chemudugunta, Smyth & Steyvers, 2006) puede ser leído en este caché de Google o descargado en formato .pdf (248 kb, EN). El corpus de este estudio fue The New York Times, años 2000-2002; los tópicos analizados incluyen el caso de Elián González, los ataques terroristas de Sep. 11 y el Tour de Francia.
Esta técnica de minería textual:
* Es una combinación de modelos tópicos estadísticos y reconocimiento de entidades nominales.
* Permite extraer tópicos, tendencias y entidades relacionadas.
* Permite conectar entidades (personas u organizaciones) que no han sido mencionadas en el mismo texto pero que aparecen frecuentemente en el mismo tópico, lo cual facilita el establecimiento de redes que representan más precisamente las relaciones sociales.
El programa Matlab Topic Modeling Toolbox 1.3.1 puede ser descargado gratuitamente para fines de investigación o fines educativos; si va a ser utilizado para fines comerciales se debe adquirir una licencia.
Trataré de aplicar esta técnica a las conversaciones en la bitosfera venezolana.











