No suma cero

July 27, 2006

Para analizar los tópicos de NYT o de tu bitácora preferida

Categoría Minería textual - nosumacero @ 9:14 pm

 Minería textual o text mining es un método de análisis de datos que promete ser muy útil para sistematizar la información que encontramos en la web, especialmente la información des-estructurada que encontramos en las bitácoras y en otros medios ciudadanos, como Indymedia.

Una nueva técnica para minería textual, basada en el uso de modelos estadísticos para el análisis de tópicos, fue probada en un estudio reciente realizado por investigadores de la University of California – Irvine. El estudio Analyzing Entities and Topics in News Articles Using Statistical Topic Models (Newman, Chemudugunta, Smyth & Steyvers, 2006) puede ser leído en este caché de Google o descargado en formato .pdf (248 kb, EN). El corpus de este estudio fue The New York Times, años 2000-2002; los tópicos analizados incluyen el caso de Elián González, los ataques terroristas de Sep. 11 y el Tour de Francia.

Esta técnica de minería textual:

* Es una combinación de modelos tópicos estadísticos y reconocimiento de entidades nominales.

* Permite extraer tópicos, tendencias y entidades relacionadas.

* Permite conectar entidades (personas u organizaciones) que no han sido mencionadas en el mismo texto pero que aparecen frecuentemente en el mismo tópico, lo cual facilita el establecimiento de redes que representan más precisamente las relaciones sociales.

 

El programa Matlab Topic Modeling Toolbox 1.3.1 puede ser descargado gratuitamente para fines de investigación o fines educativos; si va a ser utilizado para fines comerciales se debe adquirir una licencia.
 

Trataré de aplicar esta técnica a las conversaciones en la bitosfera venezolana.

text mining / minado textual

Comentarios »

URI para referencias a esta nota http://nosumacero.blogsome.com/2006/07/27/para-analizar-los-topicos-de-nyt-o-de-tu-bitacora-preferida/trackback/

Sin puntos compartidos

RSS para comentarios a esta nota.

Comenta

Líneas y saltos de párrafo automáticos. Correo electrónico no será publicado. Etiquetas HTML permitidas: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>



Anti-spam: Por favor, transcriba el código en la caja de texto.

Creative Commons License
Esta obra es publicada bajo una licencia Creative Commons.

Get free blog up and running in minutes with Blogsome
Theme designed by Alex King

BloGalaxia Directorio de Blogs de Venezuela Unión de Bloggers Hispanos Cambia a Firefox!