El Procesamiento del Lenguaje Natural al servicio de las subvenciones

Posted by Smartup on 27 agosto
Smartup

El poder identificar a nuestros competidores a la hora de presentarse a subvenciones es vital para obtener el mayor éxito en nuestros proyectos. Saber qué proyectos se relacionan con los nuestros, cuáles son las organizaciones contra las que competimos, qué porcentaje de subvención reciben, etc. es información de gran valor para las empresas. Pero, ¿cómo saber qué proyectos se relacionan con el nuestro? ¿Es posible relacionar proyectos simplemente a partir de su descripción?

El Procesamiento del Lenguaje Natural (NLP) y el Análisis de Redes Sociales (SNA), frecuentemente utilizado en Big Data, son técnicas que, bien empleadas, son capaces de obtener la relación entre proyectos a partir de un texto, como puede ser la descripción de un proyecto.

Como ejemplo, a través del portal de Open Data de la Unión Europea se puede obtener la información de todos los proyectos presentados bajo el programa Horizonte 2020, información entre la que se encuentra la descripción del proyecto en inglés y que nos servirá para establecer relaciones entre los proyectos.

En Smartup, Agencia de Marketing y data y mediante técnicas de NLP, como puede ser el Análisis Semántico Latente (LSA), identificamos grupos de palabras correlacionados dentro de un conjunto de documentos. Estos conjuntos se pueden entender como temas en los que se agrupan las palabras que componen los textos. A partir de estos temas, se determina la similitud entre las descripciones de los proyectos. Estas relaciones se representan mediante un grafo, en las que los nodos son los proyectos y las aristas las relaciones entre dos proyectos. En la imagen inferior se puede ver el grafo obtenido para 11394 proyectos del Horizonte 2020, con un total de 66064 relaciones entre ellos. 

Agencia Data Marketing-1

Pero obtener estas relaciones no es suficiente para obtener información de valor de nuestros competidores. Gracias al SNA, como es la detección de comunidades, se pueden obtener grupos de proyectos que comparten temática. En este caso, además, se ha obtenido el Page Rank de cada proyecto, con el fin de identificar aquellos que pueden ser más importantes dentro del grafo. En total se han obtenido 40 comunidades mediante el método de modularidad de Louvain. En la siguiente imagen hemos aislado una de las comunidades obtenidas, en la que se encuentran un total de 590 proyectos.

Agencia Data Marketing_ComunidadesFinalmente, para entender bien la temática de estas comunidades, las nubes de etiquetas son una buena herramienta que a simpe vista muestran el contenido principal de las descripciones de los proyectos. En este caso, en la imagen inferior se muestra la nube de etiquetas para la comunidad anterior, en donde se puede ver que la temática principal de este grupo está relacionada con la antropología. 

world cloud

¿Y cómo se puede sacar partido de todo lo mostrado? Simplemente, a partir de la descripción de nuestros proyectos podríamos ver en qué grupo de proyectos dentro del grafo se encuentran, ver que proyectos lo forman, cuales son las empresas que participan en dichos proyectos, que financiación han recibido, cuales han sido sus resultados, etc. información de valor que nos puede ayudar a la hora de presentar una subvención. Como podemos ver en la última infografía acabamos el proceso de búsqueda e investigación con una lista ya concreta de los proyectos afines al nuestro dentro de la BBDD de C.O.R.D.I.S que censa más de 18.000 proyectos con los campos claves que nos orientará enormemente a la hora de definir nuestro proyecto.

Agencia Data Marketing_Tabla

 

 

Topics: big data