Matemática Computacional: 18 feb 2010

Sobre la historia del algoritmo PageRank de Google y sobre las publicaciones de los informáticos: "

En este blog ya hablamos de los orígenes del algoritmo PageRank utilizado por Sergey Brin y Larry Page para Google en “La historia oculta detrás del algoritmo PageRank de Google (o Keller, Keener, Page, Brin y Kleinberg),” 21 Octubre 2008, que sé que interesó a muchos de los lectores de este blog.

Massimo Franceschet ha estudiado la historia de este algoritmo en detalle y ha encontrado sus orígenes en la sociología y la economía en su artículo “PageRank: Stand on the shoulders of giants,” ArXiv, 15 Feb 2010. Los interesados en un resumen breve de la historia pueden recurrir a KentuckyFC, “Scientist Finds PageRank-Type Algorithm from the 1940s,” the physics ArXiv Blog, February 17, 2010. Este artículo no podía pasar desapercibido a muchos por lo que mezvan ya lo ha meneado como “Los orígenes del famoso algoritmo PageRank se remontan a 1941,” donde nos dice que “En 1941, Wassily Leontief publicó un documento en el que se divide la economía de un país en dos sectores que la ofertaban y demandaban recursos entre sí, aunque no en igual medida. Surgió la pregunta: ¿cuál es el valor de cada sector, al estar tan estrechamente integrados? La respuesta de Leontief fue desarrollar un método iterativo de valoración de cada sector sobre la base de la importancia de los sectores que abastecen. ¿Suena familiar? En 1973, Leontief fue galardonado con el Premio Nobel de Economía por este trabajo …“

BTW (por cierto), yo leí a KentuckyFC ayer por la tarde y pensé en menear el artículo que seguramente llegaría a portada (y ha llegado), pero soy incapaz de conectarme a Menéame, por alguna razón han dado de baja a mi usuario y el sistema recuperación de claves me envía un correo electrónico con un enlace que sigo y me lleva a la parte pública de mi página, pero no me permite cambiar la clave. Por ello no tengo acceso… no sé si le habrá pasado a alguien más. No puedo comentar las noticias y sólo puedo votar algunas de forma Anónima… Seguramente acabaré creando una cuenta nueva…

Pero vayamos al grano. Franceschet ha publicado artículos muy interesantes sobre bibliometría, sobre todo para los informáticos.

Massimo Franceschet, “The role of conference publications in computer science: a bibliometric view,” January 20, 2010. “En informática, desde una perspectiva bibliométrica, la mejor estrategia para ganar impacto es publicar pocas contribuciones de gran calidad en revistas indexadas, en lugar de muchos trabajos prematuros (“publishing quarks“) en conferencias internacionales.” La conclusión puede parecer obvia pero no lo es. En España, en Informática mucha gente presume de sus publicaciones en Congresos Internacionales de Gran Prestigio y presume que publicar en muchos de ellos es mucho más difícil que publicar en muchas revistas. Para llegar a su conclusión Massimo ha realizado un análisis bibliométrico de la información bibliográfica en DBLP (que incluye tanto revistas como conferencias internacionales). Su estudio ha mostrado que en media, un artículo en una revista es citado 5,41 veces, mientras que un artículo en una conferencia sólo 0,71 veces. Os dejo las conclusiones en inglés, porque sé que a los informáticos os gusta leer estas cosas en inglés… aunque sea un tirón de orejas.

CONCLUSIONS: (i) computer scientists publish more in conference proceedings than in archival journals; (ii) the impact of journal publications is significantly higher than the impact of conference papers. The take-home message for the computer science community might be the following: while it is harder to get published in journals, the effort is ultimately rewarded with a higher impact. From a bibliometric perspective, the best strategy to gain impact seems to be that of publishing few, final, and well-polished contributions in archival journals, instead of many premature ‘publishing quarks’ in conference proceedings.

Eres investigador, tienes un artículo “maravilloso” y quieres que sea publico. ¿Qué debes buscar una revista de prestigio o una de fama (popularidad)? ¿No lo es mismo prestigio y fama? Parece una “chorrada” pero la bibliometría, entre otros objetivos, tiene por obligación resolver este tipo de cuestiones y Massimo Franceschet recoge el testigo en “The difference between popularity and prestige in the sciences and in the social sciences: a bibliometric analysis,” Preprint submitted to Elsevier January 18, 2010. La popularidad de una revista internacional se mide por el número de sus citas y su índice de impacto, pero el prestigio requiere un cálculo más complicado, similar al uso de un algoritmo de tipo PageRank de Google (Massimo es “amante” del eigenfactor). El estudio de Massimo demuestra que prestigio=fama en muchos campos, como las Geociencias, Biología, Medicina y Ciencias Sociales, pero no en todos, diferenciándose en campos como la Física, la Ingeniería, las Ciencia de los Materiales y la Informática. Según su estudio las revistas se pueden clasificar en cuatro categorías:

1. revistas prestigiosas y populares; reciben muchas citas y son citadas por otras revistas prestigiosas.

2. revistas que ni son prestigiosas ni son populares; reciben pocas citas y éstas provienen de revistas “oscuras.”

3. revistas que son populares pero no son prestigiosas; tienen un alto número de citas por artículo, pero la mayoría provienen de revistas de poco prestigio. Estas revistas no están necesariamente muy citadas.

4. revistas que son prestigiosas pero poco populares; reciben pocas citas comparado con el número de artículos que publican pero las reciben desde revistas muy prestigiosas. Estas revistas no están necesariamente poco citadas.

Nadie tiene dudas respecto a las revistas en las categorías 1 y 2, pero el status de las revistas en las categorías 3 y 4 es muy controvertido. Massimo recomienda que para comparar revistas en estas dos últimas categorías, el eigenfactor es el mejor índice bibliométrico.

Finalmente, si eres informático, te recomiendo ”The skewness of computer science,” ArXiv, last revised 15 Feb 2010, donde Massimo afirma que “Computer science is a relatively young discipline combining science, engineering, and mathematics. (…) In the computer science publication culture, conferences are an important vehicle to quickly move ideas, and journals often publish deeper versions of papers already presented at conferences. (…) The skewness in the distribution of mean citedness of different venues combines with the asymmetry in citedness of articles in each venue, resulting in a highly asymmetric citation distribution with a power law tail. Furthermore, the skewness of conference publications is more pronounced than the asymmetry of journal papers. Finally, the impact of journal papers, as measured with bibliometric indicators, largely dominates that of proceeding papers.” Digo yo que los informáticos tendrán que aplicarse el “parche” y tener en cuenta estos estudios…