Las matemáticas de Google: un algoritmo Marie Kondo para poner orden en la red

Un 1 seguido de 100 ceros. Esto es un gúgol o googol después de que un niño de 9 años, Milton Sirotta, bautizase así el número. Lo hacía preguntado por su tío, el matemático norteamericano Edward Kasner, quien le pidió que propusiera un nombre «para un número muy grande». Décadas después, este nombre serviría de inspiración para bautizar el motor de búsqueda más utilizado del mundo.

Pero Google no fue siempre Google. En 1995 dos estudiantes de Ciencias de la Computación en la Universidad de Stanford, Larry Page y Sergey Brin, comenzaron a trabajar juntos en la creación de un motor de búsqueda que utilizaba enlaces para determinar la importancia de cada página en Internet. A este proyecto lo llamaron BackRub.

Poco después, en agosto de 1996, se lanzó ya la primera versión de Google dentro de una página web de la universidad. El proyecto utilizaba casi la mitad del ancho de banda de la red de esta institución. Justo dos años después, Andy Bechtolsheim, cofundador de Sun Microsystems, invertía 100.000 dólares en este proyecto, lo que permitió a sus fundadores constituir oficialmente Google Inc. y mudarse desde sus dormitorios a su primera oficina: un garaje en las afueras de Menlo Park (California). «Ordenadores anticuados, una mesa de ping-pong y una alfombra de color azul intenso fueron el escenario de sus primeros días y sus largas noches de trabajo», describen ellos mismos.

http://infolab.stanford.edu/pub/voy/museum/pictures/display/0-4-Google.htm

Cuando ese garaje también se quedó pequeño, el equipo de Google –ya con más empleados– trasladó su sede a Mountain View (California), donde todavía se encuentra. Por cierto, a esta oficina central se la conoce como 'Googleplex'. ¿Y qué es un googolplex o gúgolplex? Pues un uno seguido de un gúgol de ceros. Algo todavía más grande. Algo definido en su principio como «un uno seguido de ceros hasta que te canses de escribir».


El secreto está en las matemáticas

Ahora Google ya no es un 'simple' buscador. La compañía cuenta con más de 60.000 empleados y empleadas en 50 países y desarrolla sistemas y herramientas usados en todo el mundo: YouTube, Gmail, Google Translate, Google Maps, Chrome, Android, Google Drive, Google Docs, Hangouts, Google Earth, Blogger… Google –o mejor dicho, la publicidad en Google mediante Google Ads– también resulta fundamental dentro del marketing online. Posicionar la web en el buscador, tanto pagando mediante SEM (Search Engine Marketing) como orgánicamente mediante SEO (Search Engine Optimization) es imprescindible para atraer potenciales clientes.

La historia de Google es una historia de éxito –aunque no exenta de polémicas–. Habrá una pizca de suerte en su receta, pero sin duda un ingrediente muy importante son las matemáticas, y en concreto el algoritmo PageRank, desarrollado por Page y Brin. Este algoritmo, que representa la probabilidad de que una persona llegue a una página en concreto clicando sobre enlaces de manera aleatoria, permite asignar un valor numérico del 1 al 10 a una página web en el listado de búsqueda de acuerdo con criterios como la relevancia, la calidad y la autoridad del sitio. Con el paso del tiempo, el algoritmo de Google ha sido actualizado periódicamente para poder ofrecer a los usuarios el contenido que más se ajuste a sus necesidades. Se puede observar a continuación en este par de infografías (sí, encontradas en Google).



El algoritmo inicial desarrollado por Page y Brin se puede encontrar en el paper 'The Anatomy of a Large-Scale Hypertextual Web Search Engine', donde sus creadores presentaban por primera vez «el prototipo» Google. Decían: «El motor de búsqueda de Google tiene dos características importantes que lo ayudan a producir resultados de alta precisión. Primero, hace uso de la estructura de enlaces de la Web para calcular un ranking de calidad para cada página. Esta clasificación se llama PageRank y se describe en detalle en la página 98. En segundo lugar, Google utiliza enlaces para mejorar los resultados de búsqueda».

El Marie Kondo de la Web

PageRank llegaba para priorizar los resultados de las búsquedas, para «poner orden en la Web», como Marie Kondo en sus mejores sueños. Así definían Page y Brin el algoritmo en el artículo: 

We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages' PageRanks will be one.

De la maraña digital compuesta por páginas y enlaces (o nodos y aristas, en teoría de grafos), el algoritmo establece cuáles son las más relevantes para mostrarlas en primera posición. En este ranking, el número y la calidad de los enlaces que dirigen hacia una determinada página es clave. Así, el buscador de Google tiene en cuenta tanto el número de páginas que enlazan a la página que se está valorando, como la relevancia de esas páginas que la enlazan.

Ejemplo del funcionamiento de Page Rank para la valoración de las páginas (de 345Kai en Wikipedia)

Para entrar en más detalle, en estos artículos se ofrece una explicación de cómo funciona el PageRank: 'Es mi internet y busco como quiero', 'PageRank y el Surfista Aleatorio' y 'Las matemáticas que hay detrás del algoritmo de Google'.

Saber qué hacer con la caja de herramientas

Google, pues, es una historia de éxito basada en las matemáticas, y regada de suerte e inspiración. Así lo describía la matemática Clara Grima en una entrevista para El Salto: «[Google] es una obra de arte y se hace con unas matemáticas muy sencillas que es un poquito de teoría de grafos, estadística y álgebra. Esas matemáticas estaban ahí antes de que ellos las usaran. Igual que estaban ahí la pintura blanca y negra y nadie hizo un Guernica. No es solo tener los instrumentos. Es encontrar la inspiración. Es hacer arte.»

De hecho, antes de que viera la luz el ahora todopoderoso Google ya existía Yahoo!, fundada en 1994 por otros dos estudiantes de la Universidad de Stanford, Jerry Yang y David Filo, y constituida como empresa en 1995. Pero una serie de errores y oportunidades perdidas le obligaron a abandonar su reinado. Uno de estos errores fue precisamente rechazar en 1998 la operación de compra del algoritmo PageRank. 

Luego, en el 2000, Yahoo dio otro paso en falso: externalizar su tecnología de búsqueda a Google. El buscador de Yahoo era rudimentario, con un índice elaborado por personas, no algoritmos. Y cuando las búsquedas no producían resultados, recurría a buscadores automatizados como OpenText y Altavista primero, y más tarde Google. Eso es: el gigante de Internet a mediados de los 90 pasó a ser dependiente del nuevo buscador y eclipsado por este. 

Imagen de cabecera: foto de Mitchell Luo en Unsplash

Comentarios