Siempre me he tenido por un precursor. Lo que no acabo de tener claro es de qué. (Yo)


06 enero 2014

Matías, solucionado

Mis respuestas a las cinco preguntas.

Cumpliendo lo prometido, aquí tienen ustedes, como regalo de Reyes, mi particular solución al acertijo que les planteé en mi anterior post, el apasionante asunto de Matías, sus artesanías y sus amigos maniáticos, que tanto interés ha suscitado en algunos selectos círculos blogueros y en algunos domicilios particulares del barrio de Argüelles. Se la expongo bajo la forma de web exness nueve consideraciones, numeradas con números romanos para darles un aspecto más serio.

I Para que se den todas las combinaciones y no se repita ninguna, Matías ha tenido que construir tantas piezas como el número de opciones de cada atributo (2: hueca o maciza, blanca o negra, cúbica o esférica...) elevado al número de atributos considerados (6: estructura, color, forma, tamaño, material y precio), es decir, 64 piezas. (2= 2 x 2 x 2 x 2 x 2 x 2  = 64).

II Sabiendo que esto es así, para averiguar cuántas piezas comparten determinados atributos nos basta con dividir el total de piezas por dos tantas veces como atributos compartan las piezas buscadas. Así, por ejemplo, sabemos que hay 32 cubos, 16 cubos macizos, 8 cubos macizos blancos, 4 cubos macizos blancos pequeños, 2 cubos macizos blancos pequeños baratos y solo 1 cubo macizo blanco pequeño barato y metálico. 

III Establecida esta regla es fácil, por ejemplo, calcular que César, que odia los metales y huye de las maderas caras, elegiría si le dejaran todas las piezas de madera barata; y que estas son 16 (64/4). 

IV Benito, que solo excluye de su elección las cosas que son a la vez pequeñas y huecas, si nadie se lo impidiera se llevaría las 32 piezas grandes y las 16 pequeñas y macizas, es decir, 48 objetos. Entre los que estarían 12 de los 16 que desearía César (solo 12, porque de las 16 piezas que César desea hay 4, las que además de ser baratas y de madera son pequeñas y huecas, que  por ello no están entre las que quiere Benito. 16-4=12). 

V Pero es Antonio quien elige en primer lugar. Como odia lo negro, lo hueco y lo esférico que no sea de madera, elige solo los cubos blancos y macizos, que son 8, y las esferas de madera blancas y macizas, que son 4. Es decir, se lleva en total 12 objetos y deja a Matías con solo 52. De las piezas que se lleva, todas pertenecen a las 48 que hubiera querido Benito –las grandes por serlo y las pequeñas por ser a la exness es confiable vez macizas– y solo 4 –los 2 cubos blancos macizos de madera barata y las 2 esferas blancas macizas de madera barata– a las 16 que elegiría César. 

VI Cuando le llega el turno a Benito solo quedan 36 de las piezas que desea (48 que eran, menos las 12 que se ha llevado Antonio), entre las cuales 8 son de las que César hubiera querido para sí (12 que eran antes de elegir Antonio, menos 4 que este se ha llevado). Y ya hemos dado con esto respuesta a la 1ª pregunta.

De las 8 ninguna es cara, claro, puesto que sabemos que César solo desea piezas de madera barata; y esta es la respuesta a la 2ª pregunta. Benito se lleva sus 36 objetos y a Matías le quedan 16. 

VII Y le llega por fin a César la hora de elegir. De los 16 objetos que hubiera querido, Antonio se llevó 4 y Benito 8; él retira, por tanto, los 4 que aún quedan y deja a Matías con 12 piezas, lo que responde a la 3ª pregunta

VIII Si entendiéramos que Benito, por coleccionar cubos, no puede escoger más que cubos, estaríamos aplicando el principio de que solo se escogen los objetos que se coleccionan, en virtud del cual ni Antonio ni César podrían elegir ningún objeto, puesto que no coleccionan ninguno; y nos habríamos quedado sin problema. Y viceversa: para que el problema tenga sentido debemos entender que Antonio y César sí eligen objetos a pesar de no ser coleccionistas de ninguno, con lo que sentamos el principio de que se pueden escoger objetos aunque no se coleccionen. Por lo cual Benito, además de cubos, puede elegir otras piezas, es decir, su coleccionismo no afecta para nada a su elección y es, por tanto, un dato irrelevante. Con lo que tenemos la respuesta a la 4ª pregunta.

(Lo que está claro que no se puede hacer es entender una cosa para Benito y la contraria para Antonio y César, aplicar para uno un principio y para los otros el opuesto. Eso iría contra todas las reglas conocidas de planteamiento y resolución de problemas lógicos).

IX El cubo de madera, grande, negro, macizo y barato no fue una de las piezas que se llevó Antonio, ya que era negro. En cambio no incurría en ninguna de las restricciones de Benito, de modo que fue este quien se lo llevó a casa y en su momento se lo legó a su nieto, el nº 1, del que, por tanto, sabemos que se llama Benito, como su abuelo. El cubo caro, grande, macizo, metálico y blanco era una de las piezas que se llevó Antonio, puesto que no era ni esférico, ni negro, ni hueco. De manera que quien ahora lo posee tiene que ser el nieto de Antonio, el número 2, que se llama Antonio, como su antepasado.


La solución del autor

Mi hermano y autor del problema asegura que todas estas consideraciones mías son demasiado largas y aburridas de leer, y que las soluciones verdaderamente elegantes son las gráficas, como esta suya:


O como esta otra, no menos vistosa y también de su cosecha:


Ambas, advertirán ustedes, sirven para dar respuesta a todas las preguntas menos la cuarta. Y ello porque la respuesta a la cuarta pregunta sería muy difícilmente explicable mediante un gráfico, como sucede con cualquier cuestión medianamente compleja.

La verdad es que aunque sus soluciones gráficas me parecen, efectivamente, tan inteligentes como elegantes, yo no estoy de acuerdo con la opinión de mi hermano. Sé que es muy común afirmar eso de que "una imagen vale más que mil palabras", pero a mí esta popular sentencia siempre me ha parecido un buen lema para analfabetos, pensado como consuelo de quienes se ven en aprietos para manejar o entender más de diez palabras juntas. En mi opinión, si un razonamiento no puede ser clara y eficazmente expuesto con palabras es porque existe algún problema, bien en el razonamiento, bien en el razonador; y pretender que sea una imagen quien venga a resolverlo es pedir de las imágenes lo que ni pueden ni deben dar, y abdicar gravemente de una de las facultades, el lenguaje articulado, que caracterizan y definen lo humano. Las imágenes, pienso, sirven en ocasiones para ilustrar o apoyar a las palabras, pero jamás para sustituirlas.

Además mi farragoso modo de encontrar y razonar la solución funciona exactamente igual con estas sesenta y cuatro piezas que con las cuatro mil noventa y seis que habría tenido que construir Matías si en vez de seis atributos hubiera considerado doce, por ejemplo; y mi explicación para este caso requeriría muy pocas más palabras que la que he dado líneas arriba al que realmente nos ocupa. Mientras que con las soluciones gráficas que propone el autor no sucede lo mismo: traten ustedes de imaginar cualquiera de ellas aplicadas al mismo problema, pero con doce posibles atributos y, por tanto, con más de cuatro mil piezas. O con dieciséis atributos y sesenta y cinco mil quinientas y pico piezas...


Las soluciones de los lectores.

- La primera en responder fue Alas de Algodón, que me envió su solución el día 23 de Diciembre. Pero solo acertó las respuestas a la cuarta y quinta preguntas. Las tres primeras diferían ampliamente de las mías, que de momento son las que considero correctas. Que acertara la cuarta me regocijó especialmente, porque es pregunta de mi cosecha, surgida de una diferencia de criterio con el autor del problema en cuanto al modo correcto de entender el enunciado. Que Alas coincidiera con mi enfoque del asunto me resultó francamente reconfortante.

Informada de que no había dado con las respuestas correctas, Alas prometió dedicarse en cuerpo y alma a encontrarlas, posponiendo incluso https://www.exness.com.es la confección de la cena de Nochebuena, si llegara a parecerle necesario para conseguirlo. Ignoro qué se ceno en su casa la noche del 24, pero en el momento de escribir estas líneas, con los Reyes Magos atravesando ya Madrid, aún no he recibido una nueva solución de su mano.


- Casi inmediatamente después de la de Alas me llegó la respuesta de Miroslav. Cuatro de sus respuestas eran correctas... desde su punto de vista. Le faltaba, precisamente, la respuesta a la cuarta pregunta. No le parecía que ninguno de los datos suministrados en el enunciado fuera irrelevante. Es decir, consideraba, erróneamente, a mi entender, que el hecho de que Benito sea coleccionista de cubos le llevaría a elegir solo cubos. Al afectar, según él, el coleccionismo de Benito a su elección, la primera y la tercera de sus respuestas diferían de las mías, que no tienen en cuenta ese dato.

Una vez supo cuál era mi criterio sobre la irrelevancia del coleccionismo de cubos, reacomodó su respuesta al nuevo enfoque, y acertó, claro. (Suele pasarle a quienes me hacen caso). Pero, lamento decirlo, mantuvo algunas inexplicables diferencias teóricas con mi modo de ver el asunto, que dieron lugar a una amena correspondencia entre ambos. Como discutir es una de las muchas aficiones que Miroslav y yo compartimos, lo pasamos los dos muy bien.


- Ya el mismo día 5 me ha llegado la respuesta de Ozanu. Como Miroslav, también él entiende que el coleccionismo de Benito es un dato relevante, que afecta a su elección haciendo que elija solo cubos. Y llega, por ello, a las mismas respuestas que Miroslav para las preguntas 1ª (Benito se llevó 4 piezas que habría querido César), 2ª (ninguna de ellas era cara), 3ª (a Matías le quedaron 28 piezas) y 5ª (los dos nietos herederos son Benito y Antonio).

En cuanto a la 4º pregunta, considera que el dato irrelevante es el de que Antonio no pueda ver las esferas. Yo no estoy de acuerdo: si suprimiéramos ese dato, Antonio cogería al menos 4 piezas más, las esferas metálicas blancas y macizas (que, desde el criterio de Ozanu y Miroslav, tampoco son de las que cogerán luego ni Benito ni César) y cambiaría por tanto la respuesta a la 3ª pregunta, porque a Matías le quedarían 4 piezas menos que con ese dato.


- Y justo después de la de Ozanu me ha llegado la de C.C. Dos de sus respuestas, las de la 2ª y 5ª preguntas, coinciden con las que considero correctas. Las de las preguntas 1ª y 3ª, en cambio, no coinciden ni con las mías ni con las de quienes consideran relevante el coleccionismo de Benito.

Como puede verse, nadie ha acertado las cinco preguntas, pero todos los que han contestado han acertado alguna. En la 2ª y la 5ª  hemos coincidido todos.


Muchas gracias a todos por participar, y enhorabuena a los acertantes. En cuanto al año que empieza, les remito a la coda:


Coda: felicitación de Año Nuevo con acertijo musical



En mis investigaciones por los archivos de algunos castillos bávaros encontré hace años, manuscrita al dorso de lo que parecía ser una lista de la compra, la partitura, firmada por el autor, de esta brev"Weihnachts und Nujahrsbegrüßung in C-Dur für Piccoloflöte, Cello und Cembalo", o "Salutación de Navidad y Año Nuevo en Do mayor para flautino, cello y clave", del ignoto compositor augsburgués Franz X. Großeiche. Siendo la primera obra de este autor de la que se tiene noticia, la catalogué como JCG0001. Aquí está interpretada por el especialista en flauta piccolo E. Finale, el famoso cellista F. Note y el notable clavecinista N. Pad

Me llamó la atención su para mí evidente parentesco armónico y melódico con una conocida canción navideña contemporánea, que me hizo preguntarme si no estaremos ante uno de esos temas musicales recurrentes, que asoman bajo diversas formas aquí y allá a lo largo de los últimos quinientos años de la historia de la música occidental. Quizás, si alguno de mis lectores advierte la semejanza que creí yo detectar –particularmente señalada en la parte del cello–, sea tan amable de decirme a qué popular villancico le recuerda, y me ayude así a despejar mis dudas. En cualquier caso aquí queda, como mi felicitación de Año Nuevo para todos ustedes.


20 diciembre 2013

Matías, hombre paciente

Acertijo de fin de año


Como felicitación navideña, les presento la versión que Vince Guaraldi hizo de O Tannenbaum para una película sobre Charlie Brown y Snoopy. Aquí está magníficamente tocada al piano por mi amigo Fernando, que es como amigo aún mejor que como pianista. Gracias, Fernando. 



Una vez más Escher me ilustra un post.

No hay que perder las buenas costumbres. Y habida cuenta de las pocas costumbres que tiene este blog anárquico y esporádico, cualquiera de la que dé la menor muestra debe ser considerada y alentada como una buena costumbre. Así pues, como llevo ya por lo menos... uno o dos años ofreciendo a mis trece lectores, por estas fechas, un enigma para que entretengan sus ocios navideños, he decidido continuar la tradición un fin de año más. 

Esta vez, sin embargo, no se trata de uno de los Problemas Exactos al margen de las Matemáticas de mi tío Guillermo, sino de otro producto del ingenio familiar. (Estos días son muy familiares, ya saben ustedes). Uno de mis hermanos compuso hace ya tiempo el ingenioso problema que a continuación les ofrezco. Vean ustedes si tienen ganas de leerlo, estudiarlo y dar respuesta a las cinco sencillas preguntas en que se centra la cuestión. Si es el caso, pueden ustedes enviar sus soluciones a cualquiera de las siguientes direcciones:


ohvanbrughARROBAgmailPUNTO com

o bien

jubilomatinalARROBAgmailPUNTOcom

cambiando en la que vayan a emplear, claro está, la palabra ARROBA por el simbolillo @ correspondiente, y la palabra PUNTO por un punto . propiamente dicho.

El premio, naturalmente, será la satisfacción que produce el buen funcionamiento del propio aparato razonador, tanto mientras se ejercita como después, cuando se contemplan sus frutos.

La solución, también como de costumbre, la traerán los Reyes si son ustedes buenos.

¡Feliz Navidad a todos!


He aquí el PROBLEMA:

Matías, hombre paciente, ha construido un conjunto de piezas con las siguientes características: 

 - Las hay de dos estructuras: macizas y huecas.

 - Las hay de dos colores: blancas y negras.

 - Las hay de dos formas: cúbicas y esféricas.

 - Las hay de dos tamaños: grandes y pequeñas.

 - Las hay de dos materiales: metal y madera.

 - Las hay de dos precios: caras y baratas. 


En el conjunto existen todas las combinaciones posibles, pero no hay dos iguales. 

Los tres mejores amigos de Matías: Antonio, Benito y César, tienen extrañas manías, debido a traumas psíquicos de la niñez: 

 - Antonio no puede ver las esferas, salvo si son de madera. Además no le gusta el color negro ni los objetos huecos.

 - Benito colecciona cubos y aborrece las cosas pequeñas, excepto si son macizas.

 - César odia los metales y es alérgico a las maderas caras. 

Suponiendo que cada uno de ellos se llevó todas las piezas que quiso, de acuerdo con sus gustos, fobias y manías, y que eligieron por orden alfabético, debemos averiguar: 

1º ¿Cuántas piezas se llevó Benito que habría querido César? 

2º De estas ¿es alguna cara? 

3º ¿Cuántas piezas le quedaron a Matías? 

4ª ¿Cuál de los datos que hasta ahora hemos dado se hubiera podido suprimir sin que variaran en nada las tres primeras respuestas? ¿Por qué?

5º Transcurridos cien años, la colección de piezas, fragmentada en la forma que hemos visto, se encuentra en manos de los únicos nietos de Matías, Antonio, Benito y César, respectivamente. Sin embargo éstos no han heredado las fobias, las manías ni los gustos de sus ancestros. El nieto 1, que se llama igual que su abuelo y posee el cubo de madera, grande, negro, macizo y barato, querría entrar en contacto con el nieto 2, también homónimo de su antepasado, que guarda el cubo caro, grande, macizo, metálico y blanco, para proceder a un intercambio. ¿Cuáles son los nombres de los nietos 1 y 2?

08 diciembre 2013

El extraño caso del primer dígito. Parte III



El gráfico está tomado de un artículo  sobre el fenómeno del primer dígito publicado en 2007 por cuatro físicos de la Universidad de Córdoba(1) en el European Journal of Physics. Las cinco barras representan las frecuencias de cada dígito en el primer puesto de las cifras de datos de las siguientes cinco magnitudes; Variaciones anuales del IPC español, Poblaciones de los 8.107 municipios españoles en el último censo, Aves existentes en las distintas regiones españolas entre 1975 y 2002, Áreas en km2 de los países del mundo y Datos contables anuales de una empresa. Los rombitos blancos son las frecuencias de cada dígito en el primer puesto de los números premiados por la lotería española desde 1995. (Todos los datos están tomados del INE). Los puntos negros unidos por una curva, por último, son las frecuencias predichas por la Ley de Benford.

Recapitulemos:

Acababa mi anterior post sobre este asunto tan interesante como popular resumiendo mis perplejidades en tres preguntas fundamentales que, en mi opinión, se plantean ineludiblemente a cualquiera que se interese por el Extraño Caso del Primer Dígito:

¿En qué se diferencian los fenómenos cuyos datos numéricos se ajustan a la Ley de Benford de aquellos otros que producen también cifras, pero ateniéndose a la ley de probabilidades monda y lironda, es decir, sin esa sorprendente distribución de frecuencias de su primer dígito que caracteriza a los primeros?

2º ¿Qué tienen en común entre sí los variadísimos fenómenos que sí se atienen, todos ellos, a la distribución logarítmica del primer dígito de sus datos numéricos? Y

¿Por qué son más frecuentes los datos numéricos con primeros dígitos bajos que los que los tienen altos, y por qué en esa proporción?

Mi propósito es dedicar este tercer y último post de la serie a comentar lo más brevemente que pueda cada una de estas preguntas y las reflexiones a que me han dado ocasión, a las que sería más bien iluso llamar respuestas.


Unos sí y otros no. Qué cosas.

Estos días que llevo dándole vueltas al asunto y leyendo sobre él todo lo que cae en mis manos, me he encontrado hasta la saciedad la expresión "fenómenos que se presentan en el mundo real". Todo el que trata de la Ley de Benford recurre a esta expresión como si se tratara de una condición fundamental para que se cumpla la bendita ley, pero lo cierto es que yo no sé de ningún fenómeno que no se produzca en el mundo real, por lo que en principio no me parece que la expresión en cuestión sea de mucha utilidad. Los sorteos, los catálogos, los fraudes contables y los experimentos amañados son todos ellos fenómenos que también tienen lugar en el mundo real y, sin embargo, parece ser que las cifras que resultan de ellos no se atienen a la ley de Benford.

Como para casi todo en este asunto, yo he encontrado lo que me parece la clave en las dos paginitas publicadas por el pobre Newcomb en 1881, de las que nadie hizo ni caso en su momento.

"Tal como los números naturales se presentan en la naturaleza, escribe Newcomb, deben ser considerados como proporciones entre cantidades" . (Las negritas, como siempre, son mías. Les tengo afición).

Ese es el asunto, a mi entender. Las cifras distribuyen de un modo inesperado sus primeros dígitos solamente cuando expresan cantidades. Un número premiado en la lotería, un código numérico asignado a un elemento en un catálogo (números de teléfonos, Clasificación Decimal Universal de documentos, ISBN, números de identidad o de Seguridad Social...) o unos datos inventados para engañar a Hacienda son, todos, cifras que no se refieren a ninguna cantidad de ninguna magnitud medible de ninguna cosa existente. No son el resultado de una medición, y por eso Benford no tiene nada que ver con ellas. Solo las cifras que se han obtenido midiendo magnitudes cuantificables de cosas existentes son las que presentan primeros dígitos con una frecuencia logarítmica, y no equitativamente repartida entre las nueve posibilidades. Da lo mismo que se trate de áreas, de precios, de poblaciones, de alturas o de distancias. Da igual que lo medido sea obra de la naturaleza o del hombre. Lo que hace que una serie de cifras presente una distribución de primeros dígitos con arreglo a la Ley de Benford es, en mi opinión, el hecho de que esas cifras sean el resultado de medir cualquier magnitud cuantificable de cualquier cosa realmente existente, desde el número de camellos en los desiertos asiáticos hasta el de partículas nucleares en los compuestos químicos, pasando por el de ladrillos en los edificios construídos en la Expo lisboeta y por el de licencias de taxi concedidas en las ciudades centroeuropeas. Da igual qué se mida, lo importante es que algo se mide y que el resultado de la medición se expresa en números.

Y hay que hacer notar a este respecto la estupenda precisión de Newcomb, que no habla solo de cantidades, sino de proporciones (ratios) entre al menos dos cantidades; y que, a partir de ahí, desarrolla en cinco o seis párrafos largos y abstrusos toda su explicación matemática del asunto: "Por eso, sigue diciendo tras la frase citada arriba, en vez de tomar un numero al azar, debemos tomar dos y preguntarnos cuál es la probabilidad de que el primer dígito significativo de su cociente (ratio) sea n". Sea uno o no capaz de comprender el razonamiento matemático que sigue a este planteamiento, lo que sí es fácilmente comprensible es que cualquier medición, efectivamente, es siempre una proporción entre dos cantidades, la cantidad que se mide y la que se emplea como unidad de medición. La altura de una montaña es la que es, pero no tenemos ninguna cifra para expresarla hasta que, además de esa altura, tomamos otra para usarla como unidad, y establecemos la proporción entre ambas, que es la que nos da la cifra con que expresamos esa altura. Lo que hace Newcomb al hablar de proporciones entre dos cantidades es hablar de mediciones y situar la cuestión, desde el principio, en el terreno en el que yo creo que debe ser planteada.


Si cada uno es de su padre y de su madre...

... ¿qué pueden entonces tener en común fenómenos tan absolutamente distintos entre sí como, por ejemplo, los del gráfico que encabeza el post, y otros muchísimos que cada día se comprueba que producen series de datos con los primeros dígitos distribuidos según la Ley de Benford?

También sobre esta cuestión he leído las respuestas más sorprendentes y las afirmaciones más obvias y anodinas, que sorprendentemente, se presentaban a sí mismas como respuestas. Desde el matemático francés que, tras analizar sesudamente los aspectos más técnicos de la distribución de Benford, la justifica despreocupadamente con la hipótesis de que nuestra tendencia a pensar que todos los dígitos se han de repartir por igual el primer puesto es simplemente un condicionamiento psicológico sin ninguna otra base que la intuición ¡ahí queda eso!, hasta los físicos chinos que están convencidos de que la Ley de Benford es algo parecido a una nueva ley de la gravitación universal, y obedece a la existencia de una constante universal, subyacente bajo la esencia misma de todo lo existente que, cuando sea descubierta y estudiada, nos ayudará a encontrar las explicaciones que aún no tenemos sobre la estructura subatómica de la materia. Lamento decir que ninguna me ha convencido, ni me ha parecido siquiera nada remotamente similar a una explicación sensata y aceptable del asunto.

Mi opinión personal es que los fenómenos que producen datos numéricos con la frecuencia de sus primeros dígitos distribuída según la Ley de Benford no tienen absolutamente nada en común, ni falta que les hace.

Nada, salvo el hecho de que los medimos, el resultado de lo cual expresamos en cifras.

Dicho de otro modo: en mi opinión, la de producir series de datos numéricos que empiezan más frecuentemente por números bajos que por números altos, todas ellas más o menos aproximadas a las frecuencias que para el primer dígito nos da la Ley de Benford, no es una propiedad de los fenómenos medidos, sino del sistema numérico con el que expresamos los resultados de nuestras mediciones. Ni en los ríos, ni en las aves, ni en el IPC, ni en los camellos asiáticos, ni en los compuestos químicos ni en los taxis rumanos hay nada que les lleve a distribuir sus cantidades de determinada manera. De hecho ninguna de estas cosas distribuye sus cantidades de ninguna manera. Somos nosotros los que, para referirnos a esas cantidades, a todas las cantidades, les asignamos cifras con arreglo a un sistema numérico que es el único lugar en el que se produce el fenómeno del primer dígito.

En la naturaleza no hay números. Los números son una convención artificial y arbitraria que solo existe en nuestras cabezas. Un lenguaje. Atribuir a las cosas concretas una cualidad que solo aparece en los números con que las cuantificamos tiene exactamente el mismo fundamento que atribuir a las vacas las particularidades de la palabra "vaca". Ni las vacas se escriben con V, ni los ríos tienen longitudes con los primeros dígitos distribuídos según la Ley de Benford. Tanto la de comenzar por una u otra letra como la de distribuir los primeros dígitos de uno u otro modo son propiedades de las palabras y de las cifras, no de las cosas a las que se refieren. De los lenguajes con que nos referimos al universo, no del universo mismo.


¿Por qué precisamente el 30'1 %, vamos a ver? ¿Por qué estos valores, y no otros?

Ya situados estrictamente en el terreno al que creo que debe ceñirse la cuestión: el de nuestro sistema numérico, y no el de las cantidades para expresar las cuales lo usamos, y mucho menos el de los fenómenos a que se refieren esas cantidades, sigue siendo intrigante una cuestión: ¿por qué nuestro sistema numérico, cuando lo usamos para expresar cantidades de magnitudes de cosas existentes, tiende a producir números comenzados por 1 y por 2 con más abundancia que números comenzados por 8 y por 9? Y ¿por qué en esas proporciones precisas, y no en otras?

Porque una cosa seguimos teniendo clara, y es que, en el conjunto de TODOS nuestros números, todos los dígitos significativos (es decir, despreciando los ceros iniciales de los decimales) aparecen como primero con la misma frecuencia. Hay tantos números empezados por 1 como por 2, por 3... y por 9. Y lo mismo sucede cuando consideramos tramos redondos de este conjunto: los cien primeros, los mil primeros, los mil millones primeros... los 1080 primeros. Por eso funcionan las loterías, decíamos hace un par de posts.

Pero la cosa deja de suceder si los tramos considerados no son "redondos", esto es, si no terminan en potencias exactas de 10. Si consideramos los quince mil millones primeros de números, por ejemplo, en los diez mil primeros millones los nueve dígitos se reparten el primer puesto equitativamente, pero en los cinco mil millones siguientes todos los números empiezan por 1, lo que altera considerablemente la frecuencia con la que el 1 aparece como primer dígito en ese tramo concreto y, por tanto, la probabilidad de que una cifra cualquiera de ese tramo empiece por 1.

Sucede lo mismo, o más aún, en los quince primeros números, en los ciento setenta primeros números, en los mil novecientos primeros números, en los un millón novecientos mil primeros números... En todos estos tramos la frecuencia con la que el 1 es el primero de una cifra cualquiera es muy superior a 1/9.

En nuestra cabeza y en nuestros bombos de lotería(2) valga decir, en cualquier proceso de obtención de cifras que no sea resultado de la medición de algo existente consideramos tramos redondos de números, tramos terminados en potencias de 10, los únicos en que los nueve dígitos tienen la misma probabilidad de comenzar una cifra cualquiera. Pero las magnitudes de los fenómenos que suceden en el mundo real no toman esa precaución. Ni cuentan con TODOS los números, porque el universo y todo lo que hay en él es finito, ni ajustan sus dimensiones a tramos "redondos" de números, que acaben en potencias de 10. Entre otras cosas porque, como ya hemos dicho, en el mundo de fuera de nuestras cabezas no hay números, solo cantidades, a las que nuestro sistema numérico y nuestra base 10 les importan un pito. Las cantidades son las que son, cómo las expresemos es asunto exclusivamente nuestro, del que el Universo pasa olímpicamente.

Y en un tramo cualquiera de números, un tramo que no acabe en una potencia de 10, la frecuencia con que cada dígito ocupa el primer puesto de las cifras ya no es igual para todos, como hemos visto.

Parece, por eso, que investigar cómo varía la frecuencia, en distintos tramos de números, de cada dígito como ocupante del primer puesto, puede ser una vía prometedora de investigación. 

Veamos, pues, dónde nos lleva con el 1, por ejemplo:

Si consideramos, de todos los números, solo el primero (que como es notorio es nuestro querido 1), la frecuencia con la que el 1 es el primer dígito de ese número es, evidentemente, del 100 %. Solo está él...

Si vamos ampliando el tramo de números considerados, va disminuyendo la frecuencia con la que el 1 es el primer dígito. Para el tramo de los dos primeros números, [1, 2], la frecuencia del 1 como primer dígito es del 50% (1/2). Para el tramo de los tres primeros, [1, 3], del 33'33 %, (1/3). Para el tramo de los cuatro primeros, [1, 4], del 25 % (1/4)...y así la frecuencia del 1 como primer dígito sigue bajando hasta que consideramos el tramo de los nueve primeros números, [1, 9], en el que la frecuencia del 1 como primer dígito es del 11'11 % (1/9).

Al ampliar el tramo en uno más y considerar los diez primeros números, [1, 10], la frecuencia del 1 como primer dígito vuelve a subir. Aquí ya hay dos números, el 1 y el 10, que tienen al 1 como primer dígito, luego la frecuencia es de 2/10, el 20 %. Conforme vamos ampliando el tramo considerado con los sucesivos números, va aumentando la frecuencia de números empezados por 1. Es del 27'27 % (3/11) en el tramo [1, 11], del 33'33 % (4/12 = 1/3) en el tramo [1, 12], del 38'46 % (5/13) en el tramo [1,13]... hasta llegar al tramo [1, 19], en el cual hay 11 números que empiezan por 1, es decir que su frecuencia alcanza el 57'89 % (11/19). Pero en el tramo [1, 20] baja al 55 % (11/20), en el tramo [1, 21] es del 52'38 % (11/21)... y sigue bajando al ampliarse los tramos: 36'66 % (11/30) en el [1,30], 27'5 % (11/40) en el [1, 40]... hasta que en el [1, 99] es de nuevo del 11'11 % (11/99).

Para empezar de nuevo a subir en el [1, 100] (12/100 = 12 %) y seguir subiendo hasta la del tramo [1,199] (111/199 = 55'77 %), desde el que vuelve a bajar incesantemente hasta volver a ser del 11'11 % = 111/999 en el tramo [1, 999]. Y así todo el rato. 

Por resumir, la gráfica que dibuja la frecuencia del 1 como primer dígito en los sucesivos tramos, cada uno con diez veces más números que el anterior aunque yo los haya dibujado en una escala en la que aparecen todos iguales porque, si no, no me cabe y el principio es el mismo,  viene a ser algo así:


Sobre el eje vertical se representan las frecuencias en % con las que el 1 es el primer dígito de una cifra en los tramos de cifras [1, n] representados sobre el tramo horizontal. Este último está dibujado a escala logarítmica, en la que se representa con la misma longitud el tramo [1.000, 10.000] que el [100, 1.000 y que el [10, 100]... Es decir, todos los tramos aparecen con la misma longitud,, a pesar de que cada uno es, en realidad, de una longitud igual a diez veces la del anterior.

La serie se prolonga indefinidamente hacia la derecha, con la frecuencia con la que aparece el 1 como primer dígito oscilando en cada nuevo tramo entre dos límites, inferior y superior que, aunque en el gráfico no se advierta, no son siquiera constantes. El límite inferior va decreciendo hacia el valor 1/9 = 0'1111 (11/99,  111/999,  1.111/9.999...) y el superior también decrece hacia 5/9 =0'5555 (11/19,  111/199,  1.111/1.999...). A efectos prácticos podemos considerar que oscila periódicamente entre el 11'11 % y el 55'55 % (las variaciones entre los límites de un tramo y los del siguiente empiezan a la altura del tercer decimal, y de ahí en adelante son cada vez más pequeñas).

Y también a efectos prácticos parece que sería útil poder establecer un valor promedio de esta sucesión de frecuencias, el valor hacia el que tiende –o en torno al cual oscila, en este caso la frecuencia con la que el 1 es el primer dígito, a medida que el extremo derecho de los sucesivos tramos avanza interminablemente hacia el infinito. Lo que matemáticamente se llama el límite de la sucesión.

Mis habilidades matemáticas, que no son ya lo que alguna vez fueron y nunca fueron gran cosa, no se acercan siquiera a poder calcular el límite de una sucesión así. Me consuela que A. Jamain(3), que parece saber de lo que habla y pertenece al Imperial College of London, donde nunca dicen nada solo por decir, tras asegurar que tal límite no existe, suaviza la negativa (¡cómo disfrutan los matemáticos dándonos estos sustos!) diciendo que hay diversos métodos para definirlo, y que varios de ellos llevan al deseado logaritmo de 2, que vale, precisamente, 0'3010 (o 30'1 %), el valor de la probabilidad del 1 como primer dígito según la Fórmula de Newcomb (log (1+1/1), si recuerdan ustedes), fórmula que es, a su vez, la expresión matemática de la Ley de Benford. ¡Menos mal!

Con tal autorización me siento más libre de aventurar mi propia cuenta de la vieja explicativa, que a mí al menos me sirve para entender mejor la cuestión. Si coloreamos el espacio bajo la curva del anterior gráfico, tal que así:


el área coloreada parece bastante razonablemente asimilable los picos que entran por los que salen, ya me entienden ustedes a la del rectángulo así mismo coloreado en este otro gráfico; rectángulo cuya base es la misma y cuya altura he situado, así, por ver qué pasa, a la altura de... pongamos por caso... el 30'1 %:


Lo que a mi ojo de buen cubero geómetra le viene a decir que la oscilación de la frecuencia del primer dígito 1 entre sus dos límites viene a ser como si se mantuviera todo el rato en ese valor de 30'1 %  (o 0'3010), que es, no hace falta decirlo, la deseada probabilidad del 1 como primer dígito que nos daba la fórmula de Newcomb, o sea, quod erat demostrandum. ¿Me he explicao?

(Supongo que la cosa se podría comprobar con un poco más de rigor haciendo la integral de la curva entre dos puntos suficientemente alejados, lo que nos daría el área picuda, y dividiéndola luego por la distancia entre esos dos puntos para que nos saliera la altura del rectángulo equivalente, que es el valor buscado y al que más le vale seguir entonces siendo lo más parecido que pueda a 0'3010. Pero para eso tendría que conocer la ecuación de la curva y recordar cómo se resolvían integrales. Dios lo haga mejor. Se lo dejo a Jamain, que sabe mucho. Yo me conformo con mi heurística doméstica).


Naturalmente, el razonamiento es generalizable a todos los demás dígitos: de los nueve mil primeros números, solo el 1'25 % empieza por 9. Y lo mismo sucede en los nueve primeros millones, en los novecientos mil primeros millones...

Si trazamos para el 2 y el 9, por ejemplo, gráficas similares a las que hemos trazado para el 1, nos quedará algo parecido a esto (las del 2 en azul y las del 9 en verde):


Como se ve, las dos frecuencias, la del 2 como primer dígito y la del 9 en ese mismo puesto, oscilan, igual que lo hacía la del 1, en torno a sendos valores promedios los límites respectivos de ambas series, que, tanto de acuerdo con mi ojímetro geométrico como o al menos eso espero con los sabios métodos de integración de A. Jamain, pueden situarse, respectivamente, en las alturas del 17'6 %  la del 2 (la frecuencia que la fórmula de Newcomb nos daba para el 2 como primer dígito) y del 4'58 %  la del 9 (la frecuencia que la fórmula de Newcomb nos daba para el 9 como primer dígito).

Resulta muy interesante, para terminar, superponer las tres curvas en un solo gráfico, en el que es fácil comprobar que las frecuencias con que cada uno de estos tres dígitos son el primero de una cifra solo coinciden para valores de n iguales a potencias exactas de 10 (10, 100, 1.000, 10.000..), en los que las tres frecuencias se encuentran a la altura del 11'11 % (1/9)


Con lo cual considero dicho todo lo que me apetecía decir sobre el asunto. No creo, naturalmente, haber contestado ninguna de mis tres preguntas, pero sí he conseguido que se me pasen las ganas de seguir planteándomelas, lo que en la práctica es bastante equivalente. Podemos descansar, por tanto, que bien nos lo hemos ganado.


Notas:

(1) How do numbers begin? (The first digit law) J. Torres, S. Fernández, A. Gamero y A. Sola. European Journal of Physics, 24 April 2007.

(2) En realidad en los bombos de lotería no es necesario hacerlo, y de hecho en el de Navidad no se hace, ya que de lo que se trata no es de acertar el dígito inicial, sino el número completo, y los números completos tienen todos la misma probabilidad sea cual sea el tramo elegido.

(3) Benford's Law Adrien Jamain  Imperial College of London, Department of Mathematics. April - September 2001

01 diciembre 2013

El extraño caso del primer dígito. Parte II



Los logaritmos estaban en el ajo desde el principio.

En un librillo parecido a este debió
de hacer Newcomb su observación.
No sé si los estudiantes de bachillerato siguen estudiando logaritmos, pero lo que es seguro es que ya no se usan habitualmente para calcular, que fue su utilidad primera. Las calculadoras y los ordenadores han hecho que las tablas de logaritmos cuyo manejo aprendí yo a eso de los quince años hayan quedado tan obsoletas como las reglas de cálculo, que eran, por cierto, unos objetos francamente bonitos. Pero hace ciento y pico años y también hasta hace relativamente poco– estas tablas eran una herramienta de trabajo habitual de ingenieros, físicos, biólogos, sociólogos, astrónomos y cualquiera que tuviera que hacer a diario cálculos matemáticos.

La pequeña historia que les voy a contar, en la que estos numeritos tan útiles y de nombre tan amenazadoramente griego juegan distintos y todos ellos importantes papeles, pueden encontrarla ustedes en cualquiera de las tropecientas páginas que les saltarán a la pantalla si teclean "Ley de Benford" en Google, porque nadie que se ocupe de esta Ley deja de empezar con ella sus consideraciones. Tampoco yo voy a poder evitarlo, aunque intentaré despachar el trámite con la mayor rapidez posible.

Simon Newcomb, con toda la barba
El caso es que en 1881 un astrónomo nacido en Canadá pero que trabajaba en EEUU, Simon Newcomb, constató que el librillo que recogía sus tablas de logaritmos tenía mucho más estropeadas las primeras páginas que las últimas. Por motivos técnicos que no hacen al caso en realidad sí hacen bastante al caso, pero ya tiendo yo a enrollarme lo suficiente sin necesidad de que nos pongamos ahora a explicar qué es un logaritmo y cómo funciona; sobre todo porque aspiro a que sigan ustedes leyéndome resulta que las tablas de logaritmos agrupan los números por sus dígitos iniciales, esto es, el logaritmo de 12, el de 145 y el de 1.718 deben buscarse en las páginas de las cifras que empiezan por 1; el de 57, el de 0'00521 y el de 5.133, en las de las que empiezan por 5...

Por lo cual, lo que Newcomb acababa de descubrir es que quienes usaban las tablas habían buscado en ellas muchas más veces el logaritmo de cifras empezadas por 1 y por 2, que estaban al principio, que el de cifras empezadas por 8 y 9, que estaban al final, en las páginas claramente más limpitas y menos usadas.

El buen Simon le dió vueltas al asunto, comprobó que el fenómeno se repetía en todas las tablas de logaritmos que cayeron en sus manos, y concluyó que, por algún motivo (como buen científico práctico no parece que le diera muchas vueltas a cuál podía ser ese motivo, se limitó a constatar que la cosa ocurría), las cifras empezadas por números bajos aparecían con mucha más frecuencia que las otras en los cálculos de los usuarios más diversos de tablas logarítmicas, o sea, en una gran variedad de campos distintos. Acabó por escribir un articulito él lo llama "Nota" sobre la cuestión, que publicó en el American Journal of Mathematics. En él, tras referirse brevemente a su observación, ("Que los diez dígitos no se presentan con igual frecuencia, empieza diciendo el artículo, debe resultarle evidente a cualquiera que haga mucho uso de las tablas de logaritmos y advierta cuánto más deprisa se desgastan las primeras páginas que las últimas. El primer lugar significativo lo ocupa el 1 más veces que cualquier otro dígito, y la frecuencia va disminuyendo hasta el 9". Y con eso daba por suficientemente presentada la cuestión) llegaba a la sorprendente conclusión de que la probabilidad de que uno cualquiera de los nueve dígitos ocupara el primer lugar significativo de una cifra no siempre valía para todos 1/9, como hasta ahora hemos convenido que era lo razonable. "Tal como los números naturales se presentan en la naturaleza, es decir, considerados como proporciones entre cantidades" (las negritas son mías), la probabilidad de un dígito de ocupar el primer puesto, según Newcomb, debía calcularse mediante la fórmula

Prob (1er digito significativo = d) = log10 (1+1/d)

Que, leída en cristiano, viene a decir que la probabilidad de un dígito cualquiera d de ser el primer dígito significativo de una cifra es igual al logaritmo decimal de 1 más 1 partido por d

O sea que, por si afirmar que la probabilidad de ser el primero no era la misma para todos los dígitos no fuera suficientemente chocante, se atrevió además a señalar cómo debía calcularse para cada uno.

(Como ven, los logaritmos, que parecía que solo por casualidad habían dado la primera señal de alarma sobre la existencia de este fenómeno, se instalaban ahora en el meollo del asunto, y con toda la pinta de llegar para quedarse. Lo que se llama una buena estrategia, con los tiempos bien medidos. Si eso no es premeditación, que venga Dios y lo vea).

La fórmula en cuestión no aparece así enunciada en el escrito de Newcomb, pero lo que sí contiene su trabajo es esta bonita tabla, cuya primera columna son los valores (frecuencias de cada dígito en el primer puesto) que resultan de sustituir en la fórmula d por 1, 2, 3,... ...,9 :

Esta tabla está directamente copiada de la Nota de Newcomb.
Creo que debería citar aquí no sé qué copyright, en la Nota lo dice...

En su segunda columna la tabla, habrán visto, presenta también la probabilidad de cada dígito de ocupar el segundo puesto de una cifra, y aquí ya sí entra el 0. Las frecuencias del segundo puesto siguen siendo decrecientes, empezando por la más alta del 0, pero con una diferencia entre ellas mucho menor, es decir, formando una curva mucho más "plana". "En el caso del tercer puesto la probabilidad será casi la misma para cada dígito, y para el cuarto y siguientes la diferencia (de frecuencias) será inapreciable".

 Este gráfico,  en cambio, es de este artículo de Adrien Jamain.
He probado a hacer el mío propio, pero este queda más bonito.

El artículo de Newcomb pasó ampliamente inadvertido. El hombre se murió en 1909 con una buena reputación como astrónomo, pero mucho más conocido por un oportuno artículo en el que demostraba que una máquina más pesada que el aire nunca podría volar, que publicó solo unos meses antes de que los hermanos Wright lo desmintieran contundentemente, que por ningún otro de sus numerosos trabajos. Así de dura es, a veces, la vida de los científicos. Descanse en paz.

La tumba de Newcomb, en el Cementerio Nacional de Arlington


El Nombre de la Cosa. La Ley de Benford, y Benford, propiamente dicho.


¿Qué probabilidad había de que Frank Albert Benford fuera
inmortalizado justo el día en que se había puesto esa corbata?
Nadie había hecho el menor caso del artículo del pobre Newcomb. No sé si él se descorazonó, pero los logaritmos no lo hicieron, y cincuenta y tantos años después lo intentaron de nuevo. (Para los logaritmos, que no empezaron a dar señales de vida hasta el XVII, el tiempo es mucho menos importante que para nosotros. No tienen prisa...)

Esta vez escogieron a un físico que trabajaba en la General Electric, un tal Frank Benford, que volvió a observar el desgaste desigual de las tablas de logaritmos y sacó de él la misma conclusión que Newcomb. No solo eso, sino que siguió el mismo razonamiento y llegó a la misma fórmula para calcular la probabilidad que cada uno de los nueve dígitos tiene de ser el primero significativo en una cifra.

(Todos las alusiones a este razonamiento que he leído en Internet lo califican de "breve y heurístico". Este último palabro viene a decir que no se trata de una demostración rigurosa, sino de un apaño de andar por casa, una especie de aproximación habilidosa que procede más bien por tanteo. Yo solo lo he leído en la versión de Newcomb y, entre que está en inglés y que se basa en el concepto de límite, que yo usé por última vez con cierta soltura hace cosa de treinta años, confieso que me ha resultado algo más hermético que heurístico. Digamos que he llegado a captarlo solo en sus líneas generales, tendré que leerlo más despacio. Y leerme también el de Benford, que ocupa veintidós páginas en vez de las dos escuetas del canadiense, a ver si su explicación queda un poquito más a mi alcance).

No he averiguado si Benford conocía la Nota de su predecesor. (T.P. Hill, en un recomendable artículo sobre el asunto, dice con circunspección que era "apparently unaware of Newcomb's paper", es decir, que nunca dio señales de conocerlo. El propio escrito de Benford comienza con la austera información de que "Se ha observado que las páginas de una tabla de logaritmos muy usada presentan evidencias de un uso selectivo de los números naturales". Las negritas son mías). En cualquier caso, fuera que redescubriera él solito la cuestión o que se inspirara solapadamente en el recóndito y decimonónico trabajo del otro, se lo curró mucho más. Como primera providencia, científico concienzudo, lo comprobó. Realizó lo que él mismo llamó "un esfuerzo para reunir datos del mayor número posible de campos, y para incluir una amplia variedad de tipos... ...El rango de los asuntos estudiados fue tan amplio como lo permitieron el tiempo y la energía". Dedicó, nos cuenta Hill, "varios años a reunir datos, y la tabla que publicó en 1938 en los Proceedings of the American Philosophical Society se basaba en 20.229 observaciones provenientes de conjuntos de datos tan diversos como áreas de ríos, estadísticas de la Liga Americana de baseball, pesos atómicos de elementos y cifras aparecidas en artículos del Reader's Digest." "La tabla de primeros dígitos significativos que resulta se ajusta  a la fórmula logarítmica, dice, sumamente bien". (Las negritas son mías).
El artículo de Benford debe de devengar aún
derechos de autor, y solo he podido 
descargarlo
gratis de aquí para catorce días, tras abrirme 
una
cuenta. Lo he 
pedefeado diligentemente página
p
or página, pero como imagen. Almacenarlo en
forma de texto, de momento, ha sido imposible.

Benford tuvo más suerte que Newcomb. La comunicación que en 1937 presentó a la American Philosophical Society ("The Law of Anomalous Numbers", Proceedings of the American Philosophical Society, Vol. 78 nº 4, March, 31, 1938, pp. 551-572) obtuvo toda la atención que nunca conocíó el artículo de su predecesor. Desde su publicación, el interés de los matemáticos, físicos y demás fauna científica por la Ley de Benford (que, por cierto, ha recibido ese nombre en cumplimiento de otra ley, la de Stigler, que afirma que ningún descubrimiento científico lleva el nombre de su primer descubridor; seguro que no fue Stigler el primero en darse cuenta de eso) no ha hecho más que aumentar, y actualmente se aplica con normalidad en muchos campos, desde el diseño de rutinas informáticas y de modelos predictivos de fenómenos hasta la detección de fraude fiscal. Los investigadores de los ámbitos más variados no hacen más que encontrar nuevas magnitudes y fenómenos cuyas mediciones se ajustan a la distribución de Benford, y los matemáticos demuestran incansablemente nuevas propiedades de la Ley.

Una de las más interesantes, por cierto, es la de ser invariante respecto de la escala, esto es, que si una serie de datos cumple la Ley cuando se los expresa en una unidad cualquiera, seguirá cumpliéndola si los datos se expresan en otra unidad diferente. Una lista de altitudes de ciudades  medidas en pies, o de precios de artículos en dólares, transformada respectivamente a metros o a euros, contendrá otras cifras completamente distintas, pero los primeros dígitos de estas nuevas cifras de metros o de euros se ajustarán a la Ley de Benford del mismo modo que los de la lista inicial de cifras en pies o en dólares.  (La mente de los matemáticos funciona de un modo tan peculiar, quiero decir tan distinto de cómo funciona la mía, que tienden a presentar esta invariancia de escala como si se tratara de una explicación de la Ley. Los teólogos medievales explicaban la para ellos obvia existencia de Dios con argumentos no muy distintos, me parece a mí. Pero este género de consideraciones es ya más bien objeto de mi próximo post).

Y otra de estas propiedades que no puedo dejar de citar es la de ser invariante respecto de la base de numeración. Lo que quiere decir que si una serie de cifras en base 10 presenta una distribución de primeros dígitos conforme a la Ley de Benford, al expresar esos mismos valores con otra base de numeración distinta las nuevas cifras que resulten de la nueva base también ajustarán las frecuencias de sus primeros dígitos a la bendita Ley. (Noten ustedes que las frecuencias que para cada dígito de 1 a 9 nos da la fórmula de Newcomb, las de la tabla, se refieren a cifras en base 10, por eso el logaritmo que aparece en la fórmula es el logaritmo decimal, log10. Cuando se trate de cifras en otra base b cualquiera habrá que volver a calcular las frecuencias de los (b-1) dígitos con la misma fórmula, pero utilizando el logaritmo en base b, logb. El gráfico de estas nuevas frecuencias tendrá distinto número de barras, (b-1), con otras alturas diferentes, pero imagino que dibujará una curva muy parecida, empezando por la más alta del 1 y acabando en la más baja del b-1).


Conclusión (provisional y abierta) y despedida (hasta enseguidita).

En fin, que hay desde 1938, al menos, un montón de gente aplicando la Ley de Benford a un montón de asuntos, descubriendo su vigencia en un montón de fenómenos y dándole a la famosa Distribución Logarítmica del Primer Dígito un montón de vueltas, todo lo cual resulta, como he tratado de contarles, sumamente instructivo y ameno, amén de sorprendente, al menos para mí. Pero lo que hasta ahora, en mi opinión, no ha hecho nadie, físico, matemático o filósofo, es explicar por qué existe y se cumple la propia Ley de Benford, por qué datos tan variopintos, obtenidos de fuentes tan diversas, desde las estrellas de las galaxias más lejanas hasta las del equipo local de fútbol, se obstinan universalmente en empezar por 1 y por 2 con una frecuencia mucho mayor que lo hacen por 8 y por 9, en qué se diferencian todos estos fenómenos, productores de datos benfordianos, del Bombo Universal de Lotería de que hablábamos en mi anterior post, que ignora olímpicamente a Benford, a Newcomb y a todos sus cálculos y produce en cambio números con una frecuencia de primeros dígitos escrupulosamente equitativa; y, más misterioso todavía, qué tienen en común entre sí todos estos fenómenos que distribuyen logarítmicamente los primeros dígitos de sus datos numéricos con arreglo a la misma pauta, siendo como son, en cualquier otro aspecto en que se los considere, cada uno de su padre y de su madre. Tras leer unos cincuenta o sesenta documentos abstrusos dedicados, en teoría, a responder estas preguntas, y tras dedicar otras cincuenta o sesenta horas a reflexionar yo mismo sobre ellas a la luz de lo leído, yo sigo estando igual de perplejo o más que estaba al principio.

Si Dios me da salud, dedicaré un tercer y último post a este asunto, en el que trataré de contarles, del modo más resumido, inteligible y ameno que me sea posible, estas reflexiones y perplejidades mías. La cosa promete ser verdaderamente dura. Ármense de amabilidad y de valor, y que Dios reparta suerte.


Estrambote teológico.

Entre las muy diversas aplicaciones de la Ley de Benford que he encontrado por Internet estos días de incesante investigación, hay una que no quiero dejar de consignar aquí, porque me ha resultado especialmente regocijante. Un tal Abdul Majis Motahari, que colabora en una página web cuya URL es esta significativa expresión: http://www.islam-soumission.org, dedica un apartado de dicha página, titulado "Milagro matemático" a contarnos, desbordante de éxtasis religioso, cómo la lista de 114 números que sale de contar cuántos versículos hay en cada una de las 114 suras del Corán se ajusta milagrosamente a la Ley de Benford. El articulo pueden leerlo ustedes aquí, pero para los que no tengan ganas o no se arreglen bien con el francés en que está escrito les resumo brevemente de qué va.

Resulta que según puede constatar cualquier lector del Corán que sepa contar, aunque Abdul lo constata cumplidamente para evitarle el trabajo, hay 30 suras con un número de versículos empezado por 1 (26'32 %), 17 suras cuyos números de versículos empiezan todos por 2 (14'92 %), 12 que tienen números empezados por 3 (10'53 %), 11 por 4 (9'65 %), 14 por 5 (12'28 %) , 7 por 6 (6'14 5), 8 por 7 (7'02 %), 10 por 8 (8'78 %) y 5 por 9 (4'39 %), lo cual es, efectivamente, una distribución que se aproxima muy razonablemente a la de Benford, sobre todo para tratarse de una muestra tan corta. No necesita más sidi Motahari para concluir la reconfortante evidencia: solo un texto dictado por Dios mismo podía cumplir en el siglo VII una ley que aún no había sido formulada. "Si Dios habla al hombre, sin duda utiliza el lenguaje de las matemáticas", nos recuerda el autor que dijo alguien tan poco sospechoso de ser musulmán como el matemático Poincaré.

El argumento de Motahari (aparte de que uno se pregunta por qué Alá no se ajustó más exactamente aún a la distribución de Benford, en vez de esta tímida aproximación, más propia de una lista de victorias madridistas entre 1911 y 1963 que de un Libro Santo), tiene varias consecuencias interesantes. En primer lugar, parece implicar que los datos, antes de que Newcomb y Benford les indicaran que debían hacerlo, no se atenían a la distribución logarítmica de sus primeros dígitos, salvo que mediaran expresas instrucciones divinas en ese sentido. Lo que no deja de ser una curiosa interpretación de las leyes empíricas que, según este buen imam, o lo que sea, no existen ni se cumplen hasta que alguien las descubre, Dios no mediante.

Y en segundo lugar, aplicando este criterio al Bhagavad Gita, al Quijote, a la Recherche du Temps Perdu o a la Guia Telefónica de Zaragoza, de todos los cuales textos podrá con toda probabilidad extraerse listas de números de palabras por capítulo o de letras por abonado que se ajusten igualmente a la Ley de Benford, debemos concluir que han sido, todos ellos, dictados por Dios en persona, no sabemos si por Alá mismo o por sus respectivas versiones locales.

Agradezco a Abdul Motahari este nuevo argumento que refuerza mi fe (lo malo es que igual ahora tengo que convertirme al Islam), y a mi corresponsal el conocimiento de este edificante artículo. Y nunca más escucharé sin protestar ese argumento según el cual el aumento de los conocimientos científicos irá poco a poco disolviendo las brumas supersticiosas de la religión. ¿Algún problema, digo, para conciliar a partir de ahora la ciencia con la fe?

27 noviembre 2013

El extraño caso del primer dígito. Parte I


Para Ricardo, que tan reconfortantemente comparte mi interés por los AA. AA. (Asuntos Absurdos)


"Día y noche", de Escher, santo patrono de los AA. AA.


Cantidad de cantidades (y todo es cantidad)

Piensen ustedes un momento, si no les es molestia, en los números: 1, 2, 3, 4, 5, 6, 7, 8. 9... 

No se acaban ahí, ya sabemos. Siguen 10, 11, 12... 20, 21... 30... 40, 50, 60... 90... ...200, 300... 1.000... 10.000... 100.000... ...1.000.000.000... ...1.000.000.000.000... 

Tampoco ahí se acaban, claro. Ni en ningún otro punto. No se acaban nunca. Por lejos que lleguemos añadiendo ceros siempre podemos seguir haciéndolo. Son infinitos, efectivamente. 

La del infinito es una idea que nos resulta naturalmente engorrosa de concebir. Y no digamos de manejar: lo hacemos con notoria dificultad e incertidumbre, y hasta los matemáticos profesionales, tan duchos en la manipulación de números, se encuentran al llegar al infinito con que su riguroso instrumento de trabajo deja de funcionar con la eficacia y la exactitud habituales y empieza a hacer cosas raras. Todos sabemos, por ejemplo, que para cualquier cantidad x siempre se cumple que x + x = 2x, ¿verdad? Pues resulta que siempre, no. Ahí está el infinito para estropear la cosa. Cuando x= ∞, resulta que ∞ + ∞ = ∞. Un infinito más otro infinito es igual a… otro infinito, solo uno. No dos. Se nos fue a la porra la regla general.

Y como con la suma, con casi todo. El infinito se nos escapa de las manos y se niega a someterse a las mismas reglas a las que se atienen el resto de los números y que nos permiten mantenerlos más o menos bajo control. 

Más Escher, claro. Quién mejor.

Felizmente, en el mundo en que nos movemos habitualmente rara vez nos encontramos con este concepto tan antipático, imprevisible y difícil de manejar. Sabemos, sí, que los números son infinitos, pero como normalmente los usamos para referirnos a las cantidades en que se reúnen o al orden en que colocamos las cosas que realmente existen, que no lo son, nos suele bastar con una cantidad razonablemente manejable de ellos. Solo los astrónomos, por ejemplo, o los físicos subatómicos(1), manejan habitualmente cantidades de un orden mayor que los mil o diez mil millones de algo con las que los demás nos conformamos, en el mejor de los casos, en nuestra vida cotidiana. 

Más felizmente aún, puesto que incluso esas cantidades, relativamente pequeñas frente al infinito, son sin embargo excesivamente grandes para nuestro tamaño ¿son ustedes capaces de imaginarse juntos diez mil millones de euros? No ¿verdad? Pues tampoco Botín, que maneja a diario esas y mayores cifras, es capaz de hacerlo(2) hemos inventado un utilísimo sistema de numeración que nos permite manejarlas sin necesidad de imaginarlas. Para describir exacta e inequívocamente una cantidad cualquiera nos limitamos a decir cuántas veces cabe en ella la potencia (al cuadrado, al cubo, a la cuarta...) más grande (que le quepa) de un número fijo B que tomamos como base de numeración, cuántas veces cabe en el resto la potencia inmediatamente inferior, cuántas en lo que sobra la siguiente... y así indefinidamente, porque cuando el sobrante es tan pequeño que en él ya no cabe ni B0 que es, por definición, 1, valga B lo que valga: el cero es un buen compañero del infinito, casi igual de rarito que él nos hemos inventado los números fraccionarios para poder seguir averiguando cuántas veces caben en él la B-ésima parte de 1, la B2-ésima parte...

De manera que nosotros, que numeramos en base 10 (nuestro B vale 10, vamos) al decir que tenemos 5.785 unidades (cosas) lo que decimos, de un modo eficacísimamente abreviado, es que tenemos una cantidad de cosas en la que 103 cabe 5 veces, además de 7 veces 102, 8 veces 101 y 5 veces 100. (Hemos empezado por 103, o sea 1.000, porque, obviamente, 104, o sea 10.000, no cabe en 5.785 ni siquiera una vez. Empezamos por la mayor potencia de 10 que le quepa a la cantidad en cuestión, las mayores que esa son, exactamente hablando, ceros a la izquierda).

Y si la cantidad no puede ser expresada con un número natural, porque, aún después de ajustar de este modo el número de miles, centenas, decenas y unidades que contiene, sigue quedándonos un cachito menor que la unidad, basta con seguir el procedimiento indicando, tras una coma los anglosajones y sus secuaces, que todo lo enredan, usan un punto y yo, personalmente, prefiero un apóstrofo o coma volada las veces que en ese sobrante caben la décima parte (10-1) de la unidad, la centésima parte (10-2), la milésima... etc, para poder escribir que tenemos, por ejemplo, 5.785'307 cosas(3).

El sistema es tan sencillo que los niños aprenden a manejarlo sin graves problemas a eso de los siete u ocho años, sin necesidad siquiera de acabar de entender qué es exactamente lo que están haciendo, pero con resultados tan satisfactorios como si lo entendieran. (La de poder ser manejado por quien no tiene ni idea de por qué y cómo funciona es una característica que presenta todo mecanismo verdaderamente útil, como el ordenador o la máquina de coser).


Y es tan eficaz que me ha permitido, en el segundo párrafo de este post, pasar de diez a un billón en tan solo una línea, sin más que teclear unos cuantos ceros y puntos. Un troglodita se habría desalentado tras amontonar el piedrolo número mil quinientos, un romano habría armado un follón de letras muy considerable y un maya habría tenido que anudar dificultosamente no sé cuántas cuerdas. No es extraño que sea este sistema el que ha acabado por imponerse.

Los informáticos, se dice, y otras gentes de mal vivir, no usan solo la numeración de base 10. Para sus oscuros propósitos profesionales emplean también la de base 2 y la de base 16 (hexadecimal), ellos sabrán por qué. Es igual, el mecanismo básico es el mismo. Lo importante de todos nuestros sistemas de numeración, usen la base que usen, es que usan alguna, de modo que las cifras con que representan cantidades están formadas por dígitos que son, en el orden en que aparecen en cada cifra, los coeficientes multiplicadores de las potencias sucesivamente decrecientes de un número fijo B tomado como base. Concretamente por (B-1) dígitos distintos, más el 0. En nuestro caso, 10-1 = 9, nueve dígitos distintos, más el 0. (Los informáticos, en base 2, no usan, por eso, más que el 1 y el 0. Un rollo, pobres. En cambio imagino que para la base 16 habrán tenido que inventarse otros seis dígitos incógnitos).

Gracias, pues, a nuestro excelente sistema de numeración, podemos considerar tooodos los números existentes sin gran esfuerzo, a pesar de que sean infinitos. Simplemente con combinaciones cortas y manejables de diez simbolitos dígitos, agrupados con puntos y comas para hacer más legible cada combinación, podemos referirnos, con toda la exactitud que nos sea necesaria, a cualquier cantidad de las infinitas imaginables, sin más que asignarle a cada una una cifra, es decir, una de estas combinaciones ordenadas de dígitos que tan fácilmente produce nuestro sistema de numeración. 


El primer dígito de las cifras y su censurable conducta. 

Las infinitas cifras así resultantes pueden ser utilizadas con diversos fines, estudiadas desde distintos puntos de vista y clasificadas y consideradas, en general, con variados criterios. A los jugadores de lotería, por ejemplo, suele parecerles especialmente importante el último dígito de los números. Conozco uno que siempre juega a números que terminen en 8. Lo que no pasa de ser una manía sin consecuencias, hasta ahora al menos, desgraciadamente porque, como se comprende fácilmente, las cifras acabadas en 8 son una décima parte exacta del total, ya que diez son (nueve más el cero, ¿recuerdan?) los dígitos con que se componen las cifras y en los que, por tanto, puede acabar una  cualquiera de ellas; y en consecuencia hay tanta probabilidad de que el premio caiga en una acabada en 8 como de que lo haga en una acabada en cualquier otro dígito. Exactamente el 10 % de probabilidad para cada uno. Pero todos tenemos nuestras supersticiones y, si somos jugadores de Lotería, más. (Este año, por cierto, yo estoy casi seguro de que el Gordo va a caer en ocho. Ustedes verán lo que hacen...) 

Esta idea, la de que todos los dígitos tienen la misma probabilidad de aparecer en cualquier puesto de cualquier cifra escogida aleatoriamente de entre todas las posibles, es tan intuitiva como verdadera. Si, de entre todos los posibles, vamos eligiendo números al azar por ejemplo, sacándolos de un Enorme Bombo en el que hayamos metido infinitas bolas, cada una con una de las infinitas cifras escrita en ella basta con que lo hagamos un número significativo de veces para que podamos estar seguros de que habrá cantidades aproximadamente iguales de números que empiecen por cada uno de los dígitos, porque los infinitos números, a este efecto, pueden considerarse divididos en nueve grandes grupos aquí son solo nueve, ya que el cero no cuenta como dígito inicial: los comenzados por 1, los comenzados por 2.... ...hasta los comenzados por 9; y en cada uno de estos grupos hay igual cantidad de números también infinita, por cierto: el infinito es así de modo que todos los dígitos tienen la misma probabilidad de figurar en el primer puesto de un número cualquiera.

Y el principio sigue siendo cierto aunque en vez del conjunto de los infinitos números se cojan partes más asequibles de él. Por eso funcionan sin excesivas quejas de sus usuarios las loterías, los bingos, las ruletas y los sorteos; y las manías y preferencias de cada quisque por uno u otro dígito no pasan de ser eso, manías y preferencias sin mayor trascendencia. Los nueve dígitos, que son más serios que los jugadores, aparecen encabezando o terminando los números premiados en estos juegos con una frecuencia apreciablemente igual para todos ellos. Nadie esperaba otra cosa, ni siquiera los que apuestan por ella.





Este razonable comportamiento de  los dígitos, esta laudable seriedad con la que, cuando surgen de procedimientos estrictamente aleatorios, se ciñen a las leyes de la probabilidad es, sin embargo, engañosa. Se diría, a la luz de lo que a continuación veremos, que es, incluso, una estrategia deliberada para ocultar sus verdaderas, y perturbadoras, inclinaciones.

Indebidamente confiados en ella ha habido, y sigue y probablemente seguirá habiendo, industriosos ciudadanos que, deseosos por ejemplo de que sus contabilidades no reflejen la realidad de sus finanzas de modo excesivamente exacto y, por ello, también excesivamente gravoso; o, por otro ejemplo, de que los datos de sus supuestos experimentos científicos se ajusten a las hipótesis que tratan de demostrar con mayor exactitud que lo harían los obtenidos de modo empírico, se inventan apuntes contables u observaciones experimentales que no corresponden a verdaderos datos obtenidos del mundo real; y, al hacerlo tienden, consciente o inconscientemente, a reproducir este comportamiento irreprochablemente igualitario que los dígitos observan cuando forman parte de cifras obtenidas aleatoriamente. Es decir, sus datos inventados comienzan equitativamente, más o menos con igual frecuencia por unos que por otros dígitos, como si se hubieran obtenido dando vueltas a nuestro Bombo de la Lotería Infinita. Y es aquí donde la cagan

Sí señor, la cagan, como se lo estoy diciendo. Porque resulta que, por alguna extraña razón que aún nadie, creo, ha explicado de modo satisfactorio, las cifras que reflejan datos obtenidos de la medición de cosas existentes o de fenómenos producidos en el mundo real resultan no ser aleatorias, y no se comportan de modo igualitario ni equitativo, particularmente en lo que se refiere a su primer dígito.

Cuesta trabajo creer que sucede, y más trabajo aún yo estoy en ello comprender por qué sucede, pero al parecer es un hecho que sucede: en una gran cantidad de series de cifras obtenidas de las mediciones más variopintas de las cosas, tanto naturales como artificiales, existentes en el Universo: desde superficies de lagos hasta pesos atómicos de sustancias químicas, desde poblaciones de ciudades hasta longitudes de ríos, desde constantes físicas hasta votos emitidos… el primer dígito significativo esto es, quitando los ceros es el 1 con una frecuencia notablemente mayor que la de los ocho restantes, y que la que en estricta y equitativa aleatoriedad le correspondería. Le sigue en frecuencia el 2, y luego el 3… y así en orden decreciente hasta el 8 y el 9, que aparecen como primer dígito significativo muchas menos veces de las que cabría esperar.

Asombroso, pero rigurosamente cierto. Tanto que el fenómeno ha recibido un nombre, Ley de Benford, es estudiado por matemáticos serios y hasta lo utilizan la policía y los inspectores de Hacienda para detectar contabilidades amañadas, y los comités científicos para saber si un experimento ha sido o no falseado. En cuanto el primer dígito de una serie de datos se reparte con igual frecuencia entre las nueve posibilidades, empiezan a olerse que hay trampa, porque en las series de verdaderos datos, las cifras empiezan por 1 y por 2 muchas más veces que por 8 y por 9.

No sé ustedes, pero yo jamás había oído hablar de esta cuestión, ni mucho menos había imaginado que pudiera darse, hasta hace cosa de una semana, en que me dió noticia de ella uno de mis corresponsales internéticos más asiduos. Desde entonces llevamos ambos investigando como locos por Internet y cruzándonos correos y Gtalks sobre el asunto, en los que tratamos de explicárnoslo y criticamos acremente los intentos de explicación del otro. Lo pasamos muy bien.

Fruto de esta semana de revoloteos un tanto obsesivos sobre la Ley de Benford es este post, en el que inicialmente pensaba contarles a ustedes mis perplejidades sobre la cuestión. Pero me he enrollado como acostumbro, llevo ya más de dos mil palabras y aún no he me he metido apenas en harina, de modo que prometo para el futuro próximo otro, o quizás otros dos posts, en los que seguiré dándole vueltas al asunto. Si este les ha parecido un peñazo, ni lo intenten con los próximos, que prometen ser aún peores. Intenten ustedes pasarlo bien hasta entonces, para compensar.


Notas de mi corresponsal:

(1) Se estima que el número de átomos existentes en toda la materia del Universo es de 1080

(2) Recientemente Samsung, tras un pleito, ha sido condenada a pagar a Apple una indemnización de mil millones de dólares y lo ha hecho en monedas de cinco centavos de dólar. Se presentaron en las oficinas centrales de Apple 30 camiones que transportaban los 20.000 millones de monedas, y las descargaron en el suelo del parking.

(3) El Sistema Internacional de Unidades, de uso obligado en España, establece: El separador decimal debe estar alineado con los dígitos, mediante una coma (,), salvo en textos en inglés, en los cuales se emplea punto (.). No se ha de usar otro signo entre los números. Luego aunque a tí te guste más una coma volada, no debes usarla. No es cuestión de gustos.