En este blog iré comentando en español pequeños resúmenes de los módulos del curso Networks, friends, moneys and bytes de Coursera, conducido por el instructor Mung Chiang de la Universidad de Princeton, cualquier duda o comentario serán muy bienvenidos porque así aprendemos todos

sábado, 8 de diciembre de 2012

Como funciona Internet


El sistema que permite el tráfico de datos por Internet se ha ido formando de manera evolutiva, siguiendo algunos criterios fundamentales tales como la compatibilidad hacia atrás, las instalaciones incrementales y los incentivos económicos. Es difícil determinar cuales de estos avances se han producido por una planificación deliberada y cuales han sido simplemente un legado de accidentes o casualidades históricas.

Una de las ideas fundamentales detrás de Internet es el packet switching, o transmisión conmutada de paquetes. Para entender esta idea es útil considerar su opuesto, el canal dedicado. Supongamos un antiguo sistema de teléfonos conectado por cables y con una operadora que hace las conexiones, en este caso tendríamos dos alternativas posibles, la más obvia sería que desde cada casa con teléfono salga un par de cables que la conecte con la central telefónica. Este sería un sistema muy confiable pero extremadamente ineficiente, porque la mayoría del tiempo los pares de cable pasarían sin ocuparse, porque las personas no están llamándose por teléfono las 24 horas del día. Este es el equivalente de líneas dedicadas (circuit switched) cuya ventaja es la confiabilidad y la desventaja su ineficiencia y alto costo.

Pero tenemos una alternativa que consiste en dividir las casas por sectores y tirar un solo par de cables compartidos para todo un bloque. Esto puede causar problemas cuando hay dos llamadas para teléfonos ubicados en el mismo bloque, pero estos problemas son improbables porque si el bloque de casas atendidas no es demasiado grande la probabilidad que existan colisiones es baja. ¿Y que pasa cuando existe una colisión? Simplemente se atiende al primero que llega y el segundo que trata de ocupar la línea compartida recibe el tono "ocupado", tendrá que esperar a que el otro termine su llamada. Si ambos llaman exactamente en el mismo instante, sin un milisegundo de diferencia, normalmente ambos reciben el tono "ocupado" aunque esta es una situación muy improbable. Esta es una idea análoga al packet switching cuya ventaja es la eficiencia y la desventaja en que es menos confiable porque está sujetas a colisiones y congestión (por ejemplo cuando después de un terremoto todos llaman al mismo tiempo).

Las líneas dedicadas tienen otro problema grave que no es tan evidente: resulta muy fácil cortarlas. Como existe un único circuito, basta que alguien corte ese circuito con un alicate para dejarlo definitivamente fuera de servicio.  Este problema alertó a los militares en USA, que durante los años de la guerra fría  vieron que las universidades, centros atómicos, etc. estaban conectando sus supercomputadores con líneas dedicadas, que eran muy confiables pero extremadamente vulnerables ante un ataque: alguien con un alicate cortante podía hacer más daño que muchas bombas.

Por eso a comienzos de 1960, la ARPA y otras instituciones ligadas a la defensa financiaron la investigación para desarrollar un sistema de comunicaciones que tuviera dos características principales: redundancia y eficiencia. La redundancia significaba que no hubiese un circuito único, si un camino se cortaba se debería poder usar otro de manera automática. La eficiencia implicaba no tener que hacer cientos de líneas dedicadas en paralelo así es como fue inventado el packet switching, consistente en cortar los mensajes en pequeños paquetes de un largo fijo para ser distribuidos por distintos caminos en una red de conexiones.

Mientras las líneas dedicadas tienen garantía de calidad, el packet switching no puede garantizar que no se perderán paquetes y no habrá congestión, trabajan en cambio bajo el concepto de "best effort" o sea haciendo todo lo posible para que la calidad de servicio sea aceptable, cosa que ocurre en términos estadísticos, tal como ocurría con las antiguas líneas telefónicas compartidas.

El modelo de capas

Otra idea fundamental en Internet consiste en aislar los distintos procesos en un modelo de capas, que actúen como cajas negras en el sentido que sus responsabilidades, entradas y salidas sean estandarizadas. Eso permite hacer muchos cambios y avances dentro de la caja negra, pero mantiene la compatibilidad hacia atrás porque las entradas y salidas son siempre las mismas. El modelo más conocido es de cuatro capas como muestra la figura:

Cada capa produce un servicio a la capa superior. La capa física se refiere a los medios de transporte, por ejemplo fibra óptica; cable de cobre; canal wifi; enlace satelital, etc. La capa de enlace (links) se refiere a las redes de área local como Ethernet por ejemplo.  La capa de red (network) está constituída por los routers y el sistema de enrutamiento  de los packet (capa IP). La capa de transporte (TCP) verifica el tráfico end-to-end juntando los packet para reconstruir los mensajes y enviando señales de control sobre la recepción. Finalmente la capa de aplicaciones es todo el software que usamos como los browsers, páginas web, Facebook, Blogger y todo eso.

Las capas de transporte y red (TCP/IP) casi no han cambiado desde el inicio de Internet, las demás capas en cambio han tenido cambios enormes. Por ejemplo la velocidad de transmisión en la capa física ha aumentado 30.000 veces, una cifra difícil de imaginar.

El enrutamiento de los packets es una de las partes más complicadas de Internet y se pueden encontrar bibliotecas sobre esto. El principio general es que cada router tiene tablas de corto alcance, con los mejores caminos para llegar a cierta dirección: Ningún router tiene una visión global de las conexiones, solo conoce a sus vecinos más próximos y esto permite conectar cualquier par de direcciones a través de los trillones de caminos posibles en un promedio entre 12 -18 saltos.

jueves, 6 de diciembre de 2012

Tarifado en Internet


La economía en Internet es interesante porque las interacciones que se producen entre tecnología y economía son bidirecionales: las fuerzas económicas modelan la evolución de la tecnología, pero por otra parte las nuevas tecnologías disruptivas llevan a reescribir el balance de las ecuaciones económicas. Este campo de estudios también presenta un desafío por la falta de datos públicos de las estructuras de costo de los proveedores de Internet y la dificultad de obtener datos de consumobien calibrados.
(M. Chiang)

Los nuevos patrones de consumo creados por innovaciones tecnológicas como los teléfonos 3G-$G y las tablet, así como el aumento de consumo de video han hecho aparecer la necesidad de crear nuevos esquemas de tarifas. Uno de estos nuevos esquemas es el "smart data pricing" que trata de ajustar las tarifas de acuerdo al consumo de los usuarios. Algunas de estas estrategias son por ejemplo cobrar según el número de horas de uso; según la capacidad esperada de cada sesión; por servicio prioritario;  cobrar tanto a los creadores como a los consumidores de contenidos; etc.

La idea es que un sistema de precios diferenciados beneficiará a los usuarios en su conjunto, porque la tarifa plata tiende a penalizar a los que consumen menos y beneficiar a los que consumen más. El tarifado también puede ser dependiente de la hora considerando que hay horas de congestión y otras de bajo tráfico.

En general en estos sistemas de tarifa diferenciada existe un compromiso entre el nivel de retardo aceptable para el usuario y el precio, por lo que los usuarios dispuestos a aceptar mayor retardo deben pagar menos y viceversa.

sábado, 3 de noviembre de 2012

Tarifa plana versus medida


Muchos años atrás, la conexión a Internet era con un modem por vía telefónica, uno discaba el número y los datos, transformados en sonido, eran enviados por teléfono a 300 bits/seg. La compañía telefónica cobraba igual que una llamada de voz, que en esos tiempos era bastante cara. El hecho es que Internet se pagaba por minuto de uso: mientras más minutos, más pagabas. Como imaginarán eso costaba un ojo de la cara además de ser insoportablemente lento, eran los años de la "Internet a galena" como la llamó la escritora Marta Blanco.

 Cuando aparecieron los primeros sistemas ISDN de 64 y 128 Mb/s las compañías optaron por cobrar tarifa plana mensual: todos pagan lo mismo independiente de cuanto usen Internet. En ese tiempo toda la gente estaba feliz porque no le cobrarían según el uso. Casi todos, recuerdo que leí a alguien argumentar que con la tarifa plana los usuarios normales terminaríamos subsidiando a los que hacen descargas y subidas masivas de datos. No recuerdo si fue Miguel Farah o Eduardo Kaftansky quien escribió eso, pero fue profético.

 Era obvio pero en su momento pocos lo pensaron, las compañías proveedoras de Internet (ISP) debían ser rentables y el precio que pagamos debe corresponder a los costos más la rentabilidad. Podemos pensar que los proveedores de Internet tienen como una tubería de diámetro fijo y el ancho de banda es como el caudal de agua -la analogía es bien adecuada- esos proveedores nos reparten a la casa en cañerías más pequeñas que nosotros usamos para descargar o subir datos. La economía de Internet tiene muchas similitudes con la economía del agua, algunas son complicadas y la mayoría de la gente no entiende, solo reclama.

El hecho es que hasta el año 2007 el ancho de banda se consideró como un recurso prácticamente infinito, igual que el agua y se pronosticó que llegaría el momento en que tendríamos "Internet gratis y de calidad para todos". Pero a partir del 2007 se empezó a popularizar el Iphone, así como la costumbre de ir en el bus viendo una película.

A medida que fueron apareciendo equipos con mayor resolución la demanda por ancho de banda para esas aplicaciones ha venido creciendo exponencialmente, y se está llegando a un punto que los ISP ya no podrán seguir con el esquema de tarifa plana. Entonces las principales alternativas que enfrentan son:

 1.-Subir el precio de la tarifa plana
2.-Bajar los anchos de banda en la práctica, haciendo Internet más lenta
3.-Volver a medir el uso y cobrar más al que más usa y viceversa.

 Un usuario como yo está lejos de consumir 1 Gb/s mensual, en cambio otros, adictos a Youtube y los juegos en línea consumen mucho más que eso ¿por que debería subsidiar yo a los grandes consumidores, especialmente si usan Internet para puras estupideces? En Estados Unidos Verizon y AT&T están empezando a cobrar US$ 10 por Gb/s consumido, yo pago US$ 40 mensuales y consumo menos de 1 GB/s. Eso definitivamente no es justo ni tampoco eficiente.

¿Existe el Talón de Aquiles de Internet?


En el año 2000 apareció un artículo en la revista Nature The Internet's Achilles' Heel: Error and attack tolerance of complex networks que tuvo miles de citas, los autores Albert, Jeong y Barabasi se hicieron famosos de manera instantánea con su paper que decía en el resumen: "En este paper demostraremos que la tolerancia a errores no es una propiedad de todos los sistemas redundantes sino solo por cierta clase de redes inomogeneas llamadas scale-free networks (...) sin embargo esta tolerancia a los errores tiene un alto precio, estas redes son extremadamente vulnerables a los ataques, por ejemplo a algunos nodos seleccionados".

 El artículo completo es de solo siete páginas y se puede bajar de la página que aparece en el link anterior. Ser publicado en una cover story de Nature es el sueño de muchos intelectuales, en esa revista apareció el artículo de La Tragedia de los Comunes, o Vox Populi de Francis Galton. Muchas de las ideas fundamentales del pensamiento científico han aparecido en esa revista. La cosa es que el artículo de Albert y los otros estaba completamente pifiado: equivocado de principio a fin. La idea sin embargo era lo suficientemente interesante como para llegar a la portada de Nature. Si pensamos en Internet -o más exactamente en las conexiones físicas de cientos de millones de routers que dirigen los packets- lo podemos caracterizar como un enorme grafo donde los routers serían los nodos y las conexiones físicas (fibra óptica, cobre, enlaces satelitales, radioenlaces, etc.) serían los links que los vinculan.

Despojandolo de la demostración matemática, la teoría de los autores era que como el crecimniento de Internet es espontáneo y más o menos al azar (no existe en ningún lugar del mundo un "mapa" con todas las conexiones de Internet, ni tampoco regulaciones o requisitos para conectarse) entonces se debería producir el efecto "rich gets richer" ¿En que consiste esto? En que las conexiones se empiezan a aglomerar de manera natural en los nodos que -por su localización geográfica o por ser los primeros- llegan a estar colocados en "el centro de Internet" topologicamente hablando.

La teoría era entonces que habían uno pocos nodos de gran centralidad, que bastaba con "sacarlos" con el ataque de un virus o destruirlos físicamente por ejemplo y toda la Internet se derrumbaría al quedar segmentada en millones de partes. Ese era lo que llamaron el talón de Aquiles de Internet. ¿En que se equivocaron entonces? En todo, menos en su demostración científica que es impecable.

Lo que pasa es que las conexiones de Internet no se crean completamente al azar como suponían, en ese caso Internet efectivamente tendría un talón de Aquiles, pero existen fuerzas económicas que determinan el patrón de conexiones. Por ejemplo los usuarios de Internet tienen la típica distribución de "cola larga" de Pareto donde un 20% usa gran parte de de los recursos y el otro 80% usa el residuo, mientras que si las conexiones fuesen solo al azar se produciría una distribución normal, cosa que no ocurre.

 Por eso no existe un "centro" de Internet y no existen nodos "ricos que se hacen cada vez más ricos", por el contrario la distribución real de las conexiones de Interet es vacía en el centro y muy densa en la periferia. Es muy curioso como la economía de redes se parece a muchos otros fenómenos humanos regidos por la ley del 80-20, igual que en la economía común y corriente: siempre habrán pocos ricos y muchísimos pobres, pero los ricos no se enriquecen más y más indefinidamente. Hay ricos pero no son los mismos, igual que en los nodos de Internet.

Small World (6 grados de separación)


En el año 1969 se realizó famoso experimento llamado "seis grados de separación", no lo voy a comentar sino que mejor copio lo que aparece en Wikipedia:

 La teoría de los seis grados de separación es una hipótesis que intenta probar que cualquiera en la Tierra puede estar conectado a cualquier otra persona del planeta a través de una cadena de conocidos que no tiene más de cinco intermediarios (conectando a ambas personas con sólo seis enlaces), algo que se ve representado en la popular frase "el mundo es un pañuelo". 

La teoría fue inicialmente propuesta en 1930 por el escritor húngaro Frigyes Karinthy en un cuento llamado Chains. El concepto está basado en la idea de que el número de conocidos crece exponencialmente con el número de enlaces en la cadena, y sólo un pequeño número de enlaces son necesarios para que el conjunto de conocidos se convierta en la población humana entera. Recogida también en el libro "Six Degrees: The Science of a Connected Age” del sociólogo Duncan Watts, y que asegura que es posible acceder a cualquier persona del planeta en tan sólo seis “saltos”.

Este fenómeno de pocos grados de separación en se observa en muchísimas redes enormes. No significa que todos estés separados por 6 nodos sino que en promedio, una gran cantidad de nodos se presenta ese fenómeno. Existen dos mecanismos por los que el Small World opera:

a) Estructural: existen caminos cortos en las redes
b) Algorítmico: con muy poca información local se puede encontrar la ruta más corta cuando la red es grande

Y mientras más grande es la red más crecen las posibilidades de encontrar el camino entre dos puntos en menos saltos.  Se dice que en Facebook por ejemplo -una red enorme- los saltos necesarios en promedio son solo 4.74.

Veamos primero lo de los caminos cortos (explicación estructural). Intuitivamente parece algo asombroso, pero no es tan raro, una persona bien poco sociable puede tener unos 20 amigos, y si cada uno de estos tiene otros 20, en 6 saltos su red tendría acceso a 20^6, o sea 64 millones de personas solo en el segundo nivel (amigos de los amigos). Claro que en la práctica son muchos menos porque existen muchos amigos comunes y los contactos repetidos, la gente parecida tiende a aglomerarse (homofilia), pero igual los caminos son suficientes para que en una red grande se pueda llegar de un punto a otro solo con un promedio de pocos saltos.

La otra explicación (algorítmica) es que en una red grande con muy poca información local se puede navegar de manera muy eficiente. De hecho así es como se enrutan los packets de datos que viajan por Internet, cuya red tiene miles de millones de nodos y sin embargo lo usual es que se llegue de un punto a potro en no más de 12 saltos en promedio.

domingo, 14 de octubre de 2012

Facebook: infección y contagio

Una característica típica en las redes es la llamada "influencia" donde un determinado usuario de Facebook o Twitter (por ejemplo)  influyen de cierta manera en los demás usuarios. Para estudiar este efecto el profesor Chiang usa un modelo de dependencia topológica, es decir considera a los usuarios como nodos conectados por medio de links y según la forma en que estos se encuentran conectados y la facilidad para establecer nuevas conexiones determina la influencia de cada cual.

En números Facebook tiene alrededor de 900 millones de usuarios y Twitter cerca de 500 millones, en cifras de 2012, esa es la cantidad de nodos de las respectivas redes. Ambos sistemas usan links direccionales donde seguir a alguien no implica que esa persona nos siga de vuelta. El valor económico de la influencia es importante por ejemplo en las campañas de marketing viral, donde se plantan algunos nodos "semilla".

La idea es que ciertos nodos -por su ubicación- dan mayor probabilidad que la semilla produzca un contagio, por eso es impoetante estudiar la topología de la red. Un ejemplo de como influye la topología es la influencia de la familia Medici, cuyo arbol genealogico muestra claramente que estaban en un nodo privilegiado por sus relaciones familiares.

Las topologías de red se pueden representar en grafos y matrices -igual que al calcular el Pagerank de Google- existen grafos con enlaces direccionales y bi direccionales. De la misma manera los patrones de conectividad de un grafo se pueden representar en una matriz, lo que permite manipularlos con operaciones algebraicas. Así se puede construir una matriz donde cada valor Aij será 1 si hay un link entre i-j y 0 si no hay un link entre estos nodos.

Para estudiar como se propaga la influencia según la topología de una red se pueden usar dos enfoques tomados de la medicina: los modelos de contagio  y los modelos de  infección.

Los modelos de contagio se dan por condiciones de conexión que los hacen accesibles a otros, de manera similar a la familia Medicis.  En estos casos es importante que los nodos se aglomeran en clusters y algunos tiene una posición privilegiada para contagíar bien sea por su centralidad o por el alcance de sus links. Esta propiedad llamada closeness centrality del nodo i se denota por Ci.

También existe la betweeness centrality, que es cuando un nodo está en medio del camino más corto entre otros nodos esto se denota por Bi. La importancia de un nodo se llama centrality y en cierto modo refleja que tiene alguna clase de acceso privilegiado o superior a los demás por su topología. Una de las medidad de centralidad o importancia es la que usa Google en el Pagerank calculando el eigenvector y el eigenvalor para clasificar las páginas web. Otras dos medidad de importancia de un nodo son la cercanía (o sea cuantos links cercanos lo unen con otros nodos) y el diámetro, que por el contrario es la cualidad de conectarse con cluster lejanos.

Así para modelos de contagio existen cuatro posibles métricas, según que clase de características estamos más interesados, todas basadas en la posición del nodo dentro de la topología de la red.

Los modelos de infección en cambio, estudian la transición de un estado a otro en el tiempo, son continuos y se tratan usando ecuaciones diferenciales. Se dice que estos son modelos basados en la población. Para la infección se definen tres estados: (S)usceptible, (I)nfectado y (R)epuesto/inmunizado. Que en redes corresponderían a un usuario que no ha sido influenciado, que está siendo influenciado y que ya fue influenciado por otro usuario, pero se "recuperó". Beta es la tasa en que un nodo se infecta y gama la tasa en que se recupera. La ecuación de este modelo de infección es:

dS(t)/dt=-BetaS(t)I(t) y su solución es:

I(t)=(I(0)e^Betat)/(S(0)+I(0)e^Betat), graficamente es logarítmica creciente


Esto en el caso sencillo que todos se infectaran y nadie se recupere. La curva llena es de los suseptibles S(t) y la punteada de los infectados I(t). Lo interesante de estas curvas logarítmicas es que parten cóncavas y en cierto punto cambian de sentido transformándose en convexas, donde ambas curvas se juntan es el punto de inflexión. En las curvas reales, conciderando la recuperación tenemos que S(t) cae y R(t) sube hasta que todos se recuperan (o mueren) en el intermedio los infectados I(t) suben a un máximo y a partir de cierto punto comienzan a caer.

El contagio es un cambio binario, alguien se contagia o no por la influencia de otro, la infección en cambio es un continuo en el tiempo donde alguien que es suceptible se infecta y eventualmente se recupera quedando o no inmunizado. 

El modelo de infección resuelto con ecuaciones diferenciales no considera la topología de la red porque se trata de como ocurre la infeción solo entre dos nodos, incluír la topología de toda la red complica bastante las cosas porque se deben estudiar probabilidades de ser infectado, con esto el modelo se hace intratable y hay que usar distintas aproximaciones, después de sucesivas aproximaciones se llega a una ecuación diferencial con matrices matemáticamente tratable como uestra la figura


Claro que estos modelos super simplificados presentan una utilidad limitada y existe una gran brecha entre la teoría y la práctica, pero sirven para hacerse una idea de como funcionan los mecanismos de contagio e infección en toda clase de redes.

sábado, 13 de octubre de 2012

Youtube y la formación de cascadas


Existen varios efectos de red -externalidades- que pueden ser positivos o negativos, la interferencia entre teléfonos móviles es un efecto negativo y la formación de cascadas o avalanchas de decisión es normalmente un efecto deseado. Youtube es uno de los servicios donde este efecto de cascada se ve claramente, donde se ha visto el caso de un video visto por casi 500 millones de personas a causa de este efecto.

En general las cascadas se producen por dependencia de la información entre los que toman una decisión, al contrario de la independencia requerida en "la sabiduría de las multitudes". Es muy difícil modelar excatamente estos fenómenos porque la gente en la vida real no actúa solo guiados por criterios racionales. Pero se puede demostrar que incluso si los actores que toman una decisión conociendo las decisiones que antes han tomado los demás siguen solo criterios racionales tenderán a aparecer estos fenómenos de cascada.

Un modelo simple para mostrar este efecto es el de toma de decisiones secuenciales, que se puede mostrar con el siguiente experimento imaginario: supongamos que colocamos a una serie de personas en fila frente a una pizarra, que deben adivinar el valor de un número que puede ser uno o cero.

Para hacer su estimación, cada uno recibe una "señal privada" que no es exacta, pero tiene una probabilidad mayor del 50% de ser el número correcto, a la señal privada que recibe la persona i la llamaremos xi. Tengan en cuenta que la señal privada puede ser 1 o 0, pero hay más probabilidades que el 50% que sea la correcta.. O sea las personas en ausencia de otra información, deberían escoger siempre la señal privada.

Entonces la primera persona recibe la señal privada x1 y la escribe en el pizarrón como su "acción pública" y1, que todos los que vienen después pueden ver. Es lógico (racional) que el primero siempre escribirá la señal privada. La segunda persona recibe su señal privada que puede ser igual o distinta a la que aparece en la pizarra, si x2 es igual a y1, las probabilidades de que sea el número correcto son mayores así es que coloca el mismo número y2=y1. Si son distintas no tiene mayor información y puede colocar cualquiera de los dos valores.

La tercera persona es la que puede iniciar la cascada porque si ve que y1=y2 y ese número coincide con su señal privada x3, colocará el mismo número y tendremos y1=y2=y3, el inicio de la cascada. De no ser así puede colocar cualquiera de los dos números, por ejemplo su propia señal privada. Sin embargo al calcular la probabilidad con la fórmula de Bayes resulta que la probabilidad de seguir los dos datos anteriores es mayor que el 50%.

Por eso, a medida que se va creando una serie de números repetidos, las personas pensarán racionalmente que son muchos los que han recibido la misma señal privada, que tiene la probabilidad mayor a 50% y que ese número es más probable independiente de la señal privadas que reciban. Es el efecto del análisis bayesiano que supone que algo que se repite está entregando información útil para el futuro. Una cascada se inicia entonces -suponiendo comportamiento racional- con el tercer participante si los dos anteriores han elegido el mismo valor.

También se pueden calcular las probabilidades de que ocurra una cascada en un esquema de este tipo y resulta que a medida que N (el número de personas o estimaciones que se hacen) es más grande, la probabilidad de que aparezca una cascada se aproxima a uno, o sea pasado suficiente tiempo se puede esperar con bastante seguridad que las cascadas se producirán.

¿Cuanto dura una cascada? Podría ser indefinida, pero como hablamos de probabilidades cualquiera pordría apostar a romperla simplemente porque
Pero las señales privadas son solo probabilidades, y este comportamiento de seguir la serie también está afectado por las señales privadas. En el fondo lo que se elige es si le creen al pensamiento de los demás o a la señal privada recibida. Cuando alguien corta una cascada se lllama el efecto de "el Rey está desnudo" lo que podría inducir otra cascada en sentido inverso. Este efecto se puede ver cuando las ropas pasan de moda o cuando cae un régimen político y es sustituído por otro.

Este fenómeno de dependencia de la información es típico de las redes, donde las personas toman decisiónes en base a las acciones de otras personas ignorando la información propia que disponen, otros nombres son modelo de influencia social o cascada de información.

Ahora, la probabilidad de que en un número grande de participantes N se produzcan más cascadas correctas (con el verdadero resultado) se hace muy pequeña a medida que N crece. O sea las cascadas no son predictivas y no tienen mayor probabilidad de ser correctas. La demostración de estas probabilidades está en la conferencia Q7 Part D del módulo How do I viralize a Youtube video? Pero la explicación conceptual es que las cascadas son lo opuesto de la "sabiduría de las multitudes", donde las estimaciones son completamente independientes y los errores tienden a anularse. En una cascada la dependencia es completa, los errores tienden a aumentarse y -cuando hay dependencia de información- lo que se produce es algo así como "la estupidez de las multitudes".