Разработчик Mapbox Эрик Фишер создал карту, на которую нанесено более 6,3 миллиарда твитов с прикрепленной геопозицией. Фишер собирал данные для такой карты три с половиной года, при этом объем информации в сжатом виде составляет около трех терабайт (каждый день прибавляется еще 4 гигабайта).
Изображение: Эрик Фишер / Mapbox
В блоге Фишер рассказывает о проблемах, с которыми он столкнулся в процессе визуализации такого объема данных. Из шести миллиардов твитов только 9 процентов попали на карту как отдельные точки — остальные ему пришлось отфильтровать как дублирующие.
Дублирование возникало, когда люди чекинились в Foursquare — все чекины из одного и того же места сервис помечал одинаковыми координатами. Кроме того, Фишер заметил, что геоданные с айфонов распределяются вдоль правильной сетки — предположительно, так Apple пытается скрыть настоящее местоположение своих пользователей. Разработчику пришлось отфильтровать повторяющиеся координаты, чтобы карта не выглядела сетчатой.
Изображение: Эрик Фишер / Mapbox
Если увеличить карту в Лондоне, можно увидеть, что вдоль линии нулевого меридиана нет ни одного твита — Фишер пишет, что это Twitter по какой-то причине не передает информацию о записях, сделанных в этом районе.
Изображение: Эрик Фишер / Mapbox
Посмотреть карту Фишера можно в Mapbox.