Данное сообщение (материал) создано и (или) распространено иностранным средством массовой информации, выполняющим функции иностранного агента, и (или) российским юридическим лицом, выполняющим функции иностранного агента.
Нам нужна ваша помощь. Пожалуйста, поддержите «Медузу».
Разработчик Mapbox Эрик Фишер создал карту, на которую нанесено более 6,3 миллиарда твитов с прикрепленной геопозицией. Фишер собирал данные для такой карты три с половиной года, при этом объем информации в сжатом виде составляет около трех терабайт (каждый день прибавляется еще 4 гигабайта).
В блоге Фишер рассказывает о проблемах, с которыми он столкнулся в процессе визуализации такого объема данных. Из шести миллиардов твитов только 9 процентов попали на карту как отдельные точки — остальные ему пришлось отфильтровать как дублирующие.
Дублирование возникало, когда люди чекинились в Foursquare — все чекины из одного и того же места сервис помечал одинаковыми координатами. Кроме того, Фишер заметил, что геоданные с айфонов распределяются вдоль правильной сетки — предположительно, так Apple пытается скрыть настоящее местоположение своих пользователей. Разработчику пришлось отфильтровать повторяющиеся координаты, чтобы карта не выглядела сетчатой.
Если увеличить карту в Лондоне, можно увидеть, что вдоль линии нулевого меридиана нет ни одного твита — Фишер пишет, что это Twitter по какой-то причине не передает информацию о записях, сделанных в этом районе.
Посмотреть карту Фишера можно в Mapbox.