
Microsoft решил проблему, из-за которой много лет мучились ученые: Excel принудительно превращал названия некоторых генов в даты И эти гены даже официально переименовывали. Теперь в Excel внесли специальные «научные» функции
Этот материал был впервые опубликован 6 августа 2020 года и обновлен 24 октября 2023 года.
Компания Microsoft 19 октября представила обновление программы Excel, которое должно окончательно решить проблему, известную как минимум с 2004 года: превращение названий некоторых генов в даты в ходе их принудительного форматирования. Аналогичную конвертацию могут проходить не только гены, но и некоторые цифробуквенные коды.
Наименования генов обычно состоят из нескольких букв (чаще всего это аббревиатура, указывающая на тип мутации или назначение гена) и тоже могут дополняться цифрами. Некоторые из ранее существовавших имен были схожи с названиями месяцев года, из-за чего Excel, которым до сих пор пользуются многие ученые по всему миру, интерпретировал их как даты. Например, при записи в ячейку Excel названия гена MARCH1 программа автоматически преобразовывала его в «1 марта».
Хотя в Excel при заполнении таблицы можно вручную отключить автоматическое форматирование, это не решало проблему: когда файл открывал другой человек, у которого функция по умолчанию была включена, данные все равно преобразовывались.
Проблема эта носила массовый характер. В 2016 году было проведено исследование, авторы которого изучили 3597 научных работ, опубликованных в рецензируемых научных журналах, и примерно в каждой пятой нашли ошибки, вызванные автоматическим форматированием данных в Excel.
Не имея возможности повлиять на Microsoft, Комитет по номенклатуре генов в 2020 году рекомендовал просто сменить названия у нескольких десятков человеческих генов. В общей сложности комитет выпустил рекомендации по переименованию 27 генов. Так, например, MARCH1 стал MARCHF1, а SEPT1 — SEPTIN1.
Теперь же компания-производитель табличного редактора постаралась окончательно решить проблему форматирования, предоставив пользователю возможность отключать разные типы преобразования. Так, в меню «Файл > Настройки > Данные > Автоматическое преобразование данных» появилось несколько «галочек», которые позволяют не только отключать преобразование текста вроде MARCH1 в дату, но и отключать «научную» запись числа, из-за которой цифробуквенные коды вроде 2310009E13 могли пониматьcя как цифры (2.31×10¹³). В Microsoft отмечают, что предложенное решение сработает, только если в документе нет макросов.
Excel изначально не предназначен для анализа научной информации, но ученые продолжают пользоваться программой из-за ее широкого распространения и легкости использования. И иногда это приводит и к другим скандальным ошибкам.
Так, в 2020 году из-за использования Excel Служба общественного здравоохранения Великобритании потеряла результаты около 16 тысяч тестов на ковид. Работники службы вручную собирали в Excel результаты тестирования, присылаемые им из лабораторий в простом текстовом формате csv, и незаметно для себя достигли миллионного лимита на число строк в таблице. В результате «лишние» результаты тестов были потеряны.
«Медуза»
HUGO Gene Nomenclature Committee
Подразделение Международной организации по изучению генома человека, которая утверждает уникальные имена для всех известных человеческих генов.
MARCH1
Membrane Associated Ring-CH-Type Finger 1
Макрос
Программа, которая выполняет заданный набор действий в офисном документе.