Комитет по номенклатуре генов (HUGO Gene Nomenclature Committee, HGNC) в начале августа этого года анонсировал новые правила именования человеческих генов — теперь человеческие гены и экспрессируемые ими белки будут именоваться с учетом автоматического форматирования Excel.
На текущий момент изменения коснулись обозначения 27 генов.
На данный шаг ученым пришлось пойти из-за Excel. Оказалось, что уже несколько лет при заполнении исследователями электронных таблиц результатов различных экспериментов и оформлении научных публикаций в этой офисной программе происходит замена обозначения гена на дату.
Некоторые из переименованных генов были похожи на названия месяцев. Например, записанный в ячейку таблицы Excel ген «MARCH1» (сокр. от Membrane Associated Ring-CH-Type Finger 1) автоматически преобразовывается программой в 1 марта («1-Mar»). При выставлении вручную типа данных в отдельных столбцах Excel можно добиться нормального отображения названий генов. Но если этот файл открывать на других ПК с разными версиями офисного ПО, то таблица снова может интерпретировать наименования в даты. Microsoft за все время существования своего приложения не предложила решения этой ситуации, тем более, что в Excel нельзя отключить функцию автоматического форматирования.
Проблема с автоматической конвертацией научных символов в электронных таблицах Excel поднималась учеными неоднократно. Еще в 2004 году авторы научных работ предупреждали о том, что идентификаторы генов автоматически искажаются в программе Excel. За прошедшие пятнадцать лет проблема не была решена. Наоборот, стало выходить еще больше научных работ по биоинформатике с такими ошибками.
Чтобы избежать этой проблемы генетики провели процедуру переименования некоторых генов, например MARCH1 в MARCHF1, а SEPT1 в SEPTIN1. Старые названия также остались в работе. Их не будут использовать для других целей, чтобы избежать путаницы в будущем.
Вдобавок комитет по номенклатуре генов предложил отказаться от использования в обозначении генов обычных слов и наименований, чтобы минимизировать путаницу между ними и избежать ложных переходов при поиске в статьях. С текущего момента предполагается, что все обозначения генов должны быть уникальными, а их наименования — краткими и конкретными. Например, вместо WARS будет WARS1, а вместо MARS предложено обозначение MARS1. Новые наименования генов и обозначения для экспрессируемых ими белков не должны содержать оскорблений «в идеале на любом языке».
Исследователи поддержали процедуру переименования, так как им теперь будет проще работать и не нужно будет тратить часы на поиск и устранение таких банальных ошибок в таблицах Microsoft Excel.
Ранее в 2016 году исследование показало, что подобные ошибки в Excel встречались почти в каждой пятой из исследовательских работ, опубликованных в рецензируемых научных журналах.
v1000
Надо было не гены переименовывать, а исправить ошибку в генах у тех, кто придумал эту автозамену.
atomlib
Вообще не могу понять претензию.
Программа электронных таблиц имеет чёткое применение в бизнесе и финансах. Поэтому данные она обрабатывает так, как принято в этих областях. Если в программу ввести «$100», то она подумает, что речь о валюте США. Ничего странного здесь нет.
Если генетикам захотелось забивать гвозди микроскопом, то это уже их проблемы. Теперь даже поменяли форму гвоздей, чтобы было удобней.
Neusser
Вроде бы, даже Майкрософт не говорит, что эксель — исключительно для бизнеса и финансов.
И да, автоформатирование текста в дату по умолчанию бесит. Так же бесит, что когда поменяешь формат ячейки назад в текст, в ней оказывается не то, что ты вводил, а натуральное число.
atomlib
«Молодой человек! Это не для вас сделано. Не покупайте.» Это вот так должно звучать?
Ну конечно же не говорит. Лишней покупке компания рада. Но вот менять ничего не меняет.
Neusser
Не говорит, потому что эксель уже давным-давно инструмент для работы со всевозможными данными. У него нет четкого применения исключительно для бизнеса и финансов. Да и не было никогда.
atomlib
У «Икселя» есть чёткая целевая аудитория, для которой его разрабатывают. И с самого начала это были бизнес и финансы.
Если кто-то хочет использовать программу для других целей, страшного ничего в этом нет. Но не надо удивляться странностям в работе.
mig126
В бизнесе он тоже косячит. У меня к примеру штрихкоды переводит непонятно во что, приходится каждый раз отключать эту хрень в нужных ячейках. Да и вообще не помню чтобы оно что то полезное делало, только мешает. А выключить как уже писали нельзя. Сильно раздражает.
VSOP_juDGe
Любой бизнес офигевает, увидев число в Е формате. А эксел так показывает большие числа по умолчанию :)
drWhy
КМК правильнее со стороны производителя ПО приучить пользователей набирать значения в определённом довольно строгом формате (тем более, что это совершенно не сложно), чем пытаться интерпретировать любой вводимый текст как число.
Проблема существует, и она довольно нередко мешает использовать в остальном почти идеальный инструмент.
Например, все следующие фрагменты текста будут насильно преобразованы в число 43831:
1.1, 1-1, 1/1, 1мар, 1март
И список этот далеко не полный.
Ячейке, кроме того, будет навязан формат dd.mmm и при попытке редактировать её содержимое, не меняя формата (например, из макроса) можно получить сюрприз.
Текст «мар1» преобразуется в 36951, т.е. дату 01.03.2001.
Кому и для чего нужны все эти форматы? Хотелось бы большей детерминированности. Такое поведение программы действительно отнимает время и усилия пользователя на проверку и исправления, особенно при конвертации больших документов, отметая все разумные попытки автоматизации такой проверки.
Плюс реакция на вводимые с клавиатуры или импортируемые из других форматов данные зависит от настроек ОС: разделителя десятичных знаков, языка ввода, формата чисел и т.д., что только усиливает бардак.
Генетики пошли по принципу «если гора не идёт к Магомету, Магомет идёт к горе», это решило локальную проблему но создало опасный прецедент. А неудобство для остальных осталось.
Cekory
Насколько я понимаю, это привет из прошлого века. Был период, когда считалось, что компьютер должен пытаться понять, чего от него хочет человек. И Excel вот пытается. По этой же причине, как мне кажется, в JavaScript такое фантастическое приведение типов.
Сейчас мировоззрение изменилось, но вряд ли будут что-то ломать из-за обратной совместимости.
DaemonGloom
Проблема в том, что от них хотят не сломать обратную совместимость во всём, а всего лишь галочку «отключить нафиг автоматическое преобразование данных в ячейках». Это не особо сложно, если они не размазали эти преобразования по всему коду.
VSOP_juDGe
Если бы хорошо пытался, то вопросов бы не было.
Попробуйте в Javascript с его «фантастическим приведением типов» сделать parseFloat(«195 784,34»).
Cekory
В том-то и штука, что по современным воззрениям хорошо сделать "угадайку" невозможно. Поэтому и появились разные "Явное лучше неявного" и "Должен быть только один способ".
В приложении к Экселю это предполагает, что формат для даты только один и никто никуда ничего автоматически не конвертирует. А если надо преобразовать много дат в странном формате, то в контекстном меню для выделенных ячеек будет пункт "Попытаться преобразовать в даты". И явным образом по прямому указание преобразует. Как-то так.