Комитет по номенклатуре генов (HUGO Gene Nomenclature Committee, HGNC) в начале августа этого года анонсировал новые правила именования человеческих генов — теперь человеческие гены и экспрессируемые ими белки будут именоваться с учетом автоматического форматирования Excel.

На текущий момент изменения коснулись обозначения 27 генов.

На данный шаг ученым пришлось пойти из-за Excel. Оказалось, что уже несколько лет при заполнении исследователями электронных таблиц результатов различных экспериментов и оформлении научных публикаций в этой офисной программе происходит замена обозначения гена на дату.

Некоторые из переименованных генов были похожи на названия месяцев. Например, записанный в ячейку таблицы Excel ген «MARCH1» (сокр. от Membrane Associated Ring-CH-Type Finger 1) автоматически преобразовывается программой в 1 марта («1-Mar»). При выставлении вручную типа данных в отдельных столбцах Excel можно добиться нормального отображения названий генов. Но если этот файл открывать на других ПК с разными версиями офисного ПО, то таблица снова может интерпретировать наименования в даты. Microsoft за все время существования своего приложения не предложила решения этой ситуации, тем более, что в Excel нельзя отключить функцию автоматического форматирования.

Проблема с автоматической конвертацией научных символов в электронных таблицах Excel поднималась учеными неоднократно. Еще в 2004 году авторы научных работ предупреждали о том, что идентификаторы генов автоматически искажаются в программе Excel. За прошедшие пятнадцать лет проблема не была решена. Наоборот, стало выходить еще больше научных работ по биоинформатике с такими ошибками.



Чтобы избежать этой проблемы генетики провели процедуру переименования некоторых генов, например MARCH1 в MARCHF1, а SEPT1 в SEPTIN1. Старые названия также остались в работе. Их не будут использовать для других целей, чтобы избежать путаницы в будущем.

Вдобавок комитет по номенклатуре генов предложил отказаться от использования в обозначении генов обычных слов и наименований, чтобы минимизировать путаницу между ними и избежать ложных переходов при поиске в статьях. С текущего момента предполагается, что все обозначения генов должны быть уникальными, а их наименования — краткими и конкретными. Например, вместо WARS будет WARS1, а вместо MARS предложено обозначение MARS1. Новые наименования генов и обозначения для экспрессируемых ими белков не должны содержать оскорблений «в идеале на любом языке».

Исследователи поддержали процедуру переименования, так как им теперь будет проще работать и не нужно будет тратить часы на поиск и устранение таких банальных ошибок в таблицах Microsoft Excel.

Ранее в 2016 году исследование показало, что подобные ошибки в Excel встречались почти в каждой пятой из исследовательских работ, опубликованных в рецензируемых научных журналах.