遺伝学者たちは、遺伝子名を日付に自動変換するマイクロソフト・エクセルなどのソフトウェアと何年も格闘した後、ヒト遺伝子の命名に関する新たなガイドラインを発表した。
ヒト遺伝子の名称と略称の標準を定めるヒトゲノム機構(HUGO)の遺伝子命名委員会は、スプレッドシートに保存された遺伝子データベースへのさらなる損害を抑制するため、今週規則を更新した。
例えば、「deleted in esophageal cancer 1(食道がんにおける欠失遺伝子1)」として知られる遺伝子は、以前は略してDEC1と呼ばれていました。しかし、これをExcelに入力すると、1-Decに自動修正されます。SEPT2やMARCH1といった記号で表された他の遺伝子も同様で、自動的に2-Sepまたは1-Marにフォーマットされます。これらの遺伝子は、スプレッドシートで文字化けするのを防ぐため、それぞれDELEC1、SEPTIN2、MARCHF1に変更されました。これは、Excelでセルの書式を変更するよりも簡単なようです。
なぜこんなに面倒なことになっているのでしょうか?自動日付修正によって、スプレッドシートを解析するソフトウェアが遺伝子を読み飛ばしたり、誤って解釈したりして、分析作業を台無しにしてしまう可能性があります。他にも厄介な点があります。特定の遺伝子を名前で検索する科学者が、破損したエントリを見落としてしまう可能性があります。遺伝子データセットはテキストファイルやCSVファイルとして共有されることが多く、バイオインフォマティクスの科学者は長年Excelを使って資料を整理してきました。そして、これらすべてが集約されると、静かに災難が襲いかかるのです。
「もっと良い代替手段はたくさんあります」と、2012年にExcelの遺伝的リスクについて警鐘を鳴らしたデータサイエンティストのニール・サンダース氏は本日、The Register紙に語った。「しかし、Excelはコンピューターにインストールされていて、たとえ正しく使えなくても、使い慣れているように感じています。特に生物学者は、プログラミングスキルの習得に時間をかけることに消極的です。」
Microsoft のドキュメント形式は Linux 上のオフィススイートの悩みの種ですが、SoftMaker の Office 2021 ベータ版には解決策があるかもしれません
続きを読む
自動修正の問題は、日付に類似した名前を持つ遺伝子のごく一部にしか影響しない可能性がありますが、その影響は科学研究や臨床試験に広範囲にわたります。このポリシー変更については、The Vergeが本日最初に報じました。
うんざりして途方に暮れた学者たちは、何年も前からこの問題を嘆く科学論文を書き、インターネットフォーラムで不満を漏らしてきました。16年前にBMCバイオインフォマティクス誌に掲載された研究では、自動修正機能が少なくとも30個の遺伝子名に影響を与えていることが判明しました。
「遺伝子名を含む分析にエクセルを使用するユーザーは、医学的に重要な遺伝子も含めた遺伝子が見失われる可能性があり、慎重に管理された公開データベースさえも汚染されているこの問題に注意する必要がある」と論文の著者らは警告した。
2016年にBMC Genome Biologyに掲載された別の論文では、18誌に掲載された3,500件以上の論文のうち約20%に、遺伝子名の誤りが散見されるExcelファイルが含まれていることが明らかになりました。この自動修正機能の不具合は非常に多く、HUGO遺伝子命名委員会は、Excelで遺伝子データセットを開く際にこの問題を回避する方法を段階的に説明したYouTube動画を作成しました。
YouTubeビデオ
「CSVファイルをインポートする際にExcelの列タイプを設定すれば、この問題は完全に回避できるとよく指摘されます」とサンダース氏は語った。「しかし、誰もこれをやりません。ファイル名をクリックするだけでExcelが開き、あっという間に被害が拡大してしまうのです。」彼はこれらの失態についてMicrosoftの責任を問う。「実際のところ、問題はデータ型の明示的な自動変換がソフトウェアのデフォルトの動作として不適切な点にあると思います。」
現在、科学界はこの問題を根絶するために確固たる措置を講じています。新たなガイドラインでは、短縮された遺伝子名(シンボル)は「一般的に使用される略語」と同じであってはならないと規定されています。また、シンボルは大文字のラテン文字とアラビア数字のみで構成され、不快感や侮辱感を与える表現は認められません。
「HGNCは、個々の遺伝子の命名をケースバイケースで検討しており、命名法が最終的にコミュニケーションとデータ検索に役立つという十分な証拠があれば、これらのガイドラインから逸脱することもある」と委員会は述べた。
「個人的には、遺伝子記号の変更は良い解決策ではないと思います」とサンダース氏は語った。「しかし、マイクロソフトがExcelのデフォルトの動作を変えようとせず、この問題について生物学者を啓蒙する16年以上の試みが失敗に終わったことを考えると、現実的な解決策と言えるでしょう。」®
追記: 2004 年にこのことについて警告しました...