生物大型モデルが生命科学分野にAI革命をもたらすBaiduの挑戦
バイドゥ株式会社
Baidu, Inc.(本社:中華人民共和国北京市、Baidu米NASDAQ:BAIDU、以下Baidu)は、生物分野におけるクライアントの試行錯誤によるコストを下げ、医薬品の研究開発効率を高めることを目的とし、世界初のDeepMind AlphaFold3をベンチマークとする生物分野向けの大型モデルHelixFold3 を正式リリースしました。HelixFold3 は大規模な構造予測により、高潜在力候補分子を高精度でスクリーニングを実現することができます。
今後もAI技術による、生命科学分野の課題、特に低分子創薬、高分子創薬、タンパク質研究、生物育種、酵素工学などの課題を推進する上での重要な役割として挑戦してまいります。
◾︎AlphaFold ノーベル化学賞
実験コストが高く、時間がかかり、タンパク質構造解析が困難だった従来の方法に比べて、2020年12月にリリースされたAlphaFold 2 は、ディープラーニング技術により、わずか数時間でタンパク質の三次元構造を正確に予測することができ、生物医学研究の速度を大幅に加速させました。
しかし、AlphaFold 2 にも課題が残りました。
人体を含む生物体の中で、タンパク質は単独で機能しているわけではなく、タンパク質と他のさまざまな分子との間の相互作用と異なる生物機能は結びついており、それが生物と疾病のメカニズムと経路の研究、医薬品の研究開発などに影響を及ぼしております。AlphaFold 2 ではタンパク質と他のタイプの分子との相互作用を予測することができませんでした。
その課題を解決すべく、2024年5月、DeepMind はより先進的なAlphaFold 3 をリリースしました。AlphaFold 3 は異なるタイプの生体分子(タンパク質、低分子リガンド、DNA、RNA、イオンを含む)間の相互作用をサポートし、タンパク質構造の描画を大幅に加速させました。
過去に研究者は数年をかけて構造をモデル化する必要があったが、AlphaFold 3ではたったの数分で、実験精度に匹敵する予測結果を得ることができ、AlphaFold 3 はAI技術を用いた「生物学の理解とモデル化」の道へ重要な一歩を踏み出しました。
◾︎世界初の AlphaFold3 をベンチマークとする国産大型モデル HelixFold3
AlphaFold 3は顕著な進展を遂げましたがまだオープンソースではなく、またアカウントごとの1日あたりの呼び出し回数を制限しているため、科学研究や産業界での新技術の発展に大きな制約があります。
AlphaFold 3の論文に基づいていくつかのチームが再現を試みましたが、研究開発チームの生物データ、モデルトレーニングの面で蓄積が必要であるだけでなく、チーム全体のエンジニアリングコードと製品アーキテクチャの能力に対する包括的な試練となっておりAlphaFold 3のすべてのタスクを完全に再現するのは非常に困難です。
Baidu PaddleHelixチームは長年の生命科学分野での研究開発の蓄積により、2024年8月、HelixFold 3を正式に外部リリースし、従来の低分子リガンド、核酸分子(DNAとRNAを含む)及びタンパク質の相互作用と構造予測において、AlphaFold 3の結果を再現することに成功しました。HelixFold 3は世界初の DeepMind AlphaFold 3 をベンチマークとするモデルです。
HelixFold 3 では従来 AI 技術を導入しづらいと考えられていた共有結合、化学修飾、PROTAC、分子糊、金属酵素などのシーンへの導入に成功したことにより、生命科学分野における AI 技術の応用範囲が大幅に拡大され、複雑な分子の設計が可能となりました。
◾︎HelixFold3への国際的な評価
HelixFold3の外部リリース後、業界内では多くの注目が集まり海外の有名なブログやソーシャルプラットフォーム上でも専門家や学者がHelixFold3の成果を紹介いただいております。
ColabFoldの2名の開発者、ハーバード大学FAS科学部のSergey Ovchinnikov助教授と東京大学の森脇由隆 准教授(Yoshitaka Moriwaki)は、すぐにHelixFoldの技術レポートをTwitter(現X)で転載紹介しております。
森脇由隆准教授は、日本の有名な技術共有フォーラムである Qiita において HelixFold3 の使用チュートリアルを翻訳し、共有しました。
(https://qiita.com/Ag_smith/items/a24ca180cc971e926d89)
著名なタンパク質構造研究専門家の Alexy Amunts 氏もこの成果を転載するとともに、称賛しました。
◾︎HelixFold 3 高性能コンピューティングプラットフォーム
Baiduの高性能コンピューティングプラットフォームを利用すれば、科学研究者は低コストで大規模な分子間相互作用予測を行うことができ、リガンド、蛋白、DNA、RNA、イオンなどの分子とその相互作用を予測できます。これは低分子薬、ポリペプチド系医薬品、 RNA 医薬品の研究開発に貢献することとなります。プラットフォームは柔軟な API 呼び出し、コード不要の可視化操作などをサポートするものとなっています。
HelixFold 3 を使用した生体分子構造の予測 -操作ガイド:https://paddlehelix.baidu.com/app/tut/guide/all/helixfold3(※ログインにはGitHubアカウントが必要です)
研究者はHelixFold 3 の高性能コンピューティングオンラインサービスを利用すれば、数ステップの簡単なクリック操作で、HelixFold 3 によりタンパク質、DNA、RNA、選定リガンドなどからなる複雑な生体分子構造をモデル化し、タンパク質と細胞内の他の分子の相互作用を予測することができます。またHelixFold 3 は研究者の新しい研究仮説の設定とその検証をサポートできるので、研究開発プロセスも加速します。
広範なコンピューティングリソースや専門的な機械学習のバックボーンを持たない研究者でも、簡単に始めることができます。
クライアントの商業開発ニーズにさらに応えるために、API サービスを間もなく提供する予定です。これによりクライアントの大量のタスク送信をサポートし、またクライアントは、ツールを自分の業務研究プロセスにシームレスに統合し、低分子/タンパク質のスクリーニング、設計などの下流の業務に導入することで、科学研究と商業開発を迅速に行うことが可能になります。
現在、HelixFold 3 は複数の生命科学のクライアントによるプロジェクトでアプリケーションのテストを完了しています。
製薬業界の研究開発責任からは「AlphaFold 3のリリースから3ヶ月ほどで、国産の大型モデルがその結果を再現することができる。また HelixFold 3 はタンパク質と細胞内の他の分子の予測精度も優れており、その結果には驚かされる。」と評価いただいております。
◾︎HelixFold3 と AlphaFold 3 の結果比較
我々のテストにより、HelixFold3 の精度は従来の低分子リガンド、核酸分子(DNA と RNAを含む)およびタンパク質の相互作用と構造予測において、AlphaFold3 オンラインサービスと同等であることが判明しました。
◾︎低分子リガンド
タンパク質-リガンド構造予測におけるその結果を評価するために、HelixFold3 と他の主流な方法との PoseBusters データセットにおけるパフォーマンスの比較を行いました。PoseBusters はリガンドドッキングアルゴリズムを評価するために使用されるベンチマークデータセットです。
当初428個の構造(PoseBusters V1)を有していたが、複数の生体分子単位内距離が5.0A未満のリガンドデータを排除すると、308個の構造(PoseBusters V2)に削減されました。
我々が比較したベースライン手法では、真のタンパク質構造を指定しない方法、既知のタンパク質構造を指定する方法、および活性部位残基を指定する方法の3つに分類可能です。
この2つのバージョンのデータセットでは、HelixFold 3はタンパク質構造を指定していなくても優れたパフォーマンスを発揮し、成功率は既知のタンパク質構造に依存する方法を超えており、その予測精度は現在トップのAlphaFold 3と同程度です。これはHelixFold 3のタンパク質-リガンド相互作用予測分野における優れた潜在力を示すものです。
◾︎核酸分子
核酸分子の結晶構造の数が少ないため、その構造を完全に人為的介入なく自動化して正確に予測することは大きな課題となっていました。
核酸分子の結果の評価については、HelixFold3 は CASP 15(タンパク質構造予測分野における重要な国際コンテスト)において結晶構造を有するRNAサンプルと、ProteinData Bank(PDB)から最新収集の 41 個の RNA 分子と 41 個の DNA 分子を評価しました。CASP15 の RNA サンプルにおける HelixFold3 の精度は、人為的介入がある方法 AIchemy_RNA2 にはまだ及ばないが、完全自動推論が可能な RNA モデルの中では AlphaFold3 に匹敵するレベルに達しています。PDB から最新収集の RNA と DNA の構造予測においても、HelixFold3 の精度は極めて競争力が高く、核酸分子構造予測に特化して設計されたモデル RoseTTAFold2NA および別の全原子生物分子構造予測モデル RoseTTAFold-AllAtom をはるかに上回っています。
◾︎タンパク質
タンパク質−タンパク質複合体構造予測の分野において、AlphaFold-Multimer は従来モデルを基礎として顕著な進歩を遂げたが、その成功率と正確性にはまだ改善の余地がありました。AlphaFold3 はこれを基に予測能力をさらに最適化したことにより、より優れたパフォーマンスを発揮できております。
現在、HelixFold3 はタンパク質−タンパク質複合体構造予測においてAlphaFold-Multimer のフォーマンスをわずかではあるがすでに超えており、より強力な予測能力を発揮できております。今後の研究業務ではこのギャップを縮め、予測精度と成功率のさらなる向上を図るため、HelixFold3 の最適化と反復に引き続き尽力してまいります。
HelixFold3オンライン体験リンク:https://paddlehelix.baidu.com/app/all/helixfold3/forecast (GitHubアカウントでログイン可能)お問い合わせ先:baidubio_cooperate@baidu.com
企業プレスリリース詳細へ
PR TIMESトップへ
Baidu, Inc.(本社:中華人民共和国北京市、Baidu米NASDAQ:BAIDU、以下Baidu)は、生物分野におけるクライアントの試行錯誤によるコストを下げ、医薬品の研究開発効率を高めることを目的とし、世界初のDeepMind AlphaFold3をベンチマークとする生物分野向けの大型モデルHelixFold3 を正式リリースしました。HelixFold3 は大規模な構造予測により、高潜在力候補分子を高精度でスクリーニングを実現することができます。
今後もAI技術による、生命科学分野の課題、特に低分子創薬、高分子創薬、タンパク質研究、生物育種、酵素工学などの課題を推進する上での重要な役割として挑戦してまいります。
◾︎AlphaFold ノーベル化学賞
実験コストが高く、時間がかかり、タンパク質構造解析が困難だった従来の方法に比べて、2020年12月にリリースされたAlphaFold 2 は、ディープラーニング技術により、わずか数時間でタンパク質の三次元構造を正確に予測することができ、生物医学研究の速度を大幅に加速させました。
しかし、AlphaFold 2 にも課題が残りました。
人体を含む生物体の中で、タンパク質は単独で機能しているわけではなく、タンパク質と他のさまざまな分子との間の相互作用と異なる生物機能は結びついており、それが生物と疾病のメカニズムと経路の研究、医薬品の研究開発などに影響を及ぼしております。AlphaFold 2 ではタンパク質と他のタイプの分子との相互作用を予測することができませんでした。
その課題を解決すべく、2024年5月、DeepMind はより先進的なAlphaFold 3 をリリースしました。AlphaFold 3 は異なるタイプの生体分子(タンパク質、低分子リガンド、DNA、RNA、イオンを含む)間の相互作用をサポートし、タンパク質構造の描画を大幅に加速させました。
過去に研究者は数年をかけて構造をモデル化する必要があったが、AlphaFold 3ではたったの数分で、実験精度に匹敵する予測結果を得ることができ、AlphaFold 3 はAI技術を用いた「生物学の理解とモデル化」の道へ重要な一歩を踏み出しました。
◾︎世界初の AlphaFold3 をベンチマークとする国産大型モデル HelixFold3
AlphaFold 3は顕著な進展を遂げましたがまだオープンソースではなく、またアカウントごとの1日あたりの呼び出し回数を制限しているため、科学研究や産業界での新技術の発展に大きな制約があります。
AlphaFold 3の論文に基づいていくつかのチームが再現を試みましたが、研究開発チームの生物データ、モデルトレーニングの面で蓄積が必要であるだけでなく、チーム全体のエンジニアリングコードと製品アーキテクチャの能力に対する包括的な試練となっておりAlphaFold 3のすべてのタスクを完全に再現するのは非常に困難です。
Baidu PaddleHelixチームは長年の生命科学分野での研究開発の蓄積により、2024年8月、HelixFold 3を正式に外部リリースし、従来の低分子リガンド、核酸分子(DNAとRNAを含む)及びタンパク質の相互作用と構造予測において、AlphaFold 3の結果を再現することに成功しました。HelixFold 3は世界初の DeepMind AlphaFold 3 をベンチマークとするモデルです。
HelixFold 3 では従来 AI 技術を導入しづらいと考えられていた共有結合、化学修飾、PROTAC、分子糊、金属酵素などのシーンへの導入に成功したことにより、生命科学分野における AI 技術の応用範囲が大幅に拡大され、複雑な分子の設計が可能となりました。
◾︎HelixFold3への国際的な評価
HelixFold3の外部リリース後、業界内では多くの注目が集まり海外の有名なブログやソーシャルプラットフォーム上でも専門家や学者がHelixFold3の成果を紹介いただいております。
ColabFoldの2名の開発者、ハーバード大学FAS科学部のSergey Ovchinnikov助教授と東京大学の森脇由隆 准教授(Yoshitaka Moriwaki)は、すぐにHelixFoldの技術レポートをTwitter(現X)で転載紹介しております。
森脇由隆准教授は、日本の有名な技術共有フォーラムである Qiita において HelixFold3 の使用チュートリアルを翻訳し、共有しました。
(https://qiita.com/Ag_smith/items/a24ca180cc971e926d89)
著名なタンパク質構造研究専門家の Alexy Amunts 氏もこの成果を転載するとともに、称賛しました。
◾︎HelixFold 3 高性能コンピューティングプラットフォーム
Baiduの高性能コンピューティングプラットフォームを利用すれば、科学研究者は低コストで大規模な分子間相互作用予測を行うことができ、リガンド、蛋白、DNA、RNA、イオンなどの分子とその相互作用を予測できます。これは低分子薬、ポリペプチド系医薬品、 RNA 医薬品の研究開発に貢献することとなります。プラットフォームは柔軟な API 呼び出し、コード不要の可視化操作などをサポートするものとなっています。
HelixFold 3 を使用した生体分子構造の予測 -操作ガイド:https://paddlehelix.baidu.com/app/tut/guide/all/helixfold3(※ログインにはGitHubアカウントが必要です)
研究者はHelixFold 3 の高性能コンピューティングオンラインサービスを利用すれば、数ステップの簡単なクリック操作で、HelixFold 3 によりタンパク質、DNA、RNA、選定リガンドなどからなる複雑な生体分子構造をモデル化し、タンパク質と細胞内の他の分子の相互作用を予測することができます。またHelixFold 3 は研究者の新しい研究仮説の設定とその検証をサポートできるので、研究開発プロセスも加速します。
広範なコンピューティングリソースや専門的な機械学習のバックボーンを持たない研究者でも、簡単に始めることができます。
クライアントの商業開発ニーズにさらに応えるために、API サービスを間もなく提供する予定です。これによりクライアントの大量のタスク送信をサポートし、またクライアントは、ツールを自分の業務研究プロセスにシームレスに統合し、低分子/タンパク質のスクリーニング、設計などの下流の業務に導入することで、科学研究と商業開発を迅速に行うことが可能になります。
現在、HelixFold 3 は複数の生命科学のクライアントによるプロジェクトでアプリケーションのテストを完了しています。
製薬業界の研究開発責任からは「AlphaFold 3のリリースから3ヶ月ほどで、国産の大型モデルがその結果を再現することができる。また HelixFold 3 はタンパク質と細胞内の他の分子の予測精度も優れており、その結果には驚かされる。」と評価いただいております。
◾︎HelixFold3 と AlphaFold 3 の結果比較
我々のテストにより、HelixFold3 の精度は従来の低分子リガンド、核酸分子(DNA と RNAを含む)およびタンパク質の相互作用と構造予測において、AlphaFold3 オンラインサービスと同等であることが判明しました。
◾︎低分子リガンド
タンパク質-リガンド構造予測におけるその結果を評価するために、HelixFold3 と他の主流な方法との PoseBusters データセットにおけるパフォーマンスの比較を行いました。PoseBusters はリガンドドッキングアルゴリズムを評価するために使用されるベンチマークデータセットです。
当初428個の構造(PoseBusters V1)を有していたが、複数の生体分子単位内距離が5.0A未満のリガンドデータを排除すると、308個の構造(PoseBusters V2)に削減されました。
我々が比較したベースライン手法では、真のタンパク質構造を指定しない方法、既知のタンパク質構造を指定する方法、および活性部位残基を指定する方法の3つに分類可能です。
この2つのバージョンのデータセットでは、HelixFold 3はタンパク質構造を指定していなくても優れたパフォーマンスを発揮し、成功率は既知のタンパク質構造に依存する方法を超えており、その予測精度は現在トップのAlphaFold 3と同程度です。これはHelixFold 3のタンパク質-リガンド相互作用予測分野における優れた潜在力を示すものです。
◾︎核酸分子
核酸分子の結晶構造の数が少ないため、その構造を完全に人為的介入なく自動化して正確に予測することは大きな課題となっていました。
核酸分子の結果の評価については、HelixFold3 は CASP 15(タンパク質構造予測分野における重要な国際コンテスト)において結晶構造を有するRNAサンプルと、ProteinData Bank(PDB)から最新収集の 41 個の RNA 分子と 41 個の DNA 分子を評価しました。CASP15 の RNA サンプルにおける HelixFold3 の精度は、人為的介入がある方法 AIchemy_RNA2 にはまだ及ばないが、完全自動推論が可能な RNA モデルの中では AlphaFold3 に匹敵するレベルに達しています。PDB から最新収集の RNA と DNA の構造予測においても、HelixFold3 の精度は極めて競争力が高く、核酸分子構造予測に特化して設計されたモデル RoseTTAFold2NA および別の全原子生物分子構造予測モデル RoseTTAFold-AllAtom をはるかに上回っています。
◾︎タンパク質
タンパク質−タンパク質複合体構造予測の分野において、AlphaFold-Multimer は従来モデルを基礎として顕著な進歩を遂げたが、その成功率と正確性にはまだ改善の余地がありました。AlphaFold3 はこれを基に予測能力をさらに最適化したことにより、より優れたパフォーマンスを発揮できております。
現在、HelixFold3 はタンパク質−タンパク質複合体構造予測においてAlphaFold-Multimer のフォーマンスをわずかではあるがすでに超えており、より強力な予測能力を発揮できております。今後の研究業務ではこのギャップを縮め、予測精度と成功率のさらなる向上を図るため、HelixFold3 の最適化と反復に引き続き尽力してまいります。
HelixFold3オンライン体験リンク:https://paddlehelix.baidu.com/app/all/helixfold3/forecast (GitHubアカウントでログイン可能)お問い合わせ先:baidubio_cooperate@baidu.com
企業プレスリリース詳細へ
PR TIMESトップへ
(2024/10/29 09:00)
- データ提供
-
本コーナーの内容に関するお問い合わせ、または掲載についてのお問い合わせは株式会社 PR TIMESまでご連絡ください。製品、サービスなどに関するお問い合わせは、それぞれの発表企業・団体にご連絡ください。
関連記事(PRTIMES)
-
教育・資格・人材 医療・医薬・福祉 2024/11/21 18:30
ツクイスタッフ登録者に聞いた「介護職の派遣」に関するアンケート結果