5月14日に開催されたGoogle I/O 2024は、AI技術の革新に焦点を当てた内容で、世界中の技術愛好者や開発者たちの注目を集めた。
Google CEOのスンダー・ピチャイが進行を務めたこのイベントでは、多岐にわたるAI技術の進展とそれがもたらす未来の可能性が紹介された。
新しい検索エンジン「AI Overviews」
Google 検索は、Gemini を搭載した「AI Overviews」へと進化しました。
リアルタイム情報、ランキングと品質システム、新しいエージェント機能により、より便利で正確な検索体験を提供します。
マルチステップリーゾニング機能により、複雑な質問にも対応し、動画検索機能「Ask with Video」も追加されました。
「AI Overviews」の主な機能
AI Overviews は、多段階推論を用いて、1つの質問で複数のステップの結果を提示できます。例えば、「ピラティス教室」について検索すると、近くのスタジオの営業時間や予約方法まで教えてくれます。
リアルタイムの情報(評価、レビュー、営業時間など)を活用して、今までリサーチに時間がかかっていたのもAI Overviewsを使えばすぐに完了。
動画検索機能『Ask with Video』
講演内では、レコードプレーヤーの調子が悪いから、Google検索をしていました。
動画を撮影し、「なぜうまくいかないの?」といった質問を添えて検索すると、正しい操作方法の動画を提示してくれます。
Gemini は動画をフレームごとに分析し、関連情報をWeb上で見つけてきます。
GoogleフォトのAI機能『Ask Photos』
Googleフォトにも大きなアップグレードがありました。
「Ask Photos」では、ユーザーが写真の内容に関する質問をすることで、特定の写真を素早く見つけ出すことができます。
写真の中から必要な情報を検索
この機能により、特定の写真を迅速に検索できるため、大量の写真の中から目的の画像を簡単に見つけることができます。
たとえば、「私の車のナンバーは何だったけ?」と検索すると、ナンバープレートが写った写真が表示されます。この機能により、重要な情報を素早く確認が可能とのこと。
写真を自動で整理・分類
「娘の水泳の上達記録を見せて」といったリクエストにも対応し、写真を時系列に並べたアルバムを作成することが可能です。
Gemini 1.5 ProとFlash
Googleは「Gemini 1.5 Pro」のアップデート、軽量モデル「Gemini 1.5 Flash」の発表がありました。これらは、翻訳、コーディング、推論などでの品質向上を実現。
特にProモデルでは、200万トークンのコンテキストウィンドウが利用可能。
高性能なGemini 1.5 Pro
Gemini 1.5 Proは、200万トークンのコンテキストウィンドウを持ち、大量の情報を処理できます。翻訳、コーディング、推論など、複雑なタスクに対応可能。
軽量なGemini 1.5 Flash
Gemini 1.5 Flashは、軽量モデルでありながら、高いパフォーマンスを発揮します。迅速なレスポンスが必要なアプリケーションに最適。
AIエージェント『Project Astra』
Google DeepMindのデミス・ハサビスCEOが紹介した「Project Astra」は、リアルタイムのマルチモーダルAIアシスタントです。
このエージェントは、日常生活におけるさまざまなタスクをサポートします。
物体の認識と質問への回答
Project Astraは、カメラに映った物体を認識し、その物体に関する質問に答えることができます。例えば、「このスピーカーは何?」と尋ねれば、すぐに答えてくれます。
タスクの支援と情報提供
Project Astraは、タスクの支援や情報提供も行います。「メガネはどこに置いたっけ?」と尋ねれば、「りんごの横です」といった具体的な情報を教えてくれます。
クリエイティブなAIツールのリリース
Google I/O 2024では、クリエイティブな表現を支援するAIツールも発表されました。Imagen 3は、高品質な画像を生成し、Music AI Sandboxは、音楽制作をサポートし、Veoは、テキストや画像から動画を生成します。
Imagen 3:高品質な画像生成AI
Imagen 3は、テキストから高品質な画像を生成するAIモデルです。よりリアルで詳細な表現が可能になり、クリエイティブな可能性を広げます。
たとえば、狼のヒゲが一本一本数えられるほどの精度で描写できます。
Music AI Sandbox:音楽制作をサポートするAI
Music AI Sandboxは、テキストや短いメロディから音楽ループを作成できるAIツールです。音楽制作の初心者からプロまで、幅広いユーザーが活用できます。
Veo:テキストや画像から動画を生成
Veoは、テキストや画像から動画を生成するAIです。クリエイティブなアイデアを形にするための強力なツールとなるでしょう。
AIを支える強力なインフラ強化
Googleは、AI技術を支える強力なインフラも開発しています。第6世代TPU「Trillium」と「AI Hypercomputer」は、大規模なAIモデルの学習や実行を可能にし、AI技術の進化を加速させます。
Trillium:第6世代TPUで高速処理を実現
Trilliumは、Googleが開発した第6世代TPU(Tensor Processing Unit)です。先代モデルよりも高速な処理が可能になり、AIモデルの学習や実行を効率化します。
AI Hypercomputer:大規模AIモデルの学習・実行が可能
AI Hypercomputerは、Googleのデータセンターに構築されたスーパーコンピュータです。大規模なAIモデルの学習や実行を可能にし、AI技術の進化を支えます。
Gemini for Workspace:仕事効率を向上
Gemini for Workspaceは、Google Workspaceに統合されたAIツールです。Gmail、Google Meet、Google Docsなど、様々なアプリケーションでシームレスな連携がAIの力で活用できます。
GmailのAI機能でメール処理を効率化
Gmailでは、メールの要約、Q&A、返信文の候補提示など、AIを活用した機能が追加されます。これらの機能は、メール処理の効率を大幅に向上。
AI Workflows:ワークフローを自動化
AI Workflowsは、Google Workspaceのアプリを連携させて、タスクを自動化する機能です。例えば、Gmailから領収書を抽出してスプレッドシートで出納帳を作成するといった作業を自動化。
驚異的なAIの技術革新
- AI Overviews
- Ask Photos
- Project Astra
- Imagen 3/MusicLM/Veo
製品紹介を期待していた部分もありましたが、AI技術がますます進化し、私たちの生活を豊かにすることを強調する内容でした。
日本ではまだまだiPhoneが人気です。ただし、今回のリリースでAIを活用していくAndroidデバイスという存在が非常に魅力的になっていくのではないでしょうか。