AIを使いこなすために、まずは押さえておきたい
基本のAIキーワード
AIを理解し、強みとしていかに活用していくか。AIリテラシーはもはやビジネスパーソンに不可欠な素養の一つとされています。AIについての知識をより深め、最新の情報を読み解くためにも、基礎として知っておきたいAIのキーワード。CTCならではの視点を交え、市場で注目度が高まる背景やユースケース、CTCの最新の取り組みも付加して解説します。
【マルチモーダルAI】
複数の情報を人間のように包括的に認識
テキスト・画像・音声など色々な種類の情報を同時に理解し、それに応じて多様な形式で答えることができるAIです。従来のLLM※1(text to text)やVLM※2(image to text)は、出力が言語に限られていましたが、マルチモーダルAIは、入力・出力共に多様なモダリティ※3に対応している点が大きな違いです。
私たちの業務や日常生活では、単一の情報だけをやり取りすることはほとんどありません。例えば、お客様との会議では、「会話内容」に加え、相手の「声のトーン」「表情」「しぐさ」などを踏まえて「言葉」「声のトーン」「ジェスチャーの仕方」を調節しています。
マルチモーダルAIも同様に、複数のデータを統合して処理し、判断・出力することが可能です。これにより従来の技術より複雑な場面に対応でき、幅広い領域での応用が期待されています。
- LLM(Large Language Model:大規模言語モデル)
大量のテキストデータを学習し、文法や単語のつながり方を統計的に捉えることで、文脈に沿った自然な文章を生成できるAIモデル。翻訳・質疑応答・要約など、幅広い言語関連のタスクに応用できる。 - VLM(Vision-Language Model:視覚言語モデル)
画像などの視覚情報とテキスト(言語)情報を同時に処理し、画像とテキストの意味的関連性を捉えることができるAIモデル。画像の内容を説明する文章や、画像に関する質問への回答、テキストを入力して関連する画像を検索するといったタスクに対応できる。 - モダリティ
テキスト、画像、音声、動画、センサーデータなど、AIが処理するデータの種類や形式のこと。従来、AIはこれらのモダリティを個別に処理することが多かったが、「マルチモーダルAI」の登場により、さらに高度な理解や推論が可能になった。
CTCの視点!
CTCはマルチモーダルAIを重点領域としており、調査・検証を行っています。
京都の窯元である朝日焼とのコラボレーションでは、生成AI技術を用いた新たな試みとして「NeuCraftプロジェクト」※に挑戦。画像・テキスト・深度情報などといった複数の情報を扱えるAIモデルを活用し、新たな作品のデザインを生み出す取り組みを行いました。
さらに、この知見を活かして、保守運用の領域において、キャプチャー画像やログなどの情報から次のアクションにつながる示唆を出力するなど、マルチモーダル領域での取り組みも加速しています。
まだ発展途上の領域であるため、今後も検証を重ねながら、新しいユースケースや応用方法を積極的に模索していきます。
- NeuCraft プロジェクト:https://neucraft.ai/
【AIエージェント】
タスクを自律的に実行して目標を達成
人間が与えたタスクに対して、AIが自ら最適な手段を選び、考えながら遂行する「代理人」のような存在です。細かい指示がなくても自らの判断で行動できるため、自律的な作業や人が気づいていないことを示唆する力にも長けています。
例えば、「売り上げを上げて!」とだけ指示をしても、自分なりに計画して行動できる優秀な新入社員のような存在です。その反面、常識や暗黙知を十分に理解していないため、未知の状況では誤った判断をする可能性もあります。
日本では、少子高齢化による人口減少で人手不足が深刻化する一方、業務量やお客様のニーズは増加し続けています。単なる業務の効率化にとどまらず、「人の代わりに一定の判断と実行を担う存在」が求められる中、AIエージェントはその期待に応えられる技術として注目を集めています。
CTCの視点!
CTCでは、お客様の業務内容をヒアリングし、実務に即したワークフローを設計。そこにAIエージェントを組み込むことで、単なる補助ではなく、実務フローに沿った業務を確実に遂行する「先輩社員のようなAI」を実現。業務の標準化・効率化・品質向上に貢献します。
記載内容は掲載当時の情報です。最新情報と異なる場合がありますのでご了承ください。
