対談記事(15):音楽×AIの30年:ヤマハが描く次の音楽体験
ヤマハのAI技術と音楽体験の未来を、開発者が30年の歴史と共に語る対談。AI合奏やインタラクティブ演奏、楽譜解析・演奏支援アプリなどの実例を通じ、AIが演奏スキルの壁を下げ、ユーザー体験を拡張する可能性を探る内容。技術の進化と実社会への応用の両面を丁寧に紹介する。
松岡:本日はよろしくお願いします。「ヤマハ」といえば、ピアノなどの楽器事業のグローバルシェアが1位ですよね[1]。1887年に創業の歴史があり、かつ、日本を代表する会社と考えています。
そのヤマハが、1990年代からAIを独自に開発されていたというのは、正直なところ意外でした。この点、有名な「VOCALOID」[2]がヤマハ製ということを聞くと、AIの開発の歴史もイメージしやすいように思います。
本日は、安立さん、前澤さん、須見さんから、ヤマハのAIについてお話をお伺いしたいと思います。
安立:本日は、よろしくお願いします。ミュージックコネクト推進部の安立です。
松岡:よろしくお願いします。まず、安立さんがAIの仕事をされているようになった経緯やバックグラウンドからお伺いしたいと思います。
安立:私は、前職のとき、日本語を処理する事業のために働いていました。その際に、自然言語処理をしていました。私が前職で働いていた時期は1996年~2000年ですので、ここでいう自然言語処理は、今、皆さんが当たり前に使っている日本語変換のソフトウェアのことです。そのようなソフトウェアの開発に携わっていました。
その後、ヤマハに入社して、ソフトウェアの開発、電子楽器の開発をしながら、研究開発の皆さんが作られたAIを使ったりしていました。私は、研究というより、実際に世の中に出るソフトウェアの開発、プロダクトの開発に携わっていましたね。
松岡:自然言語処理と音楽のAIというのは、どのように関係しますか。
安立:直接は関係しません。ただ、フロントエンドのエンジニアとして、ソフトウェアやアプリケーションに対する興味がありましたね。ソフトウェアによって、色々なものを自動で作ることができるということに興味がありました。一つには、自然言語に関わっていました。その後、音楽という違うカテゴリーで仕事をしました。私自身は、AIを開発するというよりも、AIを商品として、世に出すための部分を担っています。
松岡:安立さんのAIに関する説明の分かりやすさの理由を少し理解できました。これまで携わってこられた製品について教えてください。
安立:電子楽器一般です。電子ピアノ、キーボード、エレクトーンなどの弊社の電子楽器のほぼ全てに開発の部門で携わってきました。
松岡:ヤマハの電子楽器は、世界の約半数ほどのシェアという圧倒的なシェアを占めているとのことであり、この電子楽器に携わってこられたのは素晴らしいキャリアですね。具体的には、どのような製品がありますか。
安立:例えば、電子ピアノのエレクトーンキーボードがありますね。このあたりの商品に携わってきました。社外の方から見ると、電子楽器は同じように見えると思いますが、実際の種類としては非常に細かくあります。私が携わってきた数は、数十種類ですね。全ての電子楽器に関わってきたといえると思います。
松岡:その中でも、思い入れのある製品を教えてください。
安立:一番思い入れのある製品は、「クラビノーバ[3]」という電子ピアノの中でも最高峰とされている商品で、この開発は規模も非常に大きく、色々な機能を搭載していますので、思い入れがあります。
色々な機能を製品に搭載するためには、ここにいる前澤や須見の研究成果を商品にどうやって落とし込むかという検討が必要となります。
松岡:「クラビノーバ」の開発は、どういうところが一番難しかったですか。
安立:難しかったことの一つは、ピアノの音にいかに近づけるかという点ですね。
もう一つは、多種多様な機能を設定することに苦労しました。例えば、「アンサンブル」という自分の演奏に合わせて自動で伴奏してくれる機能がついています。このような機能を作ることに非常に苦労しましたね。
松岡:ありがとうございます。とても分かりやすかったです。
次に、前澤さんからお伺いしていきたいと思います。前澤さんは、現在はミナラボのリーダーを務められています。AIにご興味を持たれた経緯などを教えてください。
前澤:大学では、音楽情報処理という分野の研究をしていました。音楽情報処理とは、音楽のデータから、波形や楽譜などの有用な情報を抽出するというものです。この分野では、私が大学にいた2010年初頭の頃、統計的なモデルが非常に有用と言われていました。その非常に古典的なものを「AI」と言っていましたね。
最初の頃は、音楽音響信号を突っ込むと、ビートやコードを分析するAIを研究していました。こういう研究を統計的なモデルを使って行っていました。ディープラーニングが流行り始めたのは、2012~2013年頃です。大まかに言えば、音楽は、そのNLP(自然言語処理)とかCV(コンピュータビジョン)とかの分野が、数年ぐらい遅れて音声の分野に行き、音楽の分野に下りてきます。統計モデルベースのものをディープラーニングのものにだんだん置き換えて、須見が精度を高めていきました。
私は、直接的な顧客体験について関心があり、インタラクティブなシステムにおいてAIを使うことに興味を持ち始めました。このことから、人間のタイミングや、人間の強弱表現をAIによって察知するということを統計ベースでのモデルを使って研究を始めました。また、ディープラーニングを使った方がいい場面もありますので、それを組み合わせることもしています。それにより、できるだけリアルタイムに演奏に応答し、ユーザーの演奏にダイレクトに反応するシステムの研究を進めてきました。それが、後ほど詳しく説明する「AI合奏[4]」です。簡単に言うと、「AI合奏」は、演奏を分析・判別して、聞く人が認知的に自然に思えるような形で、できるだけ自然な形で応答するシステムであり、統計ベースのモデルとディープラーニングとを組み合わせて作っています。
テクノロジーを作るときに重要になるのは、どういうふうにテクノロジーを見せると、実際のお客様に刺さるのかを知る必要があるということです。色々な現場、色々なイベントにおいて、異なるターゲットユーザーが存在します。AIを新たな顧客体験として浸透させるために、どういうものが必要かということを一緒に解明することもやっています。その過程として、後ほどデモンストレーションをする「piano evoke(ピアノエボーチェ)」というベータ版のアプリを出しました[5]。
こういったAIを使ったインタラクティブなシステムというものが「どういうふうに裾野を広げることに寄与するのか」、「既に楽器を保有しているお客さんに対して、今までにないような新たなインタラクティブな体験っていうのを提供できるのか」ということを現場起点で研究しています。AIとインタラクションを現場に投入して、新たな顧客体験を開拓していっているともいえると思います。
松岡:ありがとうございます。大学の時に「音楽のAI」を既に選択されていたとお伺いしました。多くの分野がある中で、「音楽のAI」を選んだ理由を教えてください。
前澤:もともと電気電子とか情報系に関心があり、また、音楽にも関心がありましたので、その両方を組み合わせて何か知的に面白いことできないかなということが理由ですね。
人間の聴覚にメインの関心があるラボの中で、音楽をやっているチームがいて、この取り組みが面白そうだったということです。
松岡:ありがとうございます。もう一点お伺いさせてください。
ディープラーニングやLLM(大規模言語モデル)は、音楽のAIにはどういう影響を与えましたか?
前澤:多くの技術が統計ベースのモデルでした。統計ベースのモデルは、基本的には、音から特徴を抽出して、見通しの良いモデルを立てて、推論するというものです。この特徴量を抽出するのは、難しいところがあります。例えば、統計ベースモデルで、「耳コピするAI」というものを作るにしても、SOTA(State-of-the-Art)でも、正答率50%にとどまっていました。「そうであるのならば、人間が打ち込んだ方が早い」というのが、ディープラーニング以前の常識でした。
そのような状況でしたが、ディープラーニングが浸透し、データセットが拡充され、音声や画像からより良いモデル化のノウハウが入ってきたことによって、楽器によっては、精度が約90%に上がりました。
ディープラーニング以前の製品は、お客さんからすると、非常に手間がかかるものでしたが、改善された製品は、「これだったらいけるかも」という臨界点を超えたといえるものでした。これは、ディープラーニングの貢献です。これは、多くの音楽情報処理タスクにあてはまることだと思います。ディープラーニングによりお客様に提供するプロダクトとして成立しやすくなったといえます。
LLMについては、今、まさしく黎明期だと思っています。例えば、他社の研究事例や製品化事例では、「テキストプロンプトを使って音声生成する」とか、「音楽を入力としてさらに別のトラックを作る」というものがあります。権利や法律に関する課題があるのですが、音楽制作のやり方は何かしら変わっていくと考えています。その状況下で、何かの手を打たなければならないと考えています。
松岡:なるほど。黎明期ということは、進化の方向性を多数の人が一致して予測することはできていないということと思います。前澤さんは、どのように進化していくと予想していますか。
前澤:私の研究としては、LLMを利用するか否かというのはさておき、AIが一番できる貢献は、ユーザーのスキルの差をうまく埋めるということだと思います。例えば、1%のスキルがある人が、AIのサポートを受けることによって、80%のスキルがあるところまでいけるということです。楽器演奏に関して例を挙げると、ピアノは、かなりの期間のトレーニングを積まないと曲が弾けなかったのを、一部のメロディーを弾いて、他のところをAIにアシストさせるということですね。
また、「楽譜の難易度の変更」という音楽情報のチームの技術があります。これは、楽譜が自分にとって弾きづらい場合に、自分にとって簡単にしてくれるというものです。
AIを使うことによって、より多くの人が、自分の持っているスキルや現在の状態に合ったコンテンツを、自分がマネージできる範囲で楽しむことができるようになりますので、これにより演奏の裾野が広がると考えています。
また、LLMやファウンデーションモデルなどの研究もしています。このような研究は、さらなるコンテンツ理解にも効いてくるように予想しています。
松岡:ありがとうございます。もう一つお伺いさせてください。先ほどのご説明の中で、「インタラクティブ」という言葉を何度か伺いました。この「インタラクティブ」の重要性について、もう少し詳しく教えてください。
前澤:「音楽を楽しむ」ためには、受動的に楽しむという方法もありますし、能動的に楽しむという方法もあります。楽器というものがなぜ楽しいのかというと、多分、能動性が高いからなんですよね。ですので、その「能動性」に対応するためには、その人間の感覚に適切に合った応答を返さなければなりません。音楽は、実時間で進行するものなので、「対話的に何かやって返す」という、即時性が強いインタラクションというものが音楽では特徴としてあるのではないかなと思っています。対話をするように、知的な応答をすることができるというのは、お客さんとしても、多くの楽しい体験をすることができると思います。
また、AIシステムを使ってイベントで提供する技術課題としては、AI自体のモデル化の課題やデータセットが足りないということの他に、「人間に対して何をどう提示するか」という課題や人間側の方の理解のタイプ(人間側の認知モデルやメンタルモデル)とAIの出力結果のミスマッチによる混乱が生じてしまうという課題があるように思います。このような技術課題からも、「インタラクション」は重要と考えています。
松岡:ありがとうございます。前さん、いかがでしょうか。
前:質問したいことはいっぱいありますが、貴社の独自性に関連して質問させてください。
LLMは、色々な会社が大規模なものを出していますが、情報から情報を生成するというものがほとんどです。これに対して、貴社の場合、「物理的なアクションを最終的に生成している」、「物理的な世界に直接働きかけている」という意味で、非常に独自性があると思っています。音楽の場合、大規模なモデルであればいいということではなく、適正な規模で、音が早く即応性・応答性があるということが大事になるものと思います。この意味でも独自性があると思います。
私としては上記のように貴社の独自性について理解しています。これに関連してお伺いしたいのは、LLMのベースのトランスフォーマーやディフュージョンモデルの延長線上に貴社の製品もあるのか、それとも貴社の製品は全く独自なものなのかという点です。
前澤:トランスフォーマーなどのオフラインでエンコードしてデコードするものは、遅延を許容し得るものが結構あります。シンボリックなデータを渡して、パブリケーションとかもありますので。
一方、実時間のインタラクションが発生するものに関しては、私としては、見通しの良いシンプルなモデルを利用した方がいいと考えています。例えば、線形モデルや安定性判定の判定をしやすいとかですね。
ただし、応答性のパラメーターというのは、コンテンツに依存するので、そこはいいモデル使って推論しようとしています。これが最適な方法なのかどうかまでは、現時点では分かっていません。例えば、先ほどの合奏AIで、機械が自然に応答するのは、その人間の認知モデルがあります。このあたりは、サイティという音楽認知のコミュニティでいろいろ研究が進んでいます。例えば、「線形モデルを立てると、色々な現象を説明できるね」というのがあるとすると、このモデルに従って計算値を落とさせたい場合、線形モデルのパラメーターは何にするべきなのかというと、楽譜からディープラーニングで、回帰させて推定させるという感じでモデルを立てたりします。
事前に予測を立てるとか、プランニングをするみたいなところに関しては、大きなモデルを立てて、そこでリアルタイムで応答する、数理的に見通しのいいpit制御や最適制御などのシンプルなものでもいいと思います。理論的な見通しが立てやすくて、コントロールするにはそういうのがいいんじゃないかなというふうに感じています。
前:技術的な内容については、もう少し詳しく教えていただかないと、理解するのが難しかったですね(笑)。
本日のインタビューの前に、AI合奏技術[6]のウェブサイトを拝見しました。そのAI合奏技術においては、演奏者の癖のようなものもリアルタイムに読んで、こう来るだろうなみたいなのものを読みつつ、それに対して、自分の楽器をどう弾くかということを生成するという二つのタスクをやっていると思います。それをリアルタイムでやっているのは、本当にすごいと思います。
松岡:浜松の貴社本社のミュージアム(イノベーションロード[7])において公表されているのは、先ほどご指摘のあったAI合奏技術ですか?
前澤:違います。ウェブサイトのAI合奏技術をもう少しシンプルにしたモデルをイノベーションロードでは公表しています。
松岡:イノベーションロードのものもすごいなと思いましたが、あれもまだシンプルなバージョンなんですね。
前澤:そうですね。どちらかというと、初心者の方でも、演奏体験を楽しめるように作ったモデルで、内部はシンプルな統計モデルになっています。ポイントは、初心者の方がやりがちな弾き方を統計モデル入れることによって、弾ける方にとっての一般的な演奏じゃないものにも、ロバストに対応できるように作っているというのがみそです。
須見:止まってしまったりという状態にも対応することができます。例えば、プロの演奏の場合、止まることは、ほぼないですよね。
前澤:ここは結構面白いところで、統計的ベースの統計もディープラーニングもやっぱりメタ的な平均を獲得するので、うまい人の演奏ばかり学習させると、上手い人の演奏に対してはすごくうまく対応することができます。しかし、初めてピアノ弾く方、例えば、ドの音を出す鍵盤をすぐに押せないという方のケースに対しては、全然対応できません。
ですので、見通しを立てることができない、アウトライナー的な人が演奏した時にどういうふうに対処するかという点が、実務上は重要です。そういうところのノウハウやデータドリブンの学習というのを組み合わせで、製品を作ることができるというのは、我々の特徴的な強みの一つなのかなと思います。
前:LLMは、ネット上のデータを全部がさっと入れているから、文法的に間違っているような文章とか、そういうデータも入っているから、逆に、いろんな会話についていけるということと似ていますね。
前澤:NLP(自然言語)のLLMと対比して申し上げますと、自然言語の場合、人間の思考、トライアルの過程の文章が、ネットにはたくさん転がっています。流暢じゃない文章もたくさんあります。一方で、音楽の場合、多くのデータは完成品です。プロセスのデータは、実は意外とありません。
ですので、我々は、例えば、教室の講師や教育者の方のヒアリングを通じて、実際に習熟過程はどうなっているのかを解明しながら、データドリブンではない別のアプローチを組み合わせています。これも結構重要な点ですね。
松岡:前澤さん、ありがとうございました。次に、須見さんにお伺いしたいと思います。
須見:私は、実は、大学生のときは、前澤と同じ研究室で所属していました。
松岡:そうなんですね。どのような研究をされていましたか。
須見:私は、音声信号処理を研究していました。
松岡:入社されてからはいかがでしょうか。
須見:入社して、研究開発の部署に配属されて、最初に「楽曲検索」を担当しました。統計モデルを使った機械学習ベースの楽曲検索の研究開発をしていました。例えば、「ユーザーが、間違えてもちゃんと検索できるか」ということの研究開発から始めました。
「ユーザーの方がどういうふうに上手くなっていくのか」に関するデータとして、演奏をデータとして残して(当時、「演奏ライフログ」と言われていました)、検索機能と組み合わせて、「ピアノダイヤリー」というアプリをリリースしました。
このようなことをやっていたら「須見はアプリ作れるんだね」ということを社内で認識されるようになりまして、アプリ開発する部署にレンタル移籍することとなりました。
しばらくの間、アプリ開発する部署で働き、ページ書きと連携するアプリをリリースしたタイミングで、研究開発に戻ってきました。
その後、先ほど前澤が申し上げた「楽曲解析」に取り組むこととなりました。研究開発に戻ってきたのは、2015年か2016年頃であり、その頃、ディープラーニングが音楽分野においても進歩し始めるところでした。楽曲解析にディープラーニング技術を取り入れて、より精度の高いコード解析や楽曲構造解析ができるようになりました。
その後、「初心者の方が音楽を演奏するとき何を弾いていいかわからない」、「ある程度の知識がなければ、コードの耳コピもできない」という悩み(ニーズ)を解決するために、AIや機械により、サポートするという分野に注力を始めました。
次に担当したのは、「音源分離」です。
「楽器を与えたら、いろんなパートに分けてあげる」という音源分離の技術開発や研究開発をしています。音源分離についてもアプリとして運営しています。「楽曲コンテンツの理解」や「コンテンツに対して付加情報を与える」ということを担当してきましたので、それに関係するチームのマネジメントをやるようになりました。現在は、「楽譜を与えてあげると、難易度を変える」、「オーディオを与えたら楽譜を生成する」というころに携わっています。
松岡:須見さんのキャリアにおいては、研究やプロダクトの開発・運営などの広い分野をご担当されてきたものと理解しました。
須見:そうですね。現在では、研究がメインの職務領域かなと思います。特定のプロダクトというよりは、色々なプロダクトで使える技術、応用できる技術を開発するということをしています。
松岡:分かりました。ありがとうございます。前澤さんとは、大学の時からのお知り合いということですね。
須見:そうですね。私は、高校のときから音楽が好きであり、情報学に興味がありました。どこの大学を受験しようかと考えているときに、音楽と情報学を研究対象として取り扱っている研究室を見つけましたので、その研究室がある大学に入学し、いいなと思った研究室に所属させていただきました。その研究室が京都大学情報学研究科の音声メディア研究室[8]です。大学を卒業して、同じく音楽と情報を仕事とすることができるヤマハに入社しました。
松岡:ありがとうございます。次に、須見さんが、現在担当されているプロダクトについてもう少し教えてください。
須見:音楽情報処理に関わる技術を楽器に直接乗せるのは、まだまだ難しいですね。音楽情報処理に関わる技術を楽器に直接乗せる場合、計算量やコストが過剰なものになってしまうからです。ですので、音楽情報処理に関わる技術をサービスとして提供するには、ソフトウェアアプリケーションの形式になります。例えば、我々の技術をモバイルアプリに乗せて、楽器と連携するという方法があります。モバイルアプリ上で音楽を読み込んでコードを出すという方法があります。
「ピアノダイアリー」のようなアプリや「スマートピアニスト」、「Chord Tracker(コードトラッカー)[9]」というコード解析アプリの方法があります。
現在は、こういうモバイルアプリケーションにのせる音楽情報処理に関わる技術の研究をメインにしていますね。
松岡:ありがとうございます。思い入れのあるプロダクトを一つ教えてください。
須見:Chord Trackerですね。
松岡:コード解析アプリとお伺いしましたが、どういうアプリか教えてください。
須見:音楽を読み込んだらコード譜を出すアプリケーションです。世界で100万ダウンロードを超えており、非常に人気のアプリです。
松岡:100万ダウンロード!すごいですね!
須見:世界で使っていただいておりますので、作って良かったと思っています。
松岡:Chord Trackerはどういう特徴がありますか?
須見:開発当時(2017年頃)は、解析精度はそこまで高くありませんでした。ここで、深層学習ベースのものに差し替えたところ、平均的な精度は約八割と、相当に高精度に解析できるようになりました。また、さらに細かく、メジャーとかマイナコードやテンションも出してくれるという点について、好評をいただけております。
このようなことがありましたので、私としては、Chord Trackerが非常に思い入れのあるプロダクトです
松岡:ありがとうございます。藤田さん、いかがでしょうか。
藤田:30年程前にQY20などの貴社製品を日常的に使わせていただいていました。私の個人的な思い入れとは別に、Chord Trackerの100万ダウンロードという数字はすごいですね。ここまでの数字となると、単なるアプリケーション販売を超えて、ユーザーとのコネクションやコラボレーション、または他の楽器開発の活動などへの効果が発生するものではないでしょうか。
須見:Chord Trackerのアプリ自体は無料なので、基本的には販促の効果はあったと思います。他方、Chord Trackerの機能として、コード解析した結果を楽器に送って、自動伴奏を鳴らすという機能があり、その連携ができますが、そういう使い方される方は、非常に少ないです。結論的には、Chord Trackerの大きな反響をうまく利用できなかったという点が課題といえるかもしれませんね。
藤田:Chord Trackerの開発目的は、どういうものでしたか。
須見:楽器の販促です。Chord Trackerを出すことによって、楽器の付加価値を一定程度高めることはできたと思います。
藤田:そうですよね。100万ダウンロードを達成したということは、貴社のブランドのアピールにもなったのではないでしょうか。
須見:そうかもしれません。ただし、その100万ダウンロードを、ビジネス的に次のステップにつなげていくという点を上手にできなかったという点が課題として残ったかもしれませんね。
前澤:ヤマハがコード解析によって、こういうことができるということを多くの方に認知をしていただいたことによって、いくつかのB to Bのコラボレーションの案件のきっかけになったということはありました。
藤田:B to Bのコラボレーションというのがあるんですね。
前澤:そうですね。
安立:私はどちらかというと、技術をどうやってビジネスにしていくかという立場です。B to Bのコラボレーションをした結果、先ほど話に出たAIの技術を、クラウド上で使えるような形でご提供しています。
藤田:コンテンツ提供者とのコラボレーションでしょうか。
安立:具体的な会社名を申し上げることはできませんが、そういうところです。例えば、「大量のコンテンツを解析したい」とか、「コンテンツを使って、〇〇をしたい」という方々に利用してもらっています。
前:Chord Trackerの中身はディープラーニングでしょうか。
須見:そうです。
前:Chord Trackerの精度はかなり高いとお伺いしましたが、あまり「間違い」はないということでしょうか。
須見:そもそもコードには、「正解」はありません。「正解」「不正解」というより、適切なコードを出力することができるかということが求められます。
藤田:この技術をモバイルアプリに乗せるのは、非常に苦労されたのではないでしょうか。
須見:おっしゃる通りです。大規模になればなるほど、精度は悪くなります。どのようにバランスを取るかというのは非常に難しいポイントです。
安立:私の役割は、須見さんが作成したモデルをアプリケーションに実装するというものです。
実装を試みて「これだと入らない」という場合、ずっと須見さんと検討を続けることとなります。
藤田:軽量化をどのようにするかという点ですね。
須見:データを読み込んだ後、5分や10分という時間を待ちたくないというニーズにこたえる必要があります。軽量というだけではなく、高速化というところがポイントですね。
松岡:ありがとうございました。それでは、次のアジェンダに移りたいと思います。
ヤマハのAIの歴史について教えてください。
須見:簡単にご説明させていただきます。
「AI」の定義は様々なものがありますが、ここでは、広義のAI(例えば、ルールベースのものを含む)をベースとします。
ヤマハが最初にAIをハードに機能として搭載したのは1995年です。1995年の電子ピアノにAIキーボードとAIインガードという機能を付けました。これは、自動伴奏をするときに、ユーザーが弾いた演奏に対してコードを推定して、そのコードにあった伴奏を自動で流すという機能です。その機能を「AIプルキーボード」とか、「AIティンバー」と呼んでいました。これは、完全にルールベースのやり方で、「こういうふうに聞かれたら、このコードだよね」というものです。当時のLSIは、現在のようにパワーのあるものではなかったと思いますので、超軽量の形で実装しました。
この後、統計的なモデル(ディープラーニング以前のモデル)を利用して、「モバイルミュージックシーケンサー」というモバイルアプリケーションパットワークを出しました。これは、Chord Trackerの前身です。このアプリケーションにおいて、コード解析が使われていました。
製品で言うと、「AVレシーバー」(AV機器をコントロールする時のスレードみたいなもの)があります。それに、サラウンドAIという機能(SVMという統計モデルを利用した機能)を搭載していました。これは、シーンを判別して、このシーンに見合った音響条件に自動的にライシングするとか、そういうプリセットを各シーンごとに自動で切り替えていくというようなAIです。これは2018年ころにリリースされました。
狭義のAI(ディープラーニングが使われたもの)を利用して、2017年に上述したChord Trackerを作成しました。
2010年後半から2020年初頭にかけて、様々な音楽情報処理を使ったりとか、音源分離とか、さっきの合奏AI系のシステムでやるとかっていうところを深層学習ベースでいろいろやるようになって、様々なアプリケーションを出してきました。
また、変わっているAIとしては、木材パーツの良否判定があります。これは、楽器のパーツではなく、車のパーツです。ヤマハは、車のパーツも製造しているところ、この製造の過程でAI技術を使っています。音楽以外の分野におけるAI活用といえると思います。このAIの技術は、ヤマハの製品としては出していませんが、ヤマハ社内のAI技術の利用の一つです。
あともう一つ、最近公表したAIを利用した製品に「遠隔会議システム」があります。「遠隔会議システム」のノイズリダクションにAIを使っています。これは、AIシステムをハードに搭載したものです。従来は、基本的にはAIシステムは、ソフトウェアとして出していたのですが、超軽量なモデルのAIをハードに搭載して売り出すことができるようになりました。このような段階に入ってきましたね。
松岡:ご説明いただきありがとうございます。1995年から開発していたというのは、相当に長い歴史がありますね。お伺いしてよいのかどうか分からないのですが、その頃のAI製品は、売れたのでしょうか?
須見:1995年発売の電子ピアノは結構売れましたね。ヤマハの電子ピアノのブランド名は、Clavinova(クラビノーバ)というものです[10]。そのクラビノーバの「CVPシリーズ」という中級者から上級者向けの製品(多機能電子ピアノ)にAIを搭載しました。音色も非常に多くあり、いろんなジャンルで自動伴奏をすることができます。
CVPシリーズは、特にヨーロッパで人気が出ました。パフォーマーの方がいろんな機能を駆使しながら、一人で壮大な音楽を奏でるというような利用がされています。
松岡:ご説明いただきありがとうございます。
AI開発を本当にしている日本企業はとても少ないと思います。多くの日本企業の現在の課題は、アメリカ企業が開発したAIをどうやって使うか、にとどまっていますので。この点、ヤマハは、昔からAIを自社で開発してきたということであり、他の日本企業とは明らかに異なります。この違いの理由は何だと思いますか。
須見:理由の一つは、「独自性のある機能についてチャレンジすることが許容される」という認識が社内で共有されていることと思います。
松岡:「チャレンジの許容」というお話をお伺いし、先日、浜松のミュージアム(イノベーションロード[11])において拝見した、「創業者の山葉寅楠様が、浜松で作成したオルガンの試作品をかついで箱根の山を越えた」というストーリーを思い出しました[12]。貴社においては、挑戦する文化が根付いているのですね。目先の利益だけ追うということはないのかもしれませんね。
安立:目先の利益も大事です(笑)
松岡:そうですよね。
安立:弊社は、明治時代の創業以来、浜松に本社があります。東京や大阪から少し離れた浜松という場所が、チャレンジを許容する文化を育んだのかもしれませんね。
松岡:なるほど、ありがとうございます。
安立:我々が数少ないAIを開発する日本企業であるもう一つの理由は、音楽に関してプロダクトを作ってる企業が、少ないということもあると思います。
松岡:貴社のAIを搭載した楽器や音楽に関するAIについては、競合する会社がそれほど多くないということがいえるのかもしれませんね。
安立:楽器メーカーや電子楽器メーカーという分野や音楽制作という分野においては、競合他社はたくさんあります。
ただし、我々のような規模で、楽器とAIに関する研究・開発から商品の提供までできる会社というのは世の中にありませんね。このようなことからヤマハはとてもユニークな存在であると思います。
松岡:カリフォルニアの企業は、公表された曲をいかに安くするか、いかに使いやすくするかということに注力して、それにより利益を上げているイメージがあります。貴社のように、自社の製品を自社のAIで付加価値をつけるという企業は思い当たりませんね。それは貴社の魅力的なところと思います。
安立:また、我々は、「もっと楽しく弾くためにはどうしたらいいのか」、「一人で弾いているだけだとつまらないので、一緒にバッキングがついてきてほしい」ということを考えます。こういう考えを実現しようとした時に、結果的にAIが必要になったということもあります。AIに限らずに、我々は、非常にニッチな商品を販売する産業カテゴリーにおいて事業をしています。このことから、他社の物を応用して利用するということはなかなかできない場合があります。例えば、先ほどご紹介した、木質を判定するAIというのは、他社では需要がないんですよね。我々しか需要がないので、自分たちでやらざるを得ません。工場の設備機械につきましても、古くから自社で作らざるを得なくて、自分たちでやってきました。子会社で、ファクトリーのオートメーションの会社がありますけれども、自前でやらざるを得ません。我々の産業的ニッチだったっていうところが、数少ないAIを開発する日本企業という結果に結びついたんじゃないかなと思います。
松岡:ご説明いただきありがとうございます。
それでは、次のアジェンダであるヤマハの現在のAI製品について教えてください。
前澤:まず、「演奏のためのデータ検索システム」[13]からご説明します。ウェブサイトに記載している通り、このシステムでは、「人の動きから音が出るまで」の一連の過程を、多様なデータで記録することができます。
音楽に関して流通しているデータや簡単に調達できるデータは完成品です。楽器演奏に関しては、完成品というより、どちらかというとプロセス自体に価値があるものです。「プロセスのデータをたくさん取ることができる仕組みが欲しいね」というモチベーションに基づき、「演奏のためのデータ検索システム」を製作しました。
このシステムのポイントは、楽器は、結果としては音が出るんですけども、そのプロセスは身体動作であったり、体を動かして鍵盤を叩くということです。「その身体性や物理的なアクションと音を結びつけて、同期して収録しなきゃいけないよね」ということは、ピアノなどの色々な楽器について当てはまります。
色々なモダリティ(人間が情報に触れるための様々な情報入出力の様式)のデータを同期して収録するというシステムを作っております。このシステムの目的は、演奏のプロセスのデータをより多く集めることにより、多面的な演奏のモデル化をすることができるというものです。AIの教師データを作るための仕組みともいえます。
また、このシステムは、AIの担当者だけではなくて、ミュージシャン自身にとっても役に立ちます。トッププレイヤーの方たちが、どういうふうに鍵盤に力を入れて音が出ているのかを見ることができたら、技能伝承にも役に立ちます。また、「さっきの良かった演奏の映像」と「今のいまいちの演奏の映像」の差分が何であるかというのを、いろいろな側面で演奏者自身が見ることができます。このことにより、自分が思った通りの表現をすることのサポートをすることができます。
前:音そのものや、天板の加速度センサー[14]や、映像など、多角的にデータをとっているとことでしょうか。
前澤:そうですね。スケルトントラッキングも搭載していますし、動作を結びつけたりしています。
他にも、映像だけだと把握できないことも把握することができます。例えば、「椅子のどれだけ後ろに力を加えているのか」とか「少し前向きの姿勢だ」ということですね。また、呼吸時の肺と腹の膨らみの伸縮度合いも把握できますね。
このように、色々なものを同期して取ることができるので、新たなインタラクションを設計するときには、例えば、呼吸と音量との間で関連するのであれば、音量コントロールする因子の一つとして、呼吸というところを着目してみるということも考えられます。そういう感じのモデルを作成して、学習して有効性確認してということが、こういうシステムを使ってできるようになります。
前:スポーツ選手は、関節に機材を貼り付けて、体の動きが分かるようにするというものに似ているのかもしれませんね。
松岡:トップピアニストが集中して何日かこのシステムを使ってピアノを弾き、そのデータを提供してくれた場合、そのトップピアニスト風に、別の曲を弾くことが可能となるということでしょうか。
前澤:そういうことも理論上は可能になると思います。
2018年、2019年頃にやっていたのは、「演奏表情付け」というものです。これは、鍵盤の動きだけなんですけども、プロのピアニストの過去の名盤を分析・抽出して、楽譜から、「その人らしいタッチ」とマッピングを学習させるということをやりました。楽譜には、どういう音をどういう順番で弾いたらいいか、強度の指標は記載されています。しかし、楽譜にはどの音をどれだけ強調するかというのは記載されていません。そこに演奏する人の個性が表現されることとなります。楽譜は、台本のセリフのようなものです。台本に記載されているセリフの喋り方、どこを強調するか、どんな声色で、どういうイントネーションで、話すとかというのは、演者の個性といえます。
このような個性が表現された演奏のデータを分析して学習することをやっていました。
この研究の亜種で、タッチの再現も研究しましたし、部分的な研究としては、関節の動きを実験として研究しました。この経験から、どのようにすれば、どのようなデータが取れるかというのは分かってきました。
松岡:ご説明いただきありがとうございます。
「演奏のためのデータ計測システム」を利用する方は、プロのピアニストなど限定されるのかなと想像しますが、どういう方に使ってほしいということを教えてください。
前澤:今までは、どちらかというとクローズにやってきました。今年に入って、少しオープンイノベーション的に活用していこうとしています。現在使っていただきたいのは、自分の演奏を科学的に分析することに関心があるミュージシャンや大学の先生ですね。そのような方とコラボレーションする中で、「演奏自身の解明」ということをやりつつ、どういうデータをどういうふうに計測するのが有効かという知見を一緒に集めていくということができるといいなと考えています。
松岡:ご説明いただきありがとうございます。
これまでに「演奏のためのデータ計測システム」を使ってもらった中で、具体的にはどのような意見がありましたか?
前澤:色々なご意見をいただきましたが、「自分が今まで気づかなかったことが見える」ということには大きな価値を認めていただいていると感じています。
鍵盤を強く叩いたり、弱く叩いたりというところまでは、特別な苦労は必要ないと思いますが、「それは鍵盤の軌跡としてどうなっているのか」は気づかないものです。また、重心も自分ではなかなか気づかないですね。つまり、自分はしっかり座っていると思ったけど、実際は、ふらついていることが分かることがあります。このように新たな気づきにつながったというお話はいただいております。
須見:今、話しているのはデータ計測についてですが、これにどういうアプリケーションをくっつけるかということについては、様々な検討事項があります。例えば、レッスン用途で、マルチ画面により色々なアングルから収録できるというものは、アプリケーションのプロトタイプを作りました。それをヤマハのレッスンの教室で、少し使っていただいて、意見をいただいたということはしました。
前:先生が弾いたのと同じような波形になるように、生徒さんがやってみて、「今のはダメよ」とか「今のがよかった」というのが、客観的に把握できるのですよね。
須見:従来、「姿勢」には注目されていなかったと思いますが、先ほど言及された「重心」を計測することにより、姿勢の違いを把握することができ、それと演奏がかなり関連するかもしれないと考えています。
松岡:ご説明いただきありがとうございました。
それでは、次のAIについて教えてください。
前澤:「AI合奏技術」[15]についてご説明します。ウェブサイトに記載している通り、我々は、一緒に演奏を楽しんでくれる、合奏パートナーとしてのAIを開発しています。AIは人が演奏している音とその曲の楽譜をリアルタイムで照らし合わせ、その人が今、楽譜のどの部分を、どんなスピードで、どんな抑揚で演奏しているかを解析します。今演奏している部分から少し先の部分をどのように演奏するかを予測することで、人の演奏にタイミングを合わせて演奏することができます。
人間が一緒に弾くときは、相手を見て聞いてどこをどのくらいの速さで弾いてるのかという推論を行って、その情報に合わせて、自然な演奏で応答するということをしています。AIを利用したシステムが合奏する場合でも同じようなことが必要なので、演奏の認識、つまり、「譜面上のどこを弾いているのか」ということを確定します(または、譜面がない場合は、ビート感とか、小節の中の何番目、何拍目を弾いているかということについて、ソフトな推論とかをしながら、適切に伴奏の再生を制御します。
松岡:ご説明いただきありがとうございます。
「AI合奏技術」は、どのような利用者を想定していますか。
前澤:この技術も、トッププレイヤーの方に使っていただいて、新たな表現を開拓するという目的のために使ったこともあります。
また、最近では、裾野を広げるために、「自宅で練習するときに伴奏者がいない方」、「たどたどしくしか弾けず、他の人と一緒に弾くのは少し申し訳ない段階ではあるが、伴奏を希望する方」のニーズに適応させるために対応しています。
例えば、昨年、「piano evoce β(ピアノエボーチェベータ)[16]」というベータ版のアプリを配信しました。これは、先ほど説明した人間に合わせる技術と、須見たちが取り組んでいた「音源分離」とか「楽曲分析」を組み合わせたものです。例えば、「『アナ雪』の楽曲弾きたい」という場合、「アナ雪」の音源を読ませると、例えば、「アナ雪」のボーカルパートだけを抜き出してきて、「アナ雪」のコードを分析し、コードとメロディが出てきます。この状態で、ユーザーが、たどたどしくでも演奏すると、ユーザーの演奏に合わせて、「piano evoce β」のシステムがボーカルパートを鳴らしてくれます。このように、ユーザーの演奏スキルがどのような段階であっても、憧れのボーカルの人が一緒に歌ってくれる、という体験を楽しむことができます。
松岡:ご説明いただきありがとうございます。多くの人が使いたくなると思いますので、AI合奏技術が製品に組み込まれて、多くの人が使えるようになればいいですね。
前澤:AI合奏技術は、アプリなどに入れるための要素技術として取り組んでいるものです。その価値検証のためにクローズな実験をやっています。このAI合奏技術が製品に組み込まれたものとして、先ほど申し上げた「ピアノエボーチェ」や「誰でもピアノ[17]」というベータ版のアプリがあります。
「誰でもピアノ」は、ある人がピアノ演奏をすると、自分が弾けない他のパートを自分の演奏の強弱のタイミングに合わせて伴奏をつけてくれるというものです。これは、ピアノ初心者の方にも好評いただいております。また、障害のある方で指一本でしかピアノを弾くことができないという方の演奏サポートもできますので、特別支援学校でもご利用いただいております。
この建物(ヤマハの横浜オフィス)の一階において、楽器などを販売する店舗を営業しており[18]、その店舗において、初心者の方が楽器に興味を持ってもらえるように、AI合奏技術を搭載したピアノを置いています[19]。この店舗内のピアノにつきましては、累計数千名の方にご体験いただきました。
松岡:既に相当な数の方に体験していただいているのですね。研究と製品化との関係をもう少し教えてください。
前澤:研究と製品は、相互的な関係にあると思っています。
多分、AI合奏は、人間に歩み寄る伴奏を望む世界観がある中で研究が進んでいて、その成果物を組み合わせて、ピアノエボーチェなどが生まれたのだと思います。また、障害のある方がピアノを弾きたいというご要望に基づき、シーズ(技術、ノウハウなど。「種」。)を組み上げて「誰でもピアノ」という製品が生まれるものと思います。
また、製品を運用していく中で、顧客ニーズがどんどん洗練化されていき、「AI合奏」という技術は、どういう方向で進化させていくべきなのかという方向が検討されることとなります。そこからさらに、次の基礎研究の課題が判明し、そこから新たな要素技術が出てくると、新たにトライアルできる現場やユーザーユースケースが出てくるという感じで進化していくと捉えています。
松岡:木に例えると、木の幹は、「AI合奏技術」であり、具体的な現実的なニーズを検討した後、果実として生まれるのは、プロダクトということですかね。
前澤:そうですね。ニーズや果実を見て、幹の方向性を考えるということとなります。
松岡:最初、木の幹である基礎技術だけを育てているときは辛くならないですか?果実であるプロダクトが生まれることが見えているならそうでもないかもしれませんが
前澤:性格によるのかもしれませんが、私は、あまり辛くならないですね。私は見通しが立たないところに突っ込むのが好きですし。
松岡:安立さんは、プロダクトを作る側ということですよね?
安立:そうですね。じっくり待つ側ですね。
松岡:安立さんのお立場の場合、具体的なニーズがあって、「こういう技術があるからこういう製品を作れないか」ということを考えて、コミュニケーションをするということですよね。
安立:「種」がないと新しいものが生まれないので、研究開発側で色々な種をまいていただいて、色々な幹を育てていただくことによって、私のような立場が、研究側との間でリエゾンの役割も果たして、「こんなことやってるよね」と研究内容を咀嚼し、ニーズと色々な研究を俯瞰して、「これとこれを組み合わせたらいけるんじゃないか」ということを試みて、新しい製品を作っていくこととなります。私の立場からすると、色々なことを研究してくださるおかげで、ビジネスの可能性が広がっていると考えています。
松岡:前澤さんは、研究についてもう少し教えてください。
前澤:基本的には、情報学を起点として、演奏の裾野を広げるということをテーマにしています。これをテーマとして、私は、自分が立ち上げた「ミナラボ」で研究しています。
もう少し具体的に説明すると、「スキルの穴埋め」や「できなかったことをできるようにすること」や「できない段階でできたことの体験ができる」ということについては、普遍的な価値が存在すると考えています。この普遍的な価値に対して、「どういうギャップを埋めるのがいいことなのか」とか、「ギャップを埋めるためのインタラクション、体験設計をどういうふうにやっていけば、より多くの人に利用してもらえるのか」とか、「どういうコンテンツをどういう見せ方にすればよいのか」ということに最近関心があります。
もう一つ関心があるのは、教育ですね。AI合奏のような技術を使えば、演奏自体は楽しいということは達成できるかもしれませんが、スキルアップするためには、演奏自体が楽しいということとは別の要素が必要です。ヤマハグループは、音楽教室などのサービスを提供していますので、その方々と連携しながら、情報処理の分野からどういうサポートができるのかを試していきたいと考えています。
松岡:ご説明いただきありがとうございます。
誰でもピアノのアプリの反響はどうでしたか?
安立:バンドの中に入った感覚で、演奏ができるのが楽しいというご意見をいただきました。
こんな感じでですね。実際にやってみましょうか。
〈前澤様に実際にピアノを弾いていただき、実演してもらう〉【松岡コメント:前澤様に弾いていただいている映像があります。】
一同:すごい!!!
安立:今、実際に見ていただいた通り、自分が演奏すると、お気に入りの歌声で、自分の演奏に合わせて歌ってもらうことができます。このような体験ができますので、非常にいい評価をいただきました。この製品は、最初の構想としては、初級者向けに、もっと製品を広めるためにというものでした。しかし、実際に製品の運用を始めたところ、中級者以上じゃないと、楽しめないみたいなことも分かってきました。このようなことを検証して、初級者の方がもっと楽しめるようにするにはどうすればいいかということを考えています。
松岡:なるほど。研究と製品化を繰り返して課題を整理していけば、ヤマハさんの本命のアプリができていくという感じですかね。
安立:そうですね。
松岡:とてもよく分かりました。ありがとうございました。
次に、これからの研究や製品開発について教えてください。
安立:我々は、中期経営計画[20]の中で、「未来を創る挑戦」というテーマを掲げました。
少なくない会社様は、既存の事業を伸ばしていくことに重点を置いていると思いますが、我々は、未来を創るということを強く意識しています。また、チャレンジするというのが、会社の基本的な姿勢としてあるので、上記のようなテーマを定めています。
中期経営計画において申し上げている通り、「音楽の愉しみ方を広げる」、「体験価値を提供する」ということが大事な点の一つと考えています。先ほどのピアノエボーチェのような製品もそのために利用できるかもしれません。また、従来のレッスンや一人で音楽を楽しむことに関しても、楽しむ方法を広げるサービスを開発していけるかもしれません。それから、コミュニティも重要と考えています。様々な場面で、お客様に対して新しい体験を提供しようと思っています。
当然ですが、その新しい体験の提供のためには、AIは必要になってくると思います。例えば、オンラインレッスンにおいて、AIの先生が教えてくれるというものです。「自然人の先生がレッスンの全てに対応しないといけないというのが、本当に良いことなのか」ということも検討しなければならないと考えています。AIをどのように設定すれば、生徒にとって楽しいか、レッスンが効果のあるものとなるのかということを考えなければなりません。
また、例えば、我々は、車載オーディオも提供しています[21]。現在提供しているものは、社内の音響空間をAI(SURROUND:AI)を利用して最適化するというものです。
現在提供しているバージョンとは別に、2025年以降に、AI(Music:AI)を活用して、車(for Cabin)と音楽(for Music)と人(for Person)のそれぞれの個性に合わせた最適な音響空間を車内に提供するための製品を投入します[22]。
さらにいうと、コミュニケーションにおいて、AIがどう介在していくとより楽しいのかということも検討していくとよいのではないかと考えております。人間同士だけで直接話をすると軋轢が生じることもありますが、AIが間に挟まることによって緩和されるということも言われておりますので、音楽はどういう形で加わるのが良いのだろうかということを考えています。研究としては、前澤や須見の方で、色々な計画があると思います。
須見:私は、ユーザーさんをうまくサポートするコンテンツの提供を検討課題としています。もっと便利な、もっと楽しめるコンテンツを出していくために、これからも検討していきたいと考えています。例えば、「その人に合わせて、その人が苦手なところは苦手を克服できるようなものに変更していく」とか、逆に、「得意なところ、得意な技法をうまく配分して弾きたい曲を弾けるようにする」とか、それぞれの人に合わせたコンテンツの提供をすることにより、楽器演奏が楽しめるような技術を作っていくことを目指しています。AIは、そのような目的をサポートするためのツールという位置づけですね。
前澤:「演奏の裾野を広げるためにはどうすべきか」ということに取り組んでいきたいと考えています。演奏の裾野を広げるためには、インターフェースが重要と考えています。つまり、色々な現場を見ていると「楽器って難しいよね」というイメージが醸成されているように思います。このような現状がありますので、演奏の裾野を広げるために、AIやインタラクティブ技術を使って、どんな人でも入口として楽しめる、最高の体験がある状態を作っていきたいですね。
また、ヤマハは、音楽の文化を振興することにより成長してきた企業ですので、そのDNAをAIの分野においても引き継いでいきたいと考えています。例えば、音楽をあまり聞かない人に対して、AIを利用して、音楽の魅力をアピールすることができるのではないかと考えています。また、教員が少ない環境でも、AIを利用すれば、生徒に音楽の授業を提供することができるのではないかと考えています。専門家がいない状況であっても、AIを使って、音楽文化を醸成し、音楽を能動的に楽しむ人を増やすことができるのではないかと考えています。
松岡:ご説明いただきありがとうございます。今後の展開も楽しみにしております。
本日は、AIB協会からの参加者もいますので、ご質問をさせていただきたいと考えております。
前:例えば、グレングールドのCDを読み込ませて、リアルのピアノを置いて、そのピアノが同じように再現してくれるのであれば、自分がお金持ちだったら、自宅に置きたいなと思います。ただし、それは本当にいいのかな、ということも思います。
前澤:2018、19年頃は、「ワイルドウエスト」みたいな感じでした。そのときからすると、少しずつ法整備が進んだり、価値観が変わってきていますので、会社のプロジェクトを進める場合も適法であることをより重視しないといけないと思いますし、時間の経過によって「できること」と「できないこと」が変わるのかなという気もしています。
町田:先ほど、今後、情報処理の割合が高くなるというお話をお伺いしました。今後は、そのリアルな楽器や教室以外のサービスを推進されるということでしょうか。
安立:そうですね。楽器というより、音楽や音に関する事業を伸ばしていくのが、私ども新規事業開発部が取り組んでいるところです。従来の音楽体験ではなかった体験を届けるべく、従来とは全然別のアプローチも進めていこうとしているところです。
例えば、多言語のアナウンスを自動で翻訳するサービスの提供をしていきます。これは大阪万博でも提供させていただきました[23]。これは、音のユニバーサルデザイン化社会の実現を目指して開発する「SoundUD」を活用したサービスです。このように、音楽だけではなく、音の情報処理といったことも広げていこうとしています。
町田:初期のころのAIは、楽器の販促ツールにすぎませんでしたが、現在のAIは、楽器とは少し離れたところで事業展開することができるようになりました。もちろん、現在のAIも楽器をサポートすることは重要なままですが、より多様な事業展開が可能となっています。
前:先ほど、ニッチな分野とおっしゃった点につきましては、たしかにスタートはニッチな分野のための技術だったのかもしれませんが、色々な技術を追求している中で、汎用的に利用できるような技術になったのかなという気がします。例えば、会議のサウンドなど、音楽ではない音の領域に広げてこられているのだなという印象を受けました。楽器や音楽を離れた音というと、かなり広い領域となりますね。
須見:社風として、そういうところがあると思います。もともとヤマハは楽器からスタートしましたけど、元々同じ会社であったヤマハ発動機さんがやっている事業もしていましたし、スポーツの事業も展開していますね。これからも色々な事業に挑戦していくということはあると思います。
藤田:先ほどお伺いしたお話の中で、ボーカロイド[24]が出てきませんでした。あれは、音楽の楽しみ方を大きく変えた技術のように思います。なお、先ほど実演していただいた、演奏に音声を当てる技術は、ボーカロイドと近い技術なのかなというふうに思いました。
須見:ボーカロイドについてご説明しなかったのは、最初にボーカロイドを出した時は、AIを利用していなかったからです。
安立:最新のボーカロイドはVOCALOID:AIというAIを搭載しておりまして、機械学習を応用して人間らしい声を出せるように進化しております。
藤田:わかりました。ありがとうございます。
安立:私は、ボーカロイドのビジネスの方のマネージャーをしています。
私、カラオケが苦手、音痴なんですよ。カラオケが歌えないので、こういうものを作りたいと思ってヤマハに転職したという経緯もあります。声を出したり、歌を歌うというのは、どうやればできるかなと思っていました。ボーカロイドを発明したのは、剣持秀紀という者であり[25]、最新のバージョンでは、AIを搭載するに至っております。
藤田:ボーカロイドにより、全く新しい楽曲スタイルが生まれましたね。
亀山:私からもお伺いさせていただきます。安立さんは、主にビジネスを担当されているとお伺いしました。
安立:そうですね。
亀山:我々もAIの技術を開発するとしても、最終的にはビジネスにつながらないといけないということをすごく大事にしておりますし、少なくない苦労もしていたり、課題も抱えているところです。最終的にはビジネスに変換しなければならないということに関するご苦労のお話をお伺いしたい。
安立:多分、他社様と若干違うのは、我々が取り扱っているものが非常に感性的なものであり、それをAIとしていろんな形で実現していくということです。ボーカロイドが分かりやすい例と思いますが、「新しい世界を作っていく」ということが、我々の商品を出していくときのメインテーマとなります。今までになかった価値を作っていくということですね。このことから、研究から出てきたものを商品にして、世に広めていくのは、私も含めて面白がっていますし、ワクワクしている気持ち方が大きいと思います。
もちろん、実際に世間に受け入れられるまでには時間がかかりますし、ビジネスとして成立するまでには試行錯誤が必要です。しかし、研究者の皆さんの目線がすごく良いので、人間が欲しいものの本質を対象として研究していただいている。このことから、製品にしたときに、お客さんにとってすごくわかりやすいし、刺さるものになりやすいですね。ですので、ビジネスの担当としては、すごく恵まれている環境だなと思います。
亀山:ありがとうございます。新しい市場を創造していますよね。
安立:そうですね。
亀山:新しい市場を創造することはご苦労なのではないのかという想像もするのですが、なるほど、ワクワク感の方が先行するのは素晴らしいと思います。
もう一つお伺いさせてください。私は、オーディオビジュアルが趣味でして、先ほどのAIサラウンドは非常に有名です。最新のバージョンのアンプが出されてから時間が相当経過していますが、新しいバージョンは出ないんでしょうか。新しいバージョンがそろそろ出るのではないかという話をファンの間ではしていまして、新しいバージョンを期待しています。
安立:弊社の商品について熱意を持っていただきありがとうございます。音響商品の担当者に伝えておきます。
松岡:さすが亀山さん。素晴らしいご趣味ですね。
それでは、長い時間、お話をお伺いさせていただきありがとうございました。
[1] https://www.yamaha.com/ja/ir/investor-digest/strength/
[2] https://www.vocaloid.com/?srsltid=AfmBOoo0mEE73jjXDRtQgJBIZ3JeZc2bcce36ChY4dK0GaZfPFDDmf1D
[3] https://jp.yamaha.com/products/musical_instruments/pianos/clavinova/index.html
[4] https://www.yamaha.com/ja/tech-design/research/technologies/muens/
[5] https://www.yamaha.com/ja/news_release/2024/24040201/
[7] https://www.yamaha.com/ja/about/experience/innovation-road/
[8] http://sap.ist.i.kyoto-u.ac.jp/
[9] https://jp.yamaha.com/products/musical_instruments/pianos/apps/chord_tracker/index.html
[10] ヤマハ | Clavinova(クラビノーバ) - ピアノ・電子ピアノ
[11] https://www.yamaha.com/ja/about/experience/innovation-road/
[12] https://www.yamaha.com/ja/about/history/brand/
[13] https://www.yamaha.com/ja/tech-design/research/base/minalab/case_01/
[14] 物体の「加速度」を検出するセンサーであり、このセンサーにより、物体の動き、重力、振動、衝撃などを検知でき、その情報から傾き、速度、変位などを計測することが可能です。スマートフォンでの画面回転機能などに活用されています。
[15] https://www.yamaha.com/ja/tech-design/research/technologies/muens/
[16] https://www.yamaha.com/ja/news_release/2024/24040201/
[17] https://www.yamaha.com/ja/stories/feature/feature-16/
[18] https://retailing.jp.yamaha.com/shop/yokohama-minatomirai
[19] https://www.yamaha.com/ja/news_release/2024/24051501/
[20] https://www.yamaha.com/ja/ir/management/medium-term/
[21] https://device.yamaha.com/ja/automotive_sound/
[22] https://www.yamaha.com/ja/news_release/2024/24040501/
[23] https://www.yamaha.com/ja/news_release/2025/25051201/
[24] https://www.vocaloid.com/?srsltid=AfmBOorjYgqJknzNOF3WvuYPcM17bHWimO6Z8-RZs8TngsHB3FyhEU9n
[25] https://www.yamaha.com/ja/tech-design/research/student/kenmochihideki/
対談者ご紹介
安立 直之 氏(ヤマハ株式会社 新規事業開発部 副部長 兼 VOCALOIDグループリーダー/同社研究開発統括部 先進技術開発部 主幹)

ヤマハ株式会社に1998年入社、電子楽器の組込ソフトウェアからLSIまで楽器のコア技術開発を主導。同社で新たな事業の柱を構築することを志し、新規ビジネスを多数提案、事業開発部門の部門長として多数の新サービスをリリース。
2025年度より社長直轄の新規事業開発部・副部長として事業戦略推進を担いつつ、VOCALOIDの事業マネージャーとして新たなビジネス創出に取り組む。
前澤 陽 氏(ヤマハ株式会社 ミナラボ(MINA Lab)所長)

」以下の2つのURLを貼る
https://www.yamaha.com/ja/tech-design/research/base/minalab/
https://www.yamaha.com/ja/tech-design/research/student/akiramaezawa/
須見 康平 氏(ヤマハ株式会社 研究開発統括部 先進技術開発部 音楽情報グループ リーダー)

2010年にヤマハ株式会社へ入社。楽曲検索、楽曲解析、音源分離などの音楽情報処理技術の研究開発や、それらの技術を活用したアプリケーション開発に従事。
現在は、音楽情報処理領域の研究開発を主導し、音楽とテクノロジーを結ぶ新しい価値創造に取り組む
渥美坂井法律事務所・外国法共同事業 パートナー 弁護士
AIB協会理事 松岡史朗

京都大学法学部卒業。
上記の役職の他、一般社団法人日本DPO協会顧問、ステート・ストリート信託銀行株式会社社外取締役(監査等委員)も務める。
ジャパンマネジメントシステムズ株式会社 代表取締役社長
AIB協会理事 前一樹

東京大学大学院工学系研究科博士課程終了・博士(工学)取得。ベルギー・ルーベンカトリック大学研究員、北陸先端科学技術大学院大学助手、ITベンチャー企業取締役、CTOなどを経て、現職。医療系研究会事務局長、元上場企業監査役なども務める。情報処理安全確保支援士(登録番号第002063号)、ITストラテジスト。
株式会社ネオテックス 代表取締役会長
AIB協会正会員 亀山幹雄

基幹業務などの各種システムについて、コンサルティングから開発、運用・保守まで、トータルソリューションサービスとして。AIによる物体検出・画像認識について製品・サービスの開発をしており、お客様のニーズに対応。
ユニアデックス株式会社マネージドサービス推進本部サービス企画推進部
AIB協会 正会員 藤田勝貫

1991年、日本ユニシス株式会社に入社。スタートアップ企業にてサービス開発の経験を積んだ後、2005年よりユニアデックス株式会社に在籍。ソフトウェア製品の企画・開発や顧客システム開発を経て、2014年からはAIのビジネス活用をテーマとした研究開発を主導。現在は、社内外のAI適用プロジェクトやAI技術戦略の策定、ビジネス化に向けた企画・推進に取り組んでいる。

