さまざまな分野でAIが活用されるようになっているが、Hmcomm株式会社(本社:東京)は、音声解析技術に特化したAI企業だ。国立研究開発法人産業技術総合研究所(以下、産総研)の技術移転を受け、AI音声認識やAI異音検知のソリューションを展開している。音声認識は主に国内のコールセンター向け、異音検知ではグローバル展開も視野に入れ、製造業やインフラ、防犯、畜産、ヘルスケアなどさまざまな分野に向けたプロダクトやサービスを展開している。富士ソフトの技術者としてキャリアを積み、取締役を務めた後に独立してHmcommを創業した代表取締役CEOの三本幸司氏に、起業の経緯や将来展望を聞いた。

技術畑を歩み、ソフトウェアによる課題解決の道へ 産総研の技術を活用

――創業ストーリーをお聞かせください。

 富士ソフト時代は、技術一辺倒で開発の仕事をしていました。まだPCがひとり1台になる以前の、磁気テープで記録していた時代からです。それから、携帯電話の基地局の開発や端末のミドルウェア開発をするようになりました。今は日本の携帯電話メーカーは少なくなってしまいましたが、ピーク時には12〜13社、端末もPHSやポケベルもあり、非常にソフトウェア開発が進展したときでした。

 メーカーなどお客様からいただく仕様通りに開発してお届けする仕事で、コンシューマーの量産製品なので、リコールがあってはなりません。品質がとても重視されていたのです。富士ソフトは動員力もあり、規模を拡張しながら成長し、自身もリーダーから役員と、責任を負うようになりました。自分自身の力というよりは、時代の流れにうまく乗れたという印象です。

三本 幸司
代表取締役CEO
富士ソフト株式会社にてソフトウェア開発に携わる。一般社団法人日本スマートフォンセキュリティ協会(JSSEC)理事やモバイルコンピューティング推進コンソーシアム(MCPC)顧問も務め、2012年にH&Mコミュニケーション株式会社(現 Hmcomm株式会社)を設立。2014年に国立研究開発法人産業技術総合研究所より産総研技術移転ベンチャー認定を受け、音声処理ディープラーニングの実用化に着手し、現在に至る。

 しかしながら、iPhoneの登場以降から、携帯電話メーカーも減少し、端末向け開発事業の受注量が減っていきました。クラウド化の流れもあってソフトウェアやソリューションのデリバリーのビジネスより、ライセンス提供やロイヤルティ収入を得るモデルに変化したいと新たな路線を模索していました。

 従来のビジネスは顧客からある程度の予算をいただいて人月計算で成り立っていましたが、新事業では市場の要求を予測して先行投資しなければなりません。既存のビジネスを損なう恐れもあり、またマーケットの流れも速く、せっかく作ったものが陳腐化するのも速いです。新たなビジネスを立ち上げる難しさを痛感しました。

 そこで2012年に独立し、開発を一緒にしていたソフトウェア企業のアドバイザーなどをしながら新たな視点で世の中を見るようになりました。

 あるとき、フィリピンのコールセンターを視察に行く機会がありました。フィリピンは英語が通じるので、欧米向けサービスのコールセンター事業が盛んです。私はそこで電話を受けたオペレーターが応答内容を書き起こしている様子を見て、将来的には顧客の音声を分析するソフトウェアを使う時代が来ると直感しました。特に日本では書き起こしのスタッフを何十人も雇用し、維持していくことは考えにくかったからです。

 そこで音声認識技術を使った自動書き起こしソフトウェア開発に興味を持ちました。富士ソフト時代に産総研と付き合いがあり、そこで音声認識技術について相談するうちに、ベンチャー支援の制度を知りました。産総研が持つ技術や研究成果を社会実装するため、知財や営業権も含めた技術移転をしてくれる制度があるのです。

 紆余曲折もありましたがが、産総研のベンチャー支援制度の審査を受けながら、昔の仲間に声をかけてチームを作って事業計画を作り、資金調達もして2014年にHmcommとしてスタートしました。審査において、事業計画作成も難しかったのですが、移転していただく技術を持つ研究者の先生にも兼業していただく必要があり、その説得には苦労しました。先生方はすでに新しい技術の研究をしていたので断られることもありましたが、最終的に協力を得られることになりました。

Image: Hmcomm HP

コールセンターの課題から、人の会話の認識ソリューションを次々と開発

――現在提供しているプロダクトやビジネスモデルをお教えください。

 GoogleやAppleの製品に音声認識サービスが実装されていますが、あれはコンシューマー向けですね。当社ではBtoB、法人顧客に向けた音声認識ソリューションをいくつか提供しています。当初は技術のライセンス提供の収入を得るということを目指していましたが、お客様の課題を解決するパッケージやソリューションを提供する必要があると考えを改め、いろいろと開発してきました。

 最初に始めたのはコールセンター向けの製品で、通話内容を記録・分析する「VContact」です。以前、フィリピンを訪れた際に見た、人海戦術での会話のテキスト化をソフトウェアでリアルタイムに実現するものです。さらに、書き起こしの結果を自動的に要約します。要約したテキストは、SalesforceなどCRMのシステムと連携が可能で、あるインターネットプロバイダー向けに開発をして提供を始めました。

 現在のVContactの機能は、書き起こしと要約だけではありません。通話中のキーワードを検出して、そのキーワードに関連するFAQを自動的に提示することもできます。比較的習熟度の低いオペレーターさんも顧客対応ができるようになっています。オペレーターさんは顧客対応以外に事務処理などもあってやることが多く、教育にも時間がかかるという課題もあったので、より生産性を高めるソリューションに磨き上げたのです。

 コールセンターには、オペレーターさんの仕事ぶりをモニタリングして指導し、応対品質を管理するスーパーバイザーもいます。彼らはオペレーターの音声をリアルタイムで聞いてチェックしていましたが、これも重労働です。

 音声のテキスト化と解析によってスーパーバイザー仕事も軽減できるようにするなど、さまざまな課題を解決できるようにして、徐々に引き合いが来るようになっていきました。さらに、膨大な対応履歴をAIが学習することで、音声自動応答ができるソリューション「Terry」も開発しました。

 コロナ禍でビデオ会議が増えましたので、コールセンターだけでなく、これらのビデオ会議の話者分析をして対話のテキストを残す「ZMEETING」というソリューションも開発しています。データを継承していけば、誰がどんな声をしているかを自動的に判別できます。

人の会話の認識だけでなく「さまざまな音」の検知で世界に挑む

――精度の高い対話のテキスト化によっていろいろな分野の生産性が高まっていますね。もうひとつ、AI異音検知のソリューションも展開されていますが、これはどのようなものでしょうか。

 人の会話の場合、言語や発話辞書を使ってテキスト化していきます。音の特徴量を抽出・分類して分析する技術で、人の会話でなく音響を分析するソリューションとして、AI異音検知ソリューションのプラットフォーム「FAST-D」も開発しました。

 用途の例に、畜産業における家畜の状態検知、健康管理があります。鳴き声から疾病予測や飼料の調整をするようなところで異音検知が使われています。

 ほかにも、線路や橋の歪みの検知、プラントのパイプラインの詰まり検知によるインフラ・施設などの保全や、人の声や悲鳴によって自動通報するなどの防犯・警備や見守り、遠隔の診察でも声からうつ病などを検知するなどの医療、川の氾濫や山の崩落など、防災のための危険予測に使われています。

――音声認識と異音検知のビジネスの割合はどれくらいでしょうか。また、成功事例についても教えてください。

 主にコールセンター向けのAI音声認識ソリューションが7割、AI異音検知ソリューションは3割くらいです。しかし、今後は異音検知が伸びていくと考えています。

 GAFAなどのビッグテックでも日本語の音声認識に投資していないので、国内向けには競争力があると感じていますので、音声認識は日本語に特化していこうと思っています。一方、異音検知は言語関係なくグローバルに展開できると考えています。

 成功事例は、たとえばVContactやTerryは、さまざまな通販会社のコールセンターでの利用が多いです。たとえば、テレビショッピングなどで顧客の問い合わせが殺到しても、人とAIをミックスさせることで限られた人員で対応できるようになっています。

Image:Hmcomm HP

 AIのTerryが受注や返品、退会の処理を自動で行い、それでも解決しないトラブルを人のオペレーターが対応するような運用です。オペレーターさんが途中まで対応し、またTerryに引き継いでクロージングするといった使い方もあります。最近コールセンター向けにみられるソリューションにチャットボットがありますが、これは文字でのやりとりです。当社のソリューションは音声の対話で完結する点が特徴ですね。

 音声認識は、標準語だと高い精度が出せるのですが、方言には弱い部分もあります。ここは先ほどお伝えした、ビッグテック企業などの参入障壁にもなっていますので、私たちは人口の多い方言から対応していきたいと思っています。これから、方言によって辞書やAIモデルを自動的に切り替えるような研究を進めようとしています。

 異音検知の事例には、あるメーカーさんの工場での製品チェックがあります。検査工程を自動化していく中で、人がチェックしている部分をFAST-Dに代えました。時期によって変化しますが、これまで10〜30人かかっていた検査を、限りなく無人に近い形で実現しました。これは大きな生産性向上です。

AI開発や言語処理、データ処理などの技術を活用し、個別最適なDX支援を提案

――御社の近年の成長や、事業展望についてお聞かせください。

 提携している事業会社様とのお仕事もあり、おかげさまで右肩上がりに成長しています。さらに事業を拡大し、今後3年で現在の倍の売上を確保したいと考えています。事業会社と強く結びついて、その事業のノウハウやデータを共有して成長していきたいです。

 現在、「Hmcomm XI事業」として、当社の強みである言語処理技術やデータ処理技術、非構造データの処理、AIアルゴリズムの開発技術や研究を活用し、お客様の事業に最適化したDX推進をトータルにサポートする取り組みも行っています。現在おつきあいのある企業様の業界も深掘りしていきますが、さまざまな業界の事業の改善に使っていただきたいですね。

――AIといえば、OpenAIのサービスが話題となり、非常に盛り上がっていますね。Hmcomm XI事業などにおいて、今後はどのような価値を提供されていきますでしょうか。

 さまざまなAIが登場していますが、その活用は今後、ユーザビリティの領域になっていくと考えています。ソリューションを利用する事業会社様の個々の課題解決に最適化する必要があるからです。

 当社では、自社のAI技術だけでなく、OpenAIをはじめとする最新のテクノロジーをリサーチ・研究していますので、Hmcomm XI事業では、いろいろな技術を融合して顧客に最適化したシステムを提供できると考えています。

 これまでは音声認識や異音検知を行うことで、次にどんなアクションをすればいいかを示すことを価値としたソリューションを展開してきました。今後は各種技術やノウハウを駆使して、さらにお客様の事業の成果に寄与する価値を提供していきたいと考えています。



RELATED ARTICLES
複数クラウド間のネットワーク構築、半年以上の作業期間をわずか数時間に Alkira
複数クラウド間のネットワーク構築、半年以上の作業期間をわずか数時間に Alkira
複数クラウド間のネットワーク構築、半年以上の作業期間をわずか数時間に Alkiraの詳細を見る
コーヒーショップの混雑観測から始まったスマートビル革命 Density
コーヒーショップの混雑観測から始まったスマートビル革命 Density
コーヒーショップの混雑観測から始まったスマートビル革命 Densityの詳細を見る
クラウド全盛時代の新常識?CPU・GPUが利用データを暗号化 Anjuna
クラウド全盛時代の新常識?CPU・GPUが利用データを暗号化 Anjuna
クラウド全盛時代の新常識?CPU・GPUが利用データを暗号化 Anjunaの詳細を見る
勉強を「学び」から「遊び」に ゲーム感覚の学習プラットフォームが子供に人気 SplashLearn
勉強を「学び」から「遊び」に ゲーム感覚の学習プラットフォームが子供に人気 SplashLearn
勉強を「学び」から「遊び」に ゲーム感覚の学習プラットフォームが子供に人気 SplashLearnの詳細を見る
ソフトバンクも出資する韓国の人気旅行アプリの強さとは ヤノルジャ
ソフトバンクも出資する韓国の人気旅行アプリの強さとは ヤノルジャ
ソフトバンクも出資する韓国の人気旅行アプリの強さとは ヤノルジャの詳細を見る
ライドシェアとは一線画す、相乗りビジネスの成功モデル BlaBlaCar
ライドシェアとは一線画す、相乗りビジネスの成功モデル BlaBlaCar
ライドシェアとは一線画す、相乗りビジネスの成功モデル BlaBlaCarの詳細を見る

NEWSLETTER

世界のイノベーション、イベント、
お役立ち情報をお届け
「オープンイノベーション事例集 vol.5」
もプレゼント

Follow

探すのは、
日本のスタートアップだけじゃない
成長産業に特化した調査プラットフォーム
BLITZ Portal

Copyright © 2024 Ishin Co., Ltd. All Rights Reserved.