未来を創る、テックコミュニティー

【注目AIスタートアップ100社】Deepgramの紹介

草場代表
2021/06/18

こんにちは。草場です。

エクスポネンシャルテクノロジーの一つ、AIに関して、CBインサイツでリストアップされている注目スタートアップ100社、1社ずつ見ていきます。

AI 100: The Artificial Intelligence Startups Redefining Industries

AI、機械学習について見直したい方は、シンラボの人気記事「OpenCVによるAIの実装方法」をご参考ください。

本日取り上げるスタートアップは、音声認識分野のDeepgramです。いきなり強烈です。

DEEPGRAMについてASRは最低だし、コストもかかりすぎる。そこで、私たちはASRを再構築しました。ディープグラムは、自動音声認識(ASR)を完全なディープラーニングモデルで再構築しました。これにより、企業は、オンプレミスでもクラウドでも、より速く、より正確なテープ起こしを行い、より信頼性の高いデータセットを得ることができます。また、ハードウェアや使用料が少なくて済むため、大手テクノロジー企業よりもはるかに高いスケーラビリティを実現しています。

何がすごいのか?パーソナライズ化されています。

なぜ DEEPGRAM なのか?
・DEEPGRAMは、電話をかけてきた人の音声パターンに基づいて学習する唯一のプラットフォームだからです。さらに、当社のトレーニング機能により、お客様はモデルを教え、徐々に精度を向上させることができます。

・音声から学習する唯一の100%ディープラーニングプラットフォームだからです。モデル学習を使用すると、90%以上の転写精度が得られます。

・大量の会話音声に最適化されているため、すべての通話を処理することができます。そう、すべての通話を処理できるのです。また、ハードウェアや使用コストも大幅に削減されているので、スケーラビリティも確保されています。

End to Endでディープラーニング使っています。そのため、以下のメリットがあるそうです。

転写・・学習したモデルを用いて、90%以上の精度で正確な転写を行います。
リアルタイム・ストリーミング・・遅延300ミリ秒。 会話の流れを維持。電話や会議での会話をそのまま書き起こします。
バッチ式テープ起こし・・120倍速。 1時間の音声を1分以内に書き起こすなど、通常の63倍のスピードでバックログの音声ファイルを書き起こします。
マルチランゲージ・・複数の言語、アクセント、方言を正確に識別して、音声を書き起こします。
句読点と大文字の使用・・ 人間や機械が読みやすいように、トランスクリプトに句読点を使用します。
音声のタイムスタンプ・・ 各単語にはタイムスタンプが付いています。特定の開始時刻と終了時刻を持つオーディオスニペットを検索できます。
識別・・ 一度に最大10人の異なる話者を識別できます。何度も課金することはありませんので、ご安心ください。
コンフィデンス・・各単語や転写全体が正しいかどうかの信頼度を評価します。
音声による深層検索・・ テキスト検索ではなく、アコースティックパターンマッチングにより、音声中の主要な用語やフレーズを正確に識別します。
Rest APIインテグレーション・・ あらゆるオーディオデータソースに接続し、正確なトランスクリプトをユーザーが使用するシステムに配信します。
キーワードブースト・・ 業界用語、固有の製品名、会社名などをブーストして、トランスクリプションの信頼性を高めます。
リダクション・・個人の健康情報やクレジットカード情報などの機密データをトランスクリプトから自動的に再編集します。
卑猥な言葉のフィルタリング・・ 冒涜的な言葉をトランスクリプトからフィルタリングします。
マルチチャネル対応・・ シングルチャンネルとマルチチャンネルのオーディオで話者の変更を確実に識別します。
マルチオーディオタイプ・・ WAV、MP3、FLAC、AACなど、40種類以上のオーディオフォーマットに対応。ファイルの拡張子ごとに異なるジョブを作成する必要はありません。
カスタムメイド・・それぞれのモデルは、あなたが大切にしているオーディオに合わせてチューニングされています。これは、最先端のデータラベリングとモデルトレーニングによって実現されます。

使ってみましょう。

 

 

 

この記事を書いた人
草場代表
エディター