私はこれまでに作成された最も現実的なAI Voiceコンパニオンを試しました - ChatGptまたはGeminiがこれを良いことを得た場合、現実は困っています
公開: 2025-03-04私はAIと話すのに多くの時間を費やしました。すべての音声アシスタント、すべてのチャットボット、およびハイテク企業が誇大広告にするのが大好きなすべての「次世代」の会話型AIをテストしました。しかし、私はセサミのようなものに遭遇したことがありません。このAIの仲間は、単なる良いだけでなく、それが模倣した非常に不完全さのために人々がどのように話すかを模倣するのは不気味に正確です。
セサミが実際に何であるかを始めましょう。 ChatGpt、Gemini、またはSiriとAlexaの初期の頃に戻ってきたAIの声とは異なり、Sesameは、完璧な顧客サービスエージェントのようなものではなく、その失敗で人間のように機能するように設計されています。 AIのスピーチは、流動的で表現力豊かで、予測的には人間です。少し面白いことを言って、質問に答える前にためらい、その「心」の文章を変え、一時停止し、新しい文を開始するように見えるとき、それは一時的に笑います。それは私がそれを中断させるだけでなく、それも私を中断することができ、そうすることを謝罪することさえします。
秘密のソースは、セサミの会話スピーチモデル(CSM)であり、テキストとオーディオを単一のプロセスにブレンドします。つまり、文を生成してから「読み出す」だけではありません。代わりに、それは、人間が実際に話している方法を反映した方法でスピーチを作成します。 ChatGptとGeminiの音声オプションは、印象的ですが、それでも構造化された方法で動作し、テキストを生成してからスピーチに変換します。一方、セサミは考えているかのように話し、その反応を信じられないほど自然に感じさせます。
- ChatGptと話すことは良くなり、新しい機能にアクセスするために支払う必要はありません
- ヒュームとは:AIに生成された声に感情的な理解をもたらします
私は一連のテストでセサミを置いて、それがどれほど人間のように得られるかを見ることにしました。結果は、少し不安ではないにしても、印象的でした。
それを通して私に話しかけてください
セサミが現実世界の不安を誘発する問題を処理できるかどうかを見たかったので、架空のが現実的に厳しいシナリオを与えました。
すぐに一般的なペップトークを開始する代わりに、セサミは一時停止しました。ただの小さなビートですが、実際に私が言ったことを考慮しているように感じさせるのに十分です。それから、人為的な同情に満ちた声で、「それは完全に普通です。大きな機会は圧倒的に感じることができます。それはあなたを最も緊張させますか?」
それは何も想定しておらず、当たり障りのないアドバイスを提供する前に関与しました。セサミは、「あなたは友人の前で練習したか、自分自身を録音したことがありますか?声は正確には絶対確実ではなく、ためらうことや他の敵は少し測定されたと感じましたが、全体的に印象的な努力でした
中断
このために、私はセサミが本当に自然で乱雑な会話をどれほどうまく処理したかを見たかったのです。

私は次のように始めました:「魔術師でもある探偵についての話を教えてください。」
セサミはすぐにクラシックなノワールのセットアップで飛び込みました:わかりました。これが1つです。このスモーキーなジャズクラブを想像してください。薄暗い。バーボンの匂い。そして後悔を空中にぶら下げます。この探偵。彼をジャック・ハローと呼んでください。彼は、ひどい角度でフェドーラを持っています。タバコはホルダーでくすぶって、鋼鉄を溶かすことができる外観を持っています。しかし、ジャックはガムシューだけではありません。ほら、彼には秘密があります。彼はタッチを持っています。すべての神経のシャッフル。」
それから中断して、「待って、彼のお気に入りのトリックは何ですか?」と尋ねました。
マヤは次のように答えました。「良い質問です。ジャックの署名。それは目に合う以上の手のひらです。彼はそれを消える証人と呼んでいます。彼はあなたの目の前ですぐに消えているように見えることができます。ちょっとの間、メモを滑り込むのに十分長く。
マヤに戻って、物語に戻るように言った。それは「正しかった。私はどこだったの?ああ、はい、ジャックの向かいのブースに滑り込んで、すべての心配のラインと震えた手。
AIはストーリーをシームレスに続け、その詳細を織り上げて、まるで私がすべてを脱線させただけではありませんでした。それが私を床に張った部分です。ほとんどのAIアシスタントはつまずいたり再開したりしますが、Sesameの会話型AIモデルは、パーティーで物語を語っている人のようにそれを処理しました。
党計画
パーティーといえば、最終テストのために、私はセサミが私が何か役に立つことを計画するのに役立つかどうかを見たかったのです。 「親友の誕生日に驚きを計画したいのですが、何をすべきかわかりません。」
アイデアの生気のないリストをガタガタと鳴らす代わりに、セサミは「あなたの友人はどんなものを愛しているのですか?」と尋ねました。私はそれにSF映画と冒険的な食べ物を話しました、そして、思慮深い一時停止の後、それは「SF&Snacks」の夜はどうですか?テーマの脱出室を予約して、それから未来的なスタイルのレストラン、多分分子胃腸のあるレストランを打つことができますか?」
私がそれを言ったとき、私は100ドルの予算を持っていた、セサミは調整されました。 「お気に入りのSF映画でホームムービーの夜を過ごし、「Galactic Popcorn」や「エイリアンスライダー」などのテーマのスナックを作ることができます。必要に応じてレシピを見つけることができます。」
一般的な推奨事項を吐き出すだけではありませんでした。それは私と協力していた。そして、それが違うと感じさせたものです。
リアルは何ですか?
セサミはこれらのテストに合格しただけでなく、それがそれらを釘付けにしたと思います。一時停止、ためらい、フィラーの単語、それが心の途中で心を変える方法 - それはすべて不気味に現実的でした。私は話し始め、通常のAIの滑らかさを期待してから、突然「ええと、実際、いいえ、待って、それを言い換えさせてください」と聞き、すぐに実際の人と話をしていなかったことを忘れてください。
AIがスピーチでこれが現実的である場合、AIと話していることを知っているでしょうか?セサミを使用すると、ゲームにゲームを提供するTelltaleオーディオの問題がありますが、ChatGptのAdvanced Voice ModeとGoogle Gemini独自の音声オプションは、ほとんどそれらの問題を超えてスキップするのに十分です。彼らの声の力をセサミの音声パターンと組み合わせると、少なくとも短い会話では、AIと話をしているときに言うのが本当に難しくなるかもしれません。
セサミはまだニッチですが、このテクノロジーは永遠にニッチを維持することはありません。今日の決まり文句は、若い人が電話をかけることはないということですが、彼らが開始した場合、反対側の人が何よりも先に現実であるかどうかを把握する必要があるかもしれません。