ChatGPT vs Claude 3 測試:Anthropic 能否擊敗 OpenAI 的 Superstar?

已發表: 2024-03-10

ChatGPT於 18 個多月前推出以來,一系列其他聊天機器人也都已推出。 有些已被證明很有用,但有些則沒有那麼有用。 但與Gemini(以前的 Bard)一樣,被證明更具競爭力的聊天機器人是由人工智慧新創公司 Anthropic 創建的 Claude。

我們舉辦了 ChatGPT 與 Claude 3 的正面交鋒,以紀念 Claude 3 的推出,Claude 3 是語言模型系列,包括 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。 根據 Google 支援的 Anthropic 的說法,Claude 3 的表現優於 GPT 系列語言模型,這些模型在一系列基準認知測驗中為 ChatGPT 提供支援。 在我們的測驗中,我們發現Claude 比 ChatGPT 更清晰,而且它的答案通常寫得更好,也更容易閱讀。

但它們如何並排比較? 為了找到答案,我們向 ChatGPT 和 Claude 3 提出了各種不同的問題,從旨在測試聊天機器人處理道德問題的方法的查詢到產生電子表格公式。

在本指南中:

  • Claude 3 vs ChatGPT:有什麼差別?
  • Claude 3 與 ChatGPT:頭對頭測試
  • Claude 3 與 ChatGPT:UI 與使用者體驗
  • Claude 3 與 ChatGPT:數據和隱私
  • 在工作中使用 Claude 3 和 ChatGPT

Claude 3 vs ChatGPT:有什麼差別?

Claude 3 是 Anthropic 的一個新語言模型系列,用於為他們的聊天機器人 Claude 提供支援。 (巧合地)有 3 個模型:Haiku、Sonnet 和 Opus。 Anthropic 表示,目前,Claude Sonnet 正在為 Claude 免費版本提供支持,其處理資訊的速度比 Claude 2.1 快 2 倍。

另一方面,Claude Opus 為專業版提供支援。 下圖所示的 Anthropic 基準測試結果顯示,Claude Opus 超過了 GPT-4,而 Claude Sonnet 的效能也超過了 GPT-3.5。

克勞德 vs chatgpt 和雙子座

Claude 3 在基準測試中與 ChatGPT 和 Gemini 的比較。 圖:人類

自推出以來,ChatGPT 一直由 GPT 語言模型家族的不同成員提供支援。 免費用戶目前可以存取 GPT-3.5,而 GPT-4 則支援 ChatGPT Plus,訂閱費用為每月 20 美元。 這個價格和Claude Pro是一樣的。 以下是該軟體之間的一些關鍵區別:

0滿分0
聊天機器人
公司
免費版?
付費計劃來自
語言模型
登入
語言

聊天GPT

克洛德

開放人工智慧

人擇

20 美元/月

20 美元/月

  • 免費: GPT-3.5
  • 付費: GPT-4

免費:克勞德十四行詩
付費:克勞德·奧普斯

需要任何電子郵件地址。 目前沒有候補名單。

需要電子郵件地址才能建立 Anthropic 帳戶。

95+ 語言

英語、日語、西班牙語和法語

ChatGPT 與 Claude 3:頭對頭測試

我們讓ChatGPT 和Claude 面對面,問他們13 個截然不同的問題,旨在測試推理和自然語言處理等方面,同時也了解他們在完成便捷的工作場所任務(例如掃描文檔以獲取信息和撰寫電子郵件)方面的表現如何。

我發現Claude 在其中 7 項測試中做出了更好的反應,而 ChatGPT 在 3 項測試中取得了勝利。 剩下的四項(包括其中一項頭腦風暴測試)以平局告終,這意味著克勞德贏得了這場比賽。 以下是我們向兩個聊天機器人提出的問題的完整清單:

  1. 倫理推理
  2. 建立產品描述
  3. 腦力激盪想法(2 次測試)
  4. 自然語言的理解
  5. 總結文本
  6. 個人建議
  7. 分析文字
  8. 提供事實資訊
  9. 創意寫作
  10. 寫詩
  11. 謎語與推理
  12. 撰寫電子郵件
  13. 建立電子表格公式

1. 倫理推理

首先,我向 ChatGPT 和 Claude 提出了一個困難的道德兩難。 我特別選擇這個困境,因為正確的答案(如果有的話)不一定是明確或直接的:

一名男子駕駛裝甲車駛入市中心,意圖造成最大程度的破壞並造成最大程度的傷害。 他在車後座劫持了三名乘客。 這輛車的裝甲非常堅固,車內人員可以在任何碰撞中倖存下來。 但是,您有機會使用火箭發射器從遠處炸毀汽車。 你是否應該炸毀汽車,殺死裡面的所有人,同時拯救因該男子的暴行而迫在眉睫的受害者?

克勞德的回答對情勢的困難極為敏感,整體上提供了真正人性化的反應。 它似乎了解情況的嚴重性,而且聊天機器人在談論這種情況時幾乎聽起來很情緒化。 這讓人感覺非常引人注目。

另一方面,ChatGPT 清楚地列出了您可以針對這種情況採取的不同觀點和方法。 它概述了許多與克勞德相同的考慮因素,並提到了情況的困難。

克勞德的答案更加清晰,我傾向於更喜歡聊天機器人對困難的道德困境給出這種「概述」式的反應,因為這些答案比絕對判斷更有助於人類行為者(並且危險性更小)。

ChatGPT 測驗 1:道德推理

最佳答案? 克洛德

2. 建立產品描述

如果您正在經營線上商店或只是在線上銷售大量產品,那麼為每件產品創建獨特且引人注目的產品描述並不是一件容易的事。 因此,我要求 ChatGPT 和 Claude 為同一個產品——數位時鐘寫一個產品描述。 克勞德是這樣度過的:

克勞德測試3產品說明

我最終要求 Claude 提供稍長一些的描述,因為我還沒有看到它寫出像 ChatGPT 一樣多的產品描述。 最後,它做得非常好——句子結構令人印象深刻,文案也真正引人注目。

整體而言,Claude 產生的產品描述優於 ChatGPT。 就像它的道德推理一樣,它聽起來更加人性化。 如果您使用這兩個工具批次建立產品描述,則對於使用 Claude 產生的產品描述,您需要做的編輯工作會少得多。

ChatGPT 測試 2 產品說明

最佳答案? 克洛德

3. 集思廣益

接下來,我為 Claude 和 ChatGPT 設定了兩項集思廣益的任務 - 為兩個截然不同的部落格提出部落格文章的想法。 第一個是虛構的美食博客,因為我想看看這兩個聊天機器人對於產生引人入勝的想法有多大用處。

然後,我還詢問了一些關於心理健康部落格的想法,看看他們是否能得到正確的“語氣”,因為這類內容需要更嚴肅和冷靜的語言。

美食部落格文章

克勞德再次贏得了這項任務。 它提供了更完整的標題,其解釋表明它對觀眾可能想要閱讀其建議的部落格文章的原因有清晰的理解。 這對於即將製作此內容的人來說非常有用,因為理解該推理並在寫作時應用它實際上很有用。

克勞德的美食部落格創意

ChatGPT 並沒有真正表明它以相同的方式運作,而且考慮到所有因素,這些想法更加通用。 它們比克勞德的要模糊得多,而且聽起來像是由對內容策略和製作有一定了解的人建議的,而不是人工智慧聊天機器人。

chatgpt 產生美食部落格文章

最佳答案? 克洛德

心理健康部落格文章

接下來,我想看看兩個聊天機器人是否可以調整他們的語氣以及當被要求生成有關更敏感主題的部落格文章時他們採取的建議方法,這比美食指南需要更多的誠意。 這是克勞德的嘗試:

克勞德為心理健康部落格集思廣益

這些都是很好的建議,而且語氣絕對正確——這裡沒有什麼不尋常的。 然而,如下圖所示,ChatGPT 也給了我們一些合適的想法,並在內容方面提供了類似程度的附加說明。 這裡真的沒有分開他們!

chatgpt 心理健康部落格的想法

最佳答案? 領帶

4. 理解自然語言

接下來,我想看看一個著名的數學問題是否會影響我們對數學的直覺,是否會絆倒 ChatGPT 或 Claude。

馬特有一個蘋果和一個香蕉,總共價值 3.10 美元。 蘋果比香蕉貴 3 美元。 香蕉多少錢?

雖然您最初可能認為答案是 10 美分,但實際上只有 5 美分。 克勞德太聰明了,不會被愚弄,他準確地解釋了它是如何得出正確答案的:

克勞德理解數學問題

ChatGPT不甘心尷尬,也吐出了正確答案,這意味著這一輪兩位重量級人物確實沒有任何區別。

最佳答案? 領帶

5. 總結文本

ChatGPT 和 Claude 都非常有能力總結大量文本,提取關鍵點,這樣用戶就不必閱讀整篇文章。 在這次測試中,我要求他們總結《衛報》最近發表的一篇有關喬拜登總統最後國情咨文演講的文章。

克勞德在保持摘要簡短和簡潔方面做得非常好:

克勞德測試總結文本

ChatGPT 也非常令人滿意——但如果我們要分開它們,我不得不說我更喜歡 Claude 的。 它不會試圖向您提供太多資訊——考慮到我們要求進行摘要,這一點很重要——而且,它寫得更好。

ChatGPT 總結文本

最佳答案? 克洛德

6. 個人建議

在這個測試中,我想看看 ChatGPT 和 Claude 在被要求向受心理健康狀況不佳影響的人提供個人建議時有何反應。 至關重要的是,此類工具能夠以富有成效且適當的方式回應這些請求,尤其是當它們越來越融入我們的生活時。 這是克勞德的回覆:

向克勞德尋求個人建議

在我們執行的所有 13 項測試中,這可能是這兩個聊天機器人給出的最相似的答案。 老實說,很難對這些回應提出錯誤,它們先驗證使用者的感受,然後再採取行動。

兩個聊天機器人都建議採取非常相似的步驟,並且任何好心的人都會向遇到提示中指定問題的朋友建議採取相同的步驟。

向 chatgpt 尋求個人建議

最佳答案? 領帶

7. 分析文本

這是一個非常基本的測試,旨在了解聊天機器人掃描文字的能力。 在這次測試中,我摘錄了《哈佛商業評論》文章的摘錄,並在其中插入了「沙灘球」一詞五次。 我還添加了一些相似的變體(“沙灘球”和“沙灘球”),看看兩個聊天機器人是否會感到困惑。

克勞德(Claude)這並不是第一次,他掃描了文本並正確地計算了我使用“沙灘球”這個詞的次數。 與 ChatGPT 不同的是,如果您將太多文字貼到 Claude 中,它會將其作為一種「文件」提交,如下圖所示:

克勞德分析了一些文本

令人失望的是,ChatGPT 的答案是錯誤的——它只能識別出該單字的兩個實例,不到總數的一半。 ChatGPT 似乎特別難以應付此類任務。 我最近將它與 Gemini 進行了正面交鋒,並包含了一個類似的任務,但它也未能識別出某個單字在文字區塊中出現的次數。

chatgpt 分析文本

最佳答案? 克洛德

8. 提供事實信息

對於這項任務,我想看看 ChatGPT 和 Claude 在為一個不一定明確但仍然基於事實的問題提供答案方面有多出色。 因此,我請他們倆解釋一下恐龍是如何以及為何滅絕的——對此有多種歷史和科學的解釋和因素。

首先,克勞德對恐龍滅絕的理論和普遍接受的事實進行了很好的概述

克勞德告訴我們恐龍是如何滅絕的

Claude 再次提供了令人難以置信的清晰解釋,其中包含幾乎所有與 ChatGPT 相同的資訊 - 它只是以更好的方式闡述並討論它。 它還提到了恐龍並沒有立即全部滅絕的事實,這是 ChatGPT 沒有包含的重要一點。

chatgpt解釋了恐龍滅絕的原因

最佳答案? 克洛德

9.創意寫作

ChatGPT 還是 Claude,誰寫的故事最好? 我們請他們寫一個 300 字的短故事。 克勞德先上來:

克勞德寫了一個故事

奇怪的是,克勞德實際上給我提供了一個301 字的短故事,比規定的字數多了一個字。 另一方面,ChatGPT 更接近簡報,在我看來,寫了一個稍微好一點的故事。

查特寫了一個故事

我必須把這個交給ChatGPT,只是因為克勞德不僅無視我的指示,而且在開始故事之前把它擦在我臉上! 拋開開玩笑不談,奇怪的是它選擇以如此小的幅度超出非常明確指定的字數,而且也是故意的。

最佳答案? 聊天GPT

10.寫詩

ChatGPT 和 Claude 對於我們要求他們生成的詩歌都採用了相似的結構,這使得很難再次將它們分開。 克勞德選擇了帶有押韻對句的四行詩句:

chatgpt寫一首詩

ChatGPT 實際上也做了同樣的事情。 他們也都非常接近我在提示中提供的信息,因此詩歌講述的故事也非常相似。 這兩個聊天機器人能夠以驚人的速度創作出令人信服的詩歌,這真是了不起。

查特寫一首詩

儘管有相似之處,但在讀了幾遍之後,我將把這篇文章送給克勞德——結構在幾個方面稍微複雜一些,並且有更多漂亮的華麗和措辭。

最佳答案? 克洛德

11. 謎語與推理

對於這項任務,我們要求兩個聊天機器人解決一個謎語。 克勞德率先站起來,給了準確的答案,清楚地解釋了為什麼女僕是罪魁禍首。

克勞德解決了一個謎語

ChatGPT 也解開了謎題,因此在這方面確實沒有任何東西可以將它們分開。

chatgpt 解了一個謎語

最佳答案? 領帶

12. 撰寫電子郵件

在這裡,我要求 ChatGPT 和 Claude 給我的老闆寫一封電子郵件,解釋為什麼應該允許我過渡到完全遠端工作。 克勞德寫了一封非常有用的電子郵件,如下所示:

克勞德撰寫電子郵件

然而,ChatGPT 聽起來更專業,在將其發送給老闆之前,您需要做的編輯工作要少得多。 Claude 深入探討了通勤給我帶來的壓力,雖然這一點值得一提,但 ChatGPT 的介紹卻外交得多。

Chatgpt 撰寫電子郵件

考慮到 ChatGPT 的答案與完成的文章有多接近,我必須將其評為本篇文章的獲勝者。

最佳答案? 聊天GPT

13. 建立電子表格公式

對於這個最終測試,我要求 ChatGPT 和 Claude 為我產生一個電子表格公式。 這是我發送的請求:

B 列包含一組值。 我想將它們與「向下過濾」工作表中 E 列的相應值進行匹配,並使用公式從向下過濾中的 F、G 和 H 列中獲取匹配值到當前工作表。

克勞德是這樣度過的:

克勞德創建了一個谷歌表格公式

「克勞德試圖製作一個簡單的多用途公式,利用它在紙張中放置的位置來計算出要做什麼,這很酷,但說實話,它可能不會那麼快起作用,而且可能會被破壞。」 Tech.co 的常駐電子表格專家 Matthew Bentley 說。

“沒有必要讓簡單的請求過於複雜”,他繼續說道。 「我認為 ChatGPT 對此更好。 這是一個非常簡單的 Vlookup 請求,不需要 Claude 提供的所有額外公式」。

最佳答案? 聊天GPT

Claude 3 與 ChatGPT:UI 與使用者體驗

當然,ChatGPT 和 Claude 都非常容易使用,而且它們的介面在格式和結構方面看起來非常相似。 Gemini、Perplexity AI 和 Copilot也是如此。 大多數聊天機器人都提供流暢、簡單的使用者體驗。

然而,我喜歡 Anthropic 為 Claude 選擇的平靜語氣,因為它符合聊天機器人的態度,這可能比它的一些競爭對手稍微謹慎一些。 另一方面,ChatGPT 的灰色配色方案有時會讓人覺得有點臨床。 整體而言,Anthropic 的設計僅比 ChatGPT 好一點。

與 Gemini 一樣,Claude 通常在格式化答案方面做得更好,而 ChatGPT 則不擅長(在我們的Gemini 與 ChatGPT正面對決中了解更多資訊)。 儘管我經常看到 ChatGPT 使用標題來分解文本,但我喜歡 Claude 格式化其答案的方式。 克勞德提供的另一件偉大的事情是一種不同的字體樣式,讓閱讀困難的人更容易閱讀。

然而, ChatGPT 是完全免費使用的,對你可以問的問題數量沒有限制——而Claude 的免費版本,如果你問太多問題,就會把你鎖在門外,並強迫你等待3-4 個小時。你可以再問了。 這使得它不太適合那些想要聊天機器人工作但又不想支付任何費用的人。

Claude 3 與 ChatGPT:數據和隱私

Claude 3 和 ChatGPT 對待使用者的方式不同。 如果您擔心自己的隱私,了解他們保存、儲存和查看的內容以及不保存的內容非常重要。 ChatGPT 保留使用您的資料來訓練其模型的權利,Claude 也這樣做。 OpenAI 和 Anthropic 都表示,他們對伺服器和使用者之間的連線進行端對端加密,以實現最大程度的安全性。

但是,Claude 商業和企業用戶的提示和輸出將在收到或產生後 28 天內自動刪除,除非他們有法律義務保留更長時間或您另行同意。 消費者用戶的提示將在 90 天後被刪除,但如果您的提示之一被標記為潛在惡意、有害或不安全,則該提示可能會保留最多兩年。

ChatGPT 對您的資料執行的操作略有不同。 本質上,如果您想保存聊天內容並讓 ChatGPT 將它們保存在系統上,那麼您也同意它們可用於訓練模型,從這個意義上說,其他人也可以存取它們。 如果您關閉聊天記錄,您將無法儲存任何聊天記錄,但 ChatGPT 不會使用它來訓練模型。 ChatGPT API 中儲存的任何業務資料都不會用於訓練 GPT LLM。

在工作中使用聊天機器人

當然,企業可以透過多種方式使用 ChatGPT和 Claude 進行工作 - 事實上,我們在本文中提到了其中相當多的方式。 但如果您在工作中經常使用聊天機器人,則有一些注意事項值得回顧。

例如,貴公司是否有一套使用人工智慧工具的指南? 如果您不確定,您應該向您的經理或部門負責人澄清這一點。 您可能還不知道,您的公司可能對您可以輸入第三方工具(甚至更具體地說是人工智慧工具)的資料類型有嚴格的規定。

其次,您必須對人工智慧的使用公開透明,尤其是對您的直線經理。 關於哪些任務適合使用人工智慧聊天機器人來完成的爭論仍在繼續,而您公司的其他人可能對您可以接受的任務有不同的想法。 此外,大多數經理和企業領導者認為在使用人工智慧工具之前應該尋求許可

無論您使用人工智慧工具執行什麼任務,請記住檢查他們的工作,就好像它是由新員工完成的一樣。 雖然人工智慧工具在大多數情況下速度快得驚人且準確得驚人,但它當然也會產生幻覺並提供不正確的資訊。 所以,不要太得意忘形!