「いちご」に含まれる「e」の数は?ChatGPTの奇妙な挙動
あるユーザーが、ChatGPTに「いちご」に含まれる「e」の数を尋ねたところ、一貫して「3」という回答が返ってきたという実験結果を共有しました。
これは、以前に「r」の数を問う問題でChatGPTが誤った回答をした一件に似ており、AIの挙動や学習データに疑問を投げかけています。
実験は偶然から始まり、ChatGPTが使用しているモデルがGPT-5.3であることを確認した結果、さらに興味深い状況が明らかになりました。
この出来事を、ユーザーはArchive.isを用いて記録し、詳細を公開しています。
AIの応答が、単なる誤りではなく、特定の単語に対する「学習バイアス」として現れている可能性が指摘されています。発端は、ChatGPTに「strawberry(ストロベリー)」という単語に含まれるEの数を尋ねたという、非常にシンプルな実験からでした。この現象は、AIが特定の情報に対して過剰に最適化(オーバーコンペンセーション)しているのではないかという、AIの振る舞いに関する興味深い考察を呼んでいます。
「strawberry」が引き起こすAIの挙動
筆者は、ChatGPTが「strawberry」に含まれるEの数を尋ねられた際、一貫して「3」と回答したという現象を報告しています。これは、以前に「strawberry」に含まれるRの数に関する議論でAIの挙動が注目された経緯と酷似しています。この単語が二度もAIの挙動を巡る議論を引き起こしていることに、筆者は強い関心を寄せています。
この現象は、AIが単に誤答しているのか、それとも特定のデータセットや学習過程で、その単語に対して何らかのバイアスを強く持たされているのか、という疑問を投げかけています。AIが自身の欠点を補おうとして過剰に反応している可能性も示唆されています。
実験の経緯と偶然の発見
この現象は、筆者が深夜にChatGPTを試行錯誤する中で、完全に偶然に発見されたものです。当初は「seventeen(17)」という単語のEの数を検証しようとしていましたが、疲労や視力の問題から誤って「strawberry」を入力してしまいました。その結果、ChatGPTが「3」と回答したのを目撃したのです。
筆者は、この「strawberry」の回答を、以前の「seventeen」の検証結果と比較し、AIの応答の安定性や一貫性を確認しようと試みました。この一連の試行錯誤の過程で、AIが特定の単語に対して極めて固定的な応答を示すことが明らかになりました。
AIのバイアスと社会的な示唆
筆者は、この「strawberry」の事例を単なるバグとして片付けるのではなく、AIが特定の情報に対して過剰に最適化(オーバーコンペンセーション)している可能性に着目しています。これは、私たちが経済活動において、AIが必ずしも合理的な利益をもたらさないユースケースにまで導入を強いている現状と重ね合わせて考察しています。
AIが持つバイアスや偏りが、意図せずして特定の形で現れる可能性は、今後のAI開発や社会実装における重要な課題です。この偶然の発見は、AIの内部構造や学習データに潜む、より深い構造的な問題を示唆していると見られています。
まとめ
この「strawberry」の事例は、AIの応答が単なるランダムなエラーではなく、学習データに根差した特定のバイアスである可能性を示しています。AIの振る舞いを深く理解するためには、このような日常的な「偶然」の発見が重要であると言えるでしょう。
原文の冒頭を表示(英語・3段落のみ)
I just want to say one word: Wow.
Thoughts
So what happened: I think that I have a minor suspicion that just as how as I was typing e instead of r, chatgpt itself also as it was previously in hot boil water over the amount of r in strawberry, might have actively been trained to say 3 and it didn't expect me to ask the number of e's in strawberry. I find it incredibly hilarious that the same word strawberry has caused openai downfall two times, one about r and then another about e.
※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。
Hacker News コメント
機械翻訳。HN の元スレッド ↗
5時10分です正直に言えば文章は少し散らかっているし私の基準には達していませんがとにかくアップロードしたかったのですなぜなら明日起きたら良いコメントを読めるからですよろしくお願いしますあなたがこれを読んだとしても読んでいないとしても全然構わないのです正直なところ理由は分かりませんが皆さんを愛していますこのコミュニティーにも問題はありますが皆さんを愛しています良い一日を夜を過ごしてくださいおやすみなさいさようなら
原文
5:10 AM here, the writing is a bit messy to be honest and not up to my standards but I wished to upload it anyway because I will have some good comments to read when I wake up. So thanks for reading if you have read it!And even if you haven't and have just read this comment, that's completely fine too and honestly I don't know why really, but I want to just say that I love you all and I love this community and yes it has its problems but I love you all and I wish you all to have a nice day/night!Going to go to sleep now. Bye!
フォローアップQ:どれくらいのストロー?A:一本。
原文
Follow-up Q: How many straws?A: One.
この明らかな欠陥は無視できる。LLMsは金融利益を伴う用途、例えばスパムやフィッシングメール、マーケティングとプロパガンダに適切である。
原文
This obvious flaw is immaterial. LLMs are entirely adequate for use cases involving financial gain, like spam and phishing emails, marketing and propaganda.
何が言いたいのか、はっきり書いてください。始めに明確に述べるべきです。私がジェミニに尋ねた時は正しい答えを出して、「Show code」というボタンもありましたからクリックしました。word = "strawberry"で、count = word.lower().count('e')を計算し、print(f"The number of 'e's in '{word}' is {count}.")と表示されました。次に、下のコメントでの続きです。「How many straws in strawberry」には0本のストローがあります(またPythonコードで示します)。同様に、「How many straw in strawberry」には1本のストローがあります(Pythonコードを再度示し、文字列マッチングをしていることがわかります)。次は、Q: 「私がストローのことを指すと理解してください。いくつストローがstrawberryにありますか?」A: 「strawberryという単語には正確に一回だけ“straw”の文字列がありますが、実際の飲み物を入れる容器は0個です。ベリーをストロー代わりに使うと大抵非常に汚いおやつになります
原文
What is your point, exactly? You should state it clearly at the start of the post.When I asked gemini, it printed the right answer, and it also had a button: "Show code", which I clicked:
word = "strawberry"
count = word.lower().count('e')
print(f"The number of 'e's in '{word}' is {count}.")Now, the followup (from a comment below): "How many straws in strawberry": there are 0 "straws" (again with the Python code). Similarly, "How many straw in strawberry": 1 straw (again with the Python code, showing it's just trying to do string matching).Next:
Q: "When I saw straw, I mean the object you use to drink liquids through. How many straw in strawberry?"A: "While the word strawberry contains the letters to spell "straw" exactly one time, there are zero actual drinking objects inside the fruit. Trying to use a berry as a straw would mostly just result in a very messy snack!"
Dunning-Kruger現象がこのブログ記事から感じられる。LLMsの動作を調べると、明らかにこれらの文字数カウントのシナリオで失敗する理由がわかる。
原文
Dunning-Kruger vibes from this blog post.Look into how LLMs work and it's pretty clear why these character counting scenarios often fail if not invoking Thinking/Python Scripting.
Hey、起きた。朝です。私の理解では、この現象が起きる理由はLLMがトークンからトークンまで作業することで、単語を分割してしまうことが原因です。正直なところ、私は何も知りませんし、学びたいと思っています。興味深いと感じたのは、思考せずにrのテストを実行してもstrawberryで常に成功することです。
https://chatgpt.com/s/t_69f85fb01d8881918016f2ceb3d1f314
https://chatgpt.com/c/69f85e1d-25e8-8320-ba10-2dbe5857fc74
https://chatgpt.com/share/69f85fd6-4534-8322-a3f9-a06f3e26ec...
このパッチが追加されたのは、strawberryにrが加わった訓練テストの時でした。私は当時のコメントを覚えています。突然、回答が変わるようになりました。OpenAIが恥ずかしくなり始めたからです。もしかしたら、同じ理由で三つのeを繰り返すのかもしれません。ただし、これは私の意見であり、事実ではありません。
私は問題に感じているのは、AIの開発者さえも時々これを「神聖なもの」として提示することです。明らかな欠陥がありますが、無視しています。驚かなかった方は良かったですね!私のように長い間インターネットでLLMと過ごした人でも、完全に解決された問題だと思っていたので共有しました。良い一日を :-D
原文
Hey, just woke up. Good morning, From my understanding, the reason that this happens is that as LLM's work from token to token which breaks the word being the reason why this type of anamoly occurs. The only thing I know is that I know nothing to be honest and I wish to learn more, and this was just me sharing something that I found interesting :-DThe thing which I find interesting though is that even if you don't involve Thinking, the r's in strawberry test always succeedshttps://chatgpt.com/s/t_69f85fb01d8881918016f2ceb3d1f314 & https://chatgpt.com/c/69f85e1d-25e8-8320-ba10-2dbe5857fc74https://chatgpt.com/share/69f85fd6-4534-8322-a3f9-a06f3e26ec...Now one can say that this patch was added as the r in strawberry got added into training test but I remember some comments at that time where it suddenly changed the answers as it started getting more humiliating for OpenAI as everyone started to pick this knowledge up and this might be the same reason why it says that it has three e's so many times because it tries to always say the three r's BUT that is just my opinion (which I don't wish to present as fact)I think that the issue I have is that the people working in AI also present it sometimes as the holy grail when it has some clear flaws and they gloss over it.If you found this result unsurprising, good for you!, but I feel like even as someone who spent a lot of time in the internet with LLM's, I didn't expect it because I thought that it was a completely solved problem in all LLM's, and I just shared this with everyone.Have a nice day :-D