ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較 - 巴哈姆特小屋
首先,我們準備了這兩張資訊量很高的圖片
![[實測]ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較](https://attach.mobile01.com/attach/202407/mobile01-e5ce2407265f66a54ec11c0179d214e2.jpg)
![[實測]ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較](https://attach.mobile01.com/attach/202407/mobile01-af6c1a8f857ebdb1fdc7800bde8cd5dd.jpg)
然後一起進行複雜的停車場排位的資訊量測試,要確認該生成式模型是否有理解平面圖與Excel表格之間的關聯性規則:
首先是Google Gemini 1.5 Flash模型
![[實測]ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較](https://attach.mobile01.com/attach/202407/mobile01-b8cbe4839bf26f10c2cab8a68826347f.jpg)
![[實測]ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較](https://attach.mobile01.com/attach/202407/mobile01-a196ba380b2e05b3f3a7879ea6a874ab.jpg)
再來是ChatGPT-4o模型
![[實測]ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較](https://attach.mobile01.com/attach/202407/mobile01-18e3f5ab8254f719a4e6337ce25cc144.jpg)
透過這樣的比較,我們就可以知道,哪一種生成式ai模型最適合挑戰複雜、推理、決策的任務類型了。(如果讀者有看懂,這兩張圖之間的關聯性與龐大資訊量的話。)
![[實測]ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較](https://attach.mobile01.com/attach/202407/mobile01-87b023910cd28969120696ad79fc05aa.jpg)
已經產生幻覺內容的ChatGPT-4o模型 :
![[實測]ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較](https://attach.mobile01.com/attach/202407/mobile01-428c8db2405ca8e9a8987e8aa1dcff9e.jpg)
![[實測]ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較](https://attach.mobile01.com/attach/202407/mobile01-e2cde55d224e2ca5accf42ea38544df2.jpg)
仍能準確分析回答的Google Gemini 1.5 Flash模型:
以下是Google Gemini 1.5 Flash排列的停車格
![[實測]ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較](https://attach.mobile01.com/attach/202407/mobile01-cbd21bdaa58e1856a8187d8b8ed51f06.jpg)
從Excel表格上打開
![[實測]ChatGPT-4o與Google Gemini 1.5 Flash模型的複雜任務比較](https://attach.mobile01.com/attach/202407/mobile01-14918a0a29acb80f6a24e6de15e2ad72.jpg)
就結果來說,Google Gemini 1.5 Flash輸出Excel表格的成果來說,是可以直接在真實的停車場地上進行無痛使用的(畢竟都有以顏色標記位置區域、數量),反觀ChatGPT-4o模型只是簡單的排出來,要嘛就是將時間重新生成,不然就是將原本只有四個停車格的凌晨班,硬是塞了好幾輛車牌上去,可見GPT-4o不適合處理這種資訊量過於龐大的複雜任務,而且很容易產生幻覺(儘管提示詞內已經有加入具體的凌晨班時段)。
說到要排列停車位,就一定能事前知道每一輛車的抵達時間,所以我們可以使用Google Gemini 1.5 Flash快速計算每一輛車的抵達時間