
অর্থনৈতিকভাবে মূল্যবান কাজ
GPT‑5.2 চিন্তাভাবনা বাস্তব-বিশ্বের, পেশাদার ব্যবহারের জন্য এখনও পর্যন্ত সেরা মডেল। GDPval - তে , 44টি পেশা জুড়ে সুনির্দিষ্ট জ্ঞান-কর্মের কাজ পরিমাপ করে এমন একটি মূল্যায়ন, GPT‑5.2 চিন্তাভাবনা একটি নতুন অত্যাধুনিক স্কোর সেট করে এবং এটি আমাদের প্রথম মডেল যা মানব বিশেষজ্ঞ স্তরে বা তার উপরে কাজ করে। বিশেষজ্ঞ মানব বিচারকদের মতে, বিশেষ করে, GPT‑5.2 চিন্তাভাবনা GDPval জ্ঞান-কর্মের কাজের তুলনার 70.9% ক্ষেত্রে শীর্ষ শিল্প পেশাদারদের ছাড়িয়ে যায় বা তাদের সাথে মিলে যায়। এই কাজের মধ্যে উপস্থাপনা, স্প্রেডশিট এবং অন্যান্য শিল্পকর্ম তৈরি করা অন্তর্ভুক্ত। GPT‑5.2 চিন্তাভাবনা GDPval কাজের জন্য গতির 11x এবং বিশেষজ্ঞ পেশাদারদের খরচের 1% এর চেয়ে বেশি আউটপুট তৈরি করে, যা পরামর্শ দেয় যে যখন মানুষের তত্ত্বাবধানের সাথে যুক্ত করা হয়, GPT‑5.2 পেশাদার কাজে সাহায্য করতে পারে। গতি এবং খরচ অনুমান ঐতিহাসিক মেট্রিক্সের উপর ভিত্তি করে; ChatGPT-তে গতি পরিবর্তিত হতে পারে।
GDPval-এ, মডেলগুলি মার্কিন জিডিপিতে অবদানকারী শীর্ষ 9টি শিল্পের 44টি পেশার উপর সুনির্দিষ্ট জ্ঞানের কাজ করার চেষ্টা করে। কাজগুলি বিক্রয় উপস্থাপনা, অ্যাকাউন্টিং স্প্রেডশিট, জরুরি যত্নের সময়সূচী, উৎপাদন চিত্র বা ছোট ভিডিওর মতো বাস্তব কাজের পণ্যগুলির জন্য অনুরোধ করে। ChatGPT-তে, GPT-5.2 Thinking-এ নতুন সরঞ্জাম রয়েছে যা GPT-5 Thinking-এ নেই।
বিশেষ করে ভালো আউটপুট পর্যালোচনা করার সময়, একজন GDPval বিচারক মন্তব্য করেছিলেন, “এটি আউটপুট মানের ক্ষেত্রে একটি উত্তেজনাপূর্ণ এবং লক্ষণীয় উল্লম্ফন… [এটি] মনে হচ্ছে একটি পেশাদার কোম্পানি দ্বারা কর্মীদের সাথে করা হয়েছে, এবং উভয় ডেলিভারেবলের জন্য একটি আশ্চর্যজনকভাবে ভালভাবে ডিজাইন করা বিন্যাস এবং পরামর্শ রয়েছে, যদিও একটিতে আমাদের এখনও কিছু ছোটখাটো ত্রুটি সংশোধন করতে হবে।”
উপরন্তু, জুনিয়র ইনভেস্টমেন্ট ব্যাংকিং বিশ্লেষক স্প্রেডশিট মডেলিং কাজের আমাদের অভ্যন্তরীণ মানদণ্ডে – যেমন Fortune 500 কোম্পানির জন্য সঠিক বিন্যাস এবং উদ্ধৃতি সহ একটি তিন-বিবৃতি মডেল তৈরি করা, অথবা একটি টেক-প্রাইভেট-এর জন্য একটি লিভারেজড বাইআউট মডেল তৈরি করা – GPT 5.2 থিংকিং-এর গড় স্কোর GPT-5.1-এর তুলনায় 9.3% বেশি, যা 59.1% থেকে 68.4% এ উন্নীত হয়েছে।
পাশাপাশি তুলনা করলে GPT‑5.2 দ্বারা তৈরি স্প্রেডশিট এবং স্লাইডে উন্নত পরিশীলিততা এবং বিন্যাস দেখা যায়।
ChatGPT-তে নতুন স্প্রেডশিট এবং উপস্থাপনা ক্ষমতা ব্যবহার করার জন্য, আপনাকে অবশ্যই একটি প্লাস, প্রো, বিজনেস, অথবা এন্টারপ্রাইজ প্ল্যানে থাকতে হবে এবং GPT‑5.2 Thinking অথবা Pro নির্বাচন করতে হবে । জটিল প্রজন্ম তৈরি করতে অনেক মিনিট সময় লাগতে পারে।
কোডিং
GPT‑5.2 চিন্তাভাবনা SWE-Bench Pro-তে ৫৫.৬% এর একটি নতুন স্তর স্থাপন করে, যা বাস্তব-বিশ্বের সফ্টওয়্যার ইঞ্জিনিয়ারিংয়ের একটি কঠোর মূল্যায়ন। SWE-bench Verified-এর বিপরীতে, যা শুধুমাত্র Python পরীক্ষা করে, SWE-Bench Pro চারটি ভাষা পরীক্ষা করে এবং আরও দূষণ-প্রতিরোধী, চ্যালেঞ্জিং, বৈচিত্র্যময় এবং শিল্পগতভাবে প্রাসঙ্গিক হওয়ার লক্ষ্য রাখে।
SWE-বেঞ্চ প্রো - তে(একটি নতুন উইন্ডোতে খোলে) , একটি মডেলকে একটি কোড রিপোজিটরি দেওয়া হয় এবং একটি বাস্তবসম্মত সফ্টওয়্যার ইঞ্জিনিয়ারিং কাজ সমাধানের জন্য একটি প্যাচ তৈরি করতে হয়।
SWE-বেঞ্চ যাচাইকৃত (প্লট করা হয়নি) তে, GPT-5.2 থিংকিং আমাদের নতুন সর্বোচ্চ 80% স্কোর করেছে।
দৈনন্দিন পেশাদার ব্যবহারের জন্য, এটি এমন একটি মডেলে রূপান্তরিত হয় যা কম ম্যানুয়াল হস্তক্ষেপের মাধ্যমে আরও নির্ভরযোগ্যভাবে উৎপাদন কোড ডিবাগ করতে, বৈশিষ্ট্য অনুরোধ বাস্তবায়ন করতে, বৃহৎ কোডবেসগুলি পুনর্নির্মাণ করতে এবং এন্ড-টু-এন্ড সংশোধন করতে পারে।
GPT‑5.2 থিংকিং ফ্রন্ট-এন্ড সফটওয়্যার ইঞ্জিনিয়ারিং-এ GPT‑5.1 থিংকিং-এর চেয়েও ভালো। প্রাথমিক পরীক্ষকরা ফ্রন্ট-এন্ড ডেভেলপমেন্ট এবং জটিল বা অপ্রচলিত UI কাজের ক্ষেত্রে এটিকে উল্লেখযোগ্যভাবে শক্তিশালী বলে মনে করেছিলেন—বিশেষ করে 3D উপাদানের সাথে জড়িত—যা এটিকে স্ট্যাক জুড়ে ইঞ্জিনিয়ারদের জন্য একটি শক্তিশালী দৈনিক অংশীদার করে তুলেছে। একটি একক প্রম্পট থেকে এটি কী তৈরি করতে পারে তার কয়েকটি উদাহরণ দেখুন: