Hacker News

এদিন দুপৰীয়াত ক’ডিঙত ১৫টা এল এল এম উন্নত কৰা। কেৱল হাৰ্নেছ সলনি হ’ল

এদিন দুপৰীয়াত ক’ডিঙত ১৫টা এল এল এম উন্নত কৰা। কেৱল হাৰ্নেছ সলনি হ’ল উন্নতিৰ এই বিস্তৃত বিশ্লেষণে ইয়াৰ মূল উপাদানসমূহ আৰু বহল প্ৰভাৱৰ বিশদ পৰীক্ষা আগবঢ়ায়। গুৰুত্বৰ মূল ক্ষেত্ৰসমূহ আলোচনাৰ কেন্দ্ৰবিন্দু হৈছে: ...

1 min read Via blog.can.ac

Mewayz Team

Editorial Team

Hacker News

এটা বিয়লিতে ক'ডিঙত ১৫টা বৃহৎ ভাষাৰ মডেল উন্নত কৰাটো এটা চন্দ্ৰৰ দৰে শুনা যায় — যেতিয়ালৈকে আপুনি উপলব্ধি নকৰে যে মডেলসমূহ নিজেই কেতিয়াও সলনি হোৱা নাছিল। একমাত্ৰ চলক আছিল হাৰ্নেছ: প্ৰতিটো মডেলৰ চাৰিওফালে মেৰিয়াই লোৱা মৰাপাট, প্ৰমপ্ট, আৰু মূল্যায়ন কাঠামো।

এই আৱিষ্কাৰে ডেভেলপাৰ, প্ৰডাক্ট দল, আৰু ব্যৱসায়িক অপাৰেটৰসকলে AI-সহায়ক ক'ডিঙৰ বিষয়ে কেনেকৈ চিন্তা কৰে তাক পুনৰ গঠন কৰিছে — আৰু ইয়াৰ গভীৰ প্ৰভাৱ আছে ২০২৬ চনত এটা চফ্টৱেৰ-চালিত ব্যৱসায় নিৰ্মাণ বা স্কেল কৰা যিকোনো ব্যক্তিৰ বাবে।

এটা LLM হাৰ্নেছ কি আৰু ই কিয় সকলো নিয়ন্ত্ৰণ কৰে?

এটা হাৰ্নেছ হৈছে এটা কেঁচা ভাষা আৰ্হি আৰু ইয়াৰ বাস্তৱ জগতৰ আউটপুটৰ মাজৰ স্তৰ। ইয়াত চিস্টেম প্ৰমপ্ট, প্ৰসংগ ইনজেকচন, সঁজুলি সংজ্ঞা, উদ্ধাৰ যুক্তি, আৰু আৰ্হি সফল হৈছে নে নাই বিচাৰ কৰিবলে ব্যৱহৃত মূল্যায়ন মাপকাঠী অন্তৰ্ভুক্ত কৰা হৈছে। ইয়াক বিমানৰ ককপিট বুলি ভাবিব: ইঞ্জিন (এল এল এম) স্থিৰ হৈ থাকে, কিন্তু যন্ত্ৰ আৰু নিয়ন্ত্ৰণে নিৰ্ধাৰণ কৰে যে বিমানখন নিৰাপদে অৱতৰণ হয় নে নহয়।

যেতিয়া গৱেষকসকলে ক'ডিং বেঞ্চমাৰ্কৰ এটা প্ৰামাণিক চুইটৰ বিপৰীতে ১৫টা ভিন্ন এলএলএম পৰীক্ষা কৰিছিল, তেওঁলোকে দেখিছিল যে হাৰ্নেছক টুইক কৰিলে — ওজনসমূহ ফাইন-টিউনিং নকৰাকৈ, প্ৰদানকাৰী সলনি নকৰাটোৱে — ধাৰাবাহিকভাৱে সঠিকতা স্ক'ৰ ১২–২৮% আগুৱাই লৈ যায়। মডেলসমূহ মিষ্ট্ৰেল আৰু ক'ডলামাৰ দৰে মুক্ত উৎস বিকল্পৰ পৰা আৰম্ভ কৰি জিপিটি-৪অ' আৰু ক্ল'ডৰ দৰে মালিকানাধীন দৈত্যলৈকে আছিল। প্ৰতিটো ক্ষেত্ৰতে, এটা সু-ডিজাইন কৰা হাৰ্নেছে একেটা অন্তৰ্নিহিত মডেল ব্যৱহাৰ কৰি এটা বেয়া ডিজাইন কৰা হাৰ্নেছে আউটপাৰ্ফৰ্ম কৰিছিল।

<ব্লককোট>

"মডেলটোৱেই কেঁচা উপাদান। হাৰ্নেছটোৱেই ৰেচিপি। আপুনি পৃথিৱীৰ আটাইতকৈ উন্নত আটা খাব পাৰে আৰু তথাপিও কৌশল ভুল হ'লে ভয়ংকৰ ৰুটি এটা বেক কৰিব পাৰে।" — এ আই চিষ্টেমছ ৰিচাৰ্চ, ২০২৫

ৰ দ্বাৰা

হাৰ্নেছ সলনি কৰিলে এটা দুপৰীয়াত ১৫টা এল এল এম কেনেকৈ উন্নত হ'ল?

পৰীক্ষাটোৱে এক অনুশাসিত, পুনৰাবৃত্তিযোগ্য পদ্ধতি অনুসৰণ কৰিছিল। গৱেষকসকলে পাঁচটা হাৰ্নেছ ভেৰিয়েবল চিনাক্ত কৰিছিল যিবোৰৰ ক’ডিং টাস্ক পাৰফৰমেন্সৰ ওপৰত সৰ্বাধিক লিভাৰেজ আছিল:

  • চিস্টেম প্ৰমপ্ট নিৰ্দিষ্টতা — "ভাল ক'ড লিখক"ৰ দৰে অস্পষ্ট নিৰ্দেশনাসমূহক ভাষা সংস্কৰণ, ভুল নিয়ন্ত্ৰণ শৈলী, আৰু আউটপুট বিন্যাসৰ চাৰিওফালে স্পষ্ট বাধাৰ সৈতে সলনি কৰা।
  • প্ৰসংগ উইন্ডো অগ্ৰাধিকাৰ — আটাইতকৈ প্ৰাসংগিক ক'ড স্নিপেট আৰু দস্তাবেজসমূহ শেষত সংযোজন নকৰি প্ৰসংগটোৰ ওপৰলৈ স্থানান্তৰ কৰা।
  • চিন্তাৰ শৃংখলাবদ্ধ মৰাপাট — যিকোনো ক'ড সৃষ্টি কৰাৰ আগতে মডেলসমূহক সমস্যাটোৰ মাজেৰে ধাপ-দ্বাৰা-ধাপে যুক্তি দিব লাগিব, ভ্ৰমযুক্ত যুক্তিৰ জাম্প হ্ৰাস কৰে।
  • পৰীক্ষা-চালিত আউটপুট ফৰ্মেটিং — আৰ্হিসমূহক প্ৰণয়ন ক'ডৰ সৈতে একক পৰীক্ষাসমূহ উৎপাদন কৰিবলৈ কোৱা, এটা অন্তৰ্নিৰ্মিত স্ব-পৰীক্ষা ব্যৱস্থা সৃষ্টি কৰি।
  • বিফলতা ধৰণ গণনা — সমাধান লিখাৰ আগতে প্ৰান্তৰ ক্ষেত্ৰসমূহ স্পষ্টভাৱে তালিকাভুক্ত কৰিবলৈ আৰ্হিসমূহক প্ৰেৰণা দিয়া, গড়ে 19% সম্পূৰ্ণতা উন্নত কৰা।

প্ৰতিটো পৰিবৰ্তন কাৰ্যকৰী কৰিবলৈ মিনিট সময় লাগিছিল। ১৫টা মডেলৰ সকলোবোৰতে ক্ৰমবৰ্ধমান প্ৰভাৱ নাটকীয় আছিল। কোনো GPU থুপ নাই, কোনো অতিৰিক্ত প্ৰশিক্ষণ তথ্য নাই, কোনো অনুজ্ঞা উন্নয়ন নাই — কেৱল মানৱ উদ্দেশ্য আৰু মেচিন আউটপুটৰ মাজত এটা স্মাৰ্ট আন্তঃপৃষ্ঠ।

AI ক'ডিং সঁজুলিসমূহৰ ওপৰত নিৰ্ভৰশীল ব্যৱসায়সমূহৰ বাবে ইয়াৰ অৰ্থ কি?

বেছিভাগ কোম্পানীৰে বাবে টেক-এৱে নম্ৰ আৰু মুক্তিদায়ক দুয়োটা। নম্ৰ কাৰণ সংস্থাসমূহে "শ্ৰেষ্ঠ" মডেলটো খেদিবলৈ লাখ লাখ টকা খৰচ কৰিছে, যেতিয়া হাৰ্নেছটোৱেই আছিল গোটেই সময়খিনি বটলনেক। মুক্তি দিয়া কাৰণ ইয়াৰ অৰ্থ হৈছে অৰ্থপূৰ্ণ উন্নতি এতিয়াই অভিগম্য, GPT-5 বা পৰৱৰ্তী সীমান্ত মুক্তিৰ বাবে অপেক্ষা নকৰাকৈ।

চফ্টৱেৰ-গধুৰ কাৰ্য্যপ্ৰবাহ চলোৱা ব্যৱসায়িক অপাৰেটৰসকলে — SaaS প্লেটফৰ্মসমূহৰ পৰা আভ্যন্তৰীণ সঁজুলিসমূহলৈ ক্লাএন্ট-মুখী এপ্লিকেচনসমূহলৈ — তেওঁলোকৰ দলসমূহে দৈনিক ব্যৱহাৰ কৰা প্ৰমপ্টিং স্তৰসমূহ অডিট কৰি তাৎক্ষণিক লাভসমূহ লাভ কৰিব পাৰে। এইটো বিশেষকৈ একেলগে একাধিক AI কাৰ্য্যপ্ৰবাহ পৰিচালনা কৰা ব্যৱসায়ৰ বাবে প্ৰাসংগিক, য'ত অসামঞ্জস্যপূৰ্ণ হাৰ্নেছ ডিজাইনে বৃহৎ পৰিসৰৰ অদক্ষতালৈ যৌগিক কৰে।

Mewayz ৰ দৰে প্লেটফৰ্মসমূহ, যি 207 টা ব্যৱসায়িক মডিউলক এটা অপাৰেটিং চিস্টেমত একত্ৰিত কৰে, ঠিক এই নীতিৰ ওপৰত নিৰ্মিত: যে আপোনাৰ সঁজুলিসমূহ সংযোগ কৰা স্থাপত্য সঁজুলিসমূহৰ দৰেই গুৰুত্বপূৰ্ণ। যেতিয়া আপোনাৰ CRM, বিষয়বস্তু পাইপলাইন, বিশ্লেষণ ডেচব'ৰ্ড, আৰু স্বয়ংক্ৰিয়কৰণ স্তৰে এটা সুসংহত কাঠামো অংশীদাৰী কৰে, প্ৰতিটো উপাদানে ভাল কাম কৰে — একেদৰে এটা সু-ডিজাইন কৰা হাৰ্নেছে ই ৰেপ কৰা প্ৰতিটো LLM আনলক কৰে।

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

ডেভেলপাৰসকলে তেওঁলোকৰ LLM হাৰ্নেছসমূহ কেনেকৈ অডিট আৰু পুনৰ ডিজাইন কৰিব লাগে?

হাৰ্নেছ অডিটিং কৰাটো এটা গঠনমূলক প্ৰক্ৰিয়া, সৃষ্টিশীল অনুমানৰ খেল নহয়। আপোনাৰ হাতত যি আছে জুখি আৰম্ভ কৰক। আপোনাৰ বৰ্তমান প্ৰমপ্টসমূহ ক'ডিং কাৰ্য্যসমূহৰ এটা নিৰ্দিষ্ট গোটৰ বিপৰীতে চলাওক আৰু আউটপুটসমূহ ৰেকৰ্ড কৰক। তাৰ পিছত এটা সময়ত এটা হাৰ্নেছ চলক প্ৰৱৰ্তন কৰক — চিস্টেম প্ৰমপ্ট সলনি কৰক, বা চিন্তাৰ শৃংখল যোগ কৰক, কিন্তু দুয়োটা একেলগে নহয়। ই প্ৰকৃততে উন্নতিৰ ধাৰাবাহিকতা কি পৃথক কৰে।

প্ৰতিটো সংস্কৰণ নথিভুক্ত কৰক। দলসমূহে কৰা আটাইতকৈ সাধাৰণ ভুলটো হ'ল চেঞ্জলগ অবিহনে পুনৰাবৃত্তি কৰা, যাৰ ফলত কোনটো হাৰ্নেছ পৰিৱৰ্তনে ৰিগ্ৰেছনৰ সৃষ্টি কৰিলে সেয়া জনাটো অসম্ভৱ হৈ পৰে। আপোনাৰ হাৰ্নেছক উৎস ক'ডৰ দৰে গণ্য কৰক: ইয়াক সংস্কৰণ কৰক, ইয়াক পৰ্যালোচনা কৰক, আৰু উৎপাদন কাৰ্য্যপ্ৰবাহসমূহলৈ পৰিবৰ্তনসমূহ প্ৰেৰণ কৰাৰ আগতে ইয়াক পৰীক্ষা কৰক।

শেষত, "ই চলিছেনে" ৰ বাহিৰৰ মাত্ৰাসমূহত আউটপুটসমূহৰ মূল্যায়ন কৰক। পঠনযোগ্যতা, ৰক্ষণাবেক্ষণযোগ্যতা, আভ্যন্তৰীণ শৈলী গাইডসমূহৰ সৈতে প্ৰান্তিককৰণ, আৰু আউটপুটক কিমান সঘনাই মানৱ সংশোধনৰ প্ৰয়োজন হয় সেই বিষয়ে বিবেচনা কৰক। বাক্য গঠনগতভাৱে বৈধ কিন্তু স্থাপত্যগতভাৱে ভংগুৰ ক'ড উৎপন্ন কৰা এটা আৰ্হিই ভাল কাম কৰা নাই — আপোনাৰ হাৰ্নেছে সেই প্ৰামাণিকসমূহ স্পষ্টভাৱে এনকোড কৰিব লাগিব।

হাৰ্নেছ নীতি কেৱল ক'ডিং কাৰ্য্যতকৈ কিয় ডাঙৰ?

হাৰ্নেছ অন্তৰ্দৃষ্টি ক'ড প্ৰজন্মৰ বহু ওপৰত সাধাৰণীকৰণ কৰে। যিকোনো ডমেইন য'ত LLMসমূহ মোতায়েন কৰা হয় — গ্ৰাহক সমৰ্থন, বিষয়বস্তু সৃষ্টি, তথ্য বিশ্লেষণ, কাৰ্য্যপ্ৰবাহ স্বয়ংক্ৰিয়কৰণ — একে আৰ্হি অনুসৰণ কৰে। মডেলৰ কেঁচা ক্ষমতা এটা চিলিং, কিন্তু হাৰ্নেছে নিৰ্ধাৰণ কৰে যে আপুনি কাৰ্যক্ষেত্ৰত সেই চিলিঙৰ কিমান ওচৰ পাব।

ব্যৱসায়িক নেতাসকলৰ বাবে, ই AI কথোপকথনক সম্পূৰ্ণৰূপে পুনৰ ফ্ৰেমৱৰ্ক কৰে। প্ৰতিযোগিতামূলক সুবিধা আৰু "আপুনি কোনটো মডেলৰ অভিগম আছে" নহয় — বেছিভাগ মডেল এটা API কি থকা যিকোনো ব্যক্তিৰ বাবে অভিগমযোগ্য। সুবিধাটো কাৰ্য্যকৰী: আপোনাৰ প্ৰতিষ্ঠানে সেই মডেলসমূহক প্ৰতিটো ব্যৱসায়িক কাৰ্য্যত ৰেপিং কৰা হাৰ্নেছসমূহত কিমান পদ্ধতিগতভাৱে ডিজাইন, পৰীক্ষা আৰু পুনৰাবৃত্তি কৰে?

আভ্যন্তৰীণ হাৰ্নেছ বিশেষজ্ঞতা বিকাশ কৰা কোম্পানীসমূহে তেওঁলোকৰ প্ৰতিযোগীসকলে ব্যৱহাৰ কৰা একে মডেলৰ পৰা ধাৰাবাহিকভাৱে অধিক মূল্য আহৰণ কৰিব। সেই বিশেষজ্ঞতাই সময়ৰ লগে লগে যৌগিক হৈ পৰে, এটা গাঁথনিগত খাদ সৃষ্টি কৰে যিটো কেঁচা মডেলৰ প্ৰৱেশে প্ৰতিলিপি কৰিব নোৱাৰে।

সঘনাই সোধা প্ৰশ্ন

এটা উন্নত হাৰ্নেছে এটা সৰু, সস্তা মডেলক ডাঙৰ মডেলক আউটপাৰ্ফৰ্ম কৰিব পাৰেনে?

হয়, আৰু এইটো বেঞ্চমাৰ্কসমূহত বাৰে বাৰে প্ৰদৰ্শিত হৈছে। এটা ভালদৰে ব্যৱহাৰ কৰা মিড-টাইয়াৰ মডেলে সঘনাই এটা জেনেৰিক প্ৰমপ্টৰ অধীনত কাম কৰা ফ্লেগশ্বিপ মডেলৰ সৈতে মিলে বা অতিক্ৰম কৰে। বাজেট-সচেতন দলসমূহৰ বাবে, হাৰ্নেছ অনুকূলন হৈছে অধিক ব্যয়বহুল মডেল স্তৰলৈ উন্নীত কৰাৰ আগতে সৰ্বোচ্চ-ROI বিনিয়োগ।

এটা হাৰ্নেছ পুনৰ নিৰ্মাণ কৰাৰ পিছত জুখিব পৰা উন্নতি চাবলৈ কিমান সময় লাগে?

এটা গঠনমূলক পৰীক্ষণ প্ৰটোকল আৰু এটা সংজ্ঞায়িত মূল্যায়ন গোটৰ সৈতে, দলসমূহে সাধাৰণতে সপ্তাহৰ ভিতৰত নহয়, ঘণ্টাৰ ভিতৰতে জুখিব পৰা পাৰ্থক্য দেখা পায়। মূল গৱেষণাত বিয়লিৰ সময়সীমা ইতিমধ্যে স্পষ্ট মাপকাঠী থকা মনোনিৱেশ কৰা দলসমূহৰ বাবে বাস্তৱসন্মত।

কিছুমান প্ৰগ্ৰেমিং ভাষাৰ বাবে আনতকৈ হাৰ্নেছৰ মানদণ্ড বেছি গুৰুত্বপূৰ্ণ নেকি?

হয়। অধিক অন্তৰ্নিহিত নিয়ম থকা ভাষাসমূহে — পাইথন, জাভাস্ক্রিপ্ট — স্পষ্ট হাৰ্নেছ নিৰ্দেশনাৰ পৰা অধিক লাভৱান হোৱাৰ প্ৰৱণতা থাকে কাৰণ আৰ্হিসমূহৰ অধিক স্বাধীনতাৰ মাত্ৰা থাকে। Rust বা Go ৰ দৰে শক্তিশালীভাৱে টাইপ কৰা ভাষাই স্বাভাৱিকতে আউটপুটক অধিক বাধা দিয়ে, যদিও হাৰ্নেছ ডিজাইনে এতিয়াও স্থাপত্যৰ মান আৰু এজ-কেছ নিয়ন্ত্ৰণত যথেষ্ট প্ৰভাৱ পেলায়।

কেৱল ডাঙৰ নহয়, স্মাৰ্ট নিৰ্মাণ কৰিবলৈ সাজু?

এটা বিয়লিৰ ভিতৰত ১৫টা এল এল এম উন্নত কৰাৰ পাঠটো ২০২৬ চনত সৰ্বোত্তমভাৱে পৰিচালিত ব্যৱসায়সমূহক পৰিচালিত কৰা একেটা পাঠ: আপুনি চলোৱা কাঠামোটোৱে যিকোনো ব্যক্তিগত সঁজুলিতকৈ আপোনাৰ ফলাফল অধিক নিৰ্ধাৰণ কৰে। Mewayz এই নীতিৰ ওপৰত নিৰ্মিত হৈছিল — 207 টা সংহত ব্যৱসায়িক মডিউল, 138,000 তকৈ অধিক ব্যৱহাৰকাৰীৰ বাবে এটা ঐক্যবদ্ধ অপাৰেটিং চিস্টেম, মাত্ৰ $19/মাহৰ পৰা আৰম্ভ হোৱা।

বিচ্ছিন্ন সঁজুলিসমূহ একেলগে পেচিং কৰা বন্ধ কৰক আৰু কাম কৰিবলে ডিজাইন কৰা এটা চিস্টেমৰ পৰা কাৰ্য্য আৰম্ভ কৰক। আপোনাৰ Mewayz কাৰ্য্যস্থান আজি app.mewayz.com ত আৰম্ভ কৰক আৰু এটা সুসংহত ব্যৱসায়িক হাৰ্নেছ প্ৰকৃততে কেনেকুৱা অনুভৱ হয় অভিজ্ঞতা লাভ কৰক।