AWK তে ডেটা প্রক্রিয়াকরণের সময় সাধারণত ডুপ্লিকেট ডেটা মুছে ফেলা বা অনন্য ডেটা বের করা একটি গুরুত্বপূর্ণ কাজ। AWK এর শক্তিশালী ডেটা ম্যানিপুলেশন ক্ষমতা ব্যবহার করে সহজেই ইউনিক ডেটা এক্সট্রাকশন এবং ডুপ্লিকেট রিমুভাল করা যায়।
AWK তে অ্যারে ব্যবহার করে অনন্য ডেটা এক্সট্রাক্ট করা যায়। প্রতিটি ডেটা ইনডেক্স হিসেবে অ্যারেতে সংরক্ষণ করা হলে, ডুপ্লিকেট ডেটা স্বয়ংক্রিয়ভাবে একবারই সংরক্ষিত হয়।
awk '!seen[$0]++ { print }' data.txt
ব্যাখ্যা:
!seen[$0]++
শর্তটি চেক করে যে $0
(সম্পূর্ণ লাইন) অ্যারেতে আগে ছিল কিনা।seen[$0]
এর মান 0
থাকে এবং এটি প্রিন্ট হয়। পরবর্তীতে একই লাইন আবার পাওয়া গেলে শর্তটি মিথ্যা হয় এবং প্রিন্ট হয় না।awk '!seen[$1]++ { print $1 }' data.txt
এটি data.txt
ফাইলের প্রথম কলামের অনন্য মানগুলো প্রিন্ট করবে।
ডুপ্লিকেট ডেটা রিমুভ করতে AWK তে অ্যারের সাহায্যে সহজেই শর্ত ব্যবহার করা যায়।
awk '!seen[$0]++' data.txt > unique_data.txt
ব্যাখ্যা:
!seen[$0]++
শর্তের মাধ্যমে data.txt
ফাইলের ডুপ্লিকেট লাইন বাদ দেওয়া হয়েছে।unique_data.txt
ফাইলে সংরক্ষিত হয়েছে।awk '!seen[$2]++ { print $0 }' data.txt
এটি data.txt
ফাইলের দ্বিতীয় কলাম ভিত্তিক ডুপ্লিকেট লাইন বাদ দিয়ে প্রিন্ট করবে।
ইমেল তালিকা থেকে অনন্য ইমেল বের করা:
awk '!seen[$1]++ { print $1 }' emails.txt
এটি emails.txt
ফাইলের প্রথম কলাম থেকে অনন্য ইমেল বের করবে এবং প্রিন্ট করবে।
ডুপ্লিকেট নাম বাদ দিয়ে সম্পূর্ণ লাইন প্রিন্ট করা:
awk '!seen[$1]++' names.txt
এটি names.txt
ফাইলের প্রথম কলাম ভিত্তিক ডুপ্লিকেট নাম বাদ দিয়ে সম্পূর্ণ লাইন প্রিন্ট করবে।
AWK তে ইউনিক ডেটা এক্সট্রাকশন এবং ডুপ্লিকেট রিমুভাল একটি সহজ কিন্তু কার্যকরী কাজ। অ্যারের সাহায্যে ডেটার উপস্থিতি ট্র্যাক করে শর্ত প্রয়োগ করা যায় এবং শুধুমাত্র অনন্য মান প্রিন্ট করা যায়। AWK এর এই বৈশিষ্ট্য ব্যবহার করে ডেটা বিশ্লেষণ এবং প্রক্রিয়াকরণ আরও কার্যকর করা সম্ভব।
common.read_more