৪ ছবি নিয়ে Tesseract OCR ব্যবহার করে টেক্সট এক্সট্র্যাক্ট

নিশ্চিতভাবেই! আমি আপনাকে খুব সহজভাবে এবং step-by-step একটি সিম্পল টিউটোরিয়াল দিয়ে দেখাবো কিভাবে আপনি আপনার কম্পিউটারের ফোল্ডার থেকে ছবি নিয়ে Tesseract OCR ব্যবহার করে টেক্সট এক্সট্র্যাক্ট করতে পারেন।

ধাপ ১: প্রয়োজনীয় লাইব্রেরি ইনস্টল করা

আমরা Python এবং Tesseract OCR ব্যবহার করব। প্রথমেই, নিশ্চিত করুন আপনার সিস্টেমে Python ইন্সটল করা আছে। তারপর pytesseract এবং Pillow লাইব্রেরি ইনস্টল করতে হবে।

1.1 Python লাইব্রেরি ইনস্টল করা:

pip install pytesseract pillow

এখানে:

pytesseract: Tesseract OCR এর Python wrapper।
Pillow: ইমেজ প্রসেসিং লাইব্রেরি।

1.2 Tesseract OCR ইনস্টল করা:

Tesseract OCR ইন্সটল করতে হবে, এটি টেক্সট এক্সট্র্যাক্ট করার জন্য ব্যবহার হবে।

Windows:

Tesseract OCR ডাউনলোড করুন এবং আপনার সিস্টেমে ইনস্টল করুন।
ইনস্টল করার পর Tesseract এর installation path সিস্টেমের PATH এ অ্যাড করুন (যেমন, C:\Program Files\Tesseract-OCR\tesseract.exe)

Linux:

sudo apt install tesseract-ocr

macOS (Homebrew দিয়ে):

brew install tesseract

Windows এ Tesseract OCR ইনস্টল হয়েছে কিনা কিভাবে চেক করবেন:

Tesseract Path চেক করা:
- প্রথমে, নিশ্চিত করুন আপনি Tesseract ইনস্টল করার পর Path সঠিকভাবে সেট করেছেন। সাধারণত Tesseract ইনস্টল করার সময়, সেটি আপনার C:\Program Files\Tesseract-OCR বা অন্যান্য পাথের মধ্যে থাকে।
Command Prompt ব্যবহার করে চেক করুন:
- Command Prompt খুলুন (Windows + R, তারপর cmd লিখে Enter চাপুন)।
- এরপর, এই কমান্ডটি চালান:

tesseract --version

এটি যদি Tesseract এর সংস্করণ দেখায়, তাহলে আপনি সফলভাবে ইনস্টল করেছেন এবং সেটআপ ঠিকভাবে হয়েছে।

উদাহরণ আউটপুট:

tesseract 5.0.0-alpha.20210811
leptonica-1.82.0

- যদি আপনি “tesseract is not recognized as an internal or external command” এমন কোনো মেসেজ পান, তাহলে আপনার Tesseract এর পাথ সঠিকভাবে system environment variable এ অ্যাড করা হয়নি। এই ক্ষেত্রে আপনাকে Path ভেরিয়েবল সেট করতে হবে।
Path ভেরিয়েবল সঠিকভাবে সেট করা:
- Tesseract এর ইনস্টলেশন পাথ (যেমন C:\Program Files\Tesseract-OCR) environment variables এর মধ্যে যোগ করতে হবে।
  1. Start Menu-এ যান, “Environment Variables” লিখুন এবং “Edit the system environment variables” সিলেক্ট করুন।
  2. System Properties উইন্ডোতে Environment Variables বাটনটি ক্লিক করুন।
  3. System variables এর মধ্যে Path সিলেক্ট করে Edit বাটন চাপুন।
  4. New বাটন চাপুন এবং Tesseract এর পাথ (যেমন C:\Program Files\Tesseract-OCR) যোগ করুন।
  5. OK ক্লিক করুন এবং Command Prompt পুনরায় চালান।

Linux/macOS এ Tesseract OCR ইনস্টল হয়েছে কিনা কিভাবে চেক করবেন:

Terminal খুলুন।
এই কমান্ডটি চালান:

tesseract --version

এটি Tesseract এর সংস্করণ প্রদর্শন করবে যদি সঠিকভাবে ইনস্টল হয়ে থাকে।

উদাহরণ আউটপুট:

tesseract 5.0.0-alpha.20210811
leptonica-1.82.0

যদি “command not found” মেসেজ আসে, তাহলে Tesseract সঠিকভাবে ইনস্টল হয়নি বা আপনার PATH এ Tesseract এর পাথ যুক্ত করা হয়নি।

ধাপ ২: OCR কোড লেখা

এখন আমরা কোড লিখব যা পিলো (Pillow) ব্যবহার করে ছবি খুলবে এবং Tesseract OCR ব্যবহার করে ছবির মধ্যে থাকা টেক্সট এক্সট্র্যাক্ট করবে।

2.1 `ocr_text_extraction.py` ফাইল তৈরি করা:

# ocr_text_extraction.py
import pytesseract
from PIL import Image

# Tesseract এর পাথ উল্লেখ করা (Windows এর জন্য)
# যদি macOS বা Linux এ থাকেন, এটি প্রয়োজন নেই, কারণ স্বয়ংক্রিয়ভাবে ইনস্টল হবে।
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"  # Windows এর জন্য পাথ দিন

# ছবি থেকে টেক্সট এক্সট্র্যাক্ট করার ফাংশন
def extract_text_from_image(image_path):
    # ছবি ওপেন করা
    img = Image.open(image_path)
    
    # Tesseract OCR দিয়ে টেক্সট এক্সট্র্যাক্ট করা
    text = pytesseract.image_to_string(img)
    
    print("Extracted Text:\n", text)
    return text

# আপনার কম্পিউটার থেকে ছবি পাথ দিন
image_path = 'path_to_your_image.jpg'  # উদাহরণ হিসেবে ছবির পাথ দিন

# ফাংশন কল করা
extract_text_from_image(image_path)

এটি কী করবে?

Tesseract OCR ব্যবহার করে আপনার ছবির মধ্যে থাকা টেক্সট এক্সট্র্যাক্ট করবে।
আপনি যে ছবিটি দিবেন, সেই ছবির path ফাইল থেকে টেক্সট বের করবে এবং তা প্রিন্ট করবে।

ধাপ ৩: কোড চালানো

কোডটি সেভ করুন, উদাহরণস্বরূপ ocr_text_extraction.py নামে।
আপনার কম্পিউটারের ছবি পাথ ঠিক করে কোডটি চালান।

python ocr_text_extraction.py

এটি যখন চালাবেন, তখন পিলো (Pillow) ছবিটি ওপেন করবে এবং Tesseract OCR সেই ছবির মধ্যে থাকা টেক্সট এক্সট্র্যাক্ট করবে এবং কনসোলে প্রিন্ট করবে।

ধাপ ৪: ছবি পাথ দিন

এখন, আপনাকে image_path এ আপনার কম্পিউটারের ফোল্ডারের ছবি পাথ দিতে হবে। উদাহরণ হিসেবে:

Windows:
- image_path = r'C:\Users\YourUsername\Pictures\image.jpg'
Linux/macOS:
- image_path = '/home/username/Pictures/image.jpg'

কিছু অতিরিক্ত টিপস:

যদি Tesseract টেক্সট এক্সট্র্যাকশন সঠিকভাবে না করে (যেমন, ছবি পরিষ্কার না হলে বা খুব বেশি গোলমাল থাকলে), আপনি Tesseract এর configurations ও image preprocessing (যেমন, গ্রেস্কেলাল করা, নোয়িজ ফিল্টার করা) চেষ্টা করতে পারেন।
এছাড়া, Tesseract এর আরও কিছু সেটিংস ব্যবহার করতে পারবেন যেমন --psm (Page Segmentation Modes) বা --oem (OCR Engine Modes) ব্যবহার করে।

এখন আপনি কী করতে পারেন?

এখন আপনি Python দিয়ে OCR ব্যবহার করে আপনার কম্পিউটারের ফোল্ডার থেকে ছবি নিয়ে তার টেক্সট এক্সট্র্যাক্ট করতে পারবেন। আপনি ফোল্ডারের ছবিগুলো একে একে এই কোড দিয়ে প্রসেস করতে পারেন এবং টেক্সট বের করতে পারবেন।

যদি আপনার কোনো সমস্যা বা কোডের কোনো অংশে সাহায্য প্রয়োজন হয়, আমাকে জানাতে পারেন!

Netherland