Showing posts with label google. Show all posts
Showing posts with label google. Show all posts

Wednesday, January 13, 2016

கூகுளின் இலவச எழுத்துணரி

பழைய அச்சு நூல்களைப் பாதுகாக்க ஒரு எளிய வழி, அவற்றை ஒரு ஒளி வருடி (scanner) ல் வருடி, உயர்தரப் படங்களாக சேமித்து வைப்பது. இவ்வாறு மின்மயமாக்கும் பணியை (Digitization) பலரும் பல்வேறு இடங்களில் இயன்ற போது செய்து வருகின்றனர். தமிழ் இணையக் கல்விக் கழகம், தமிழ் மரபு அறக்கட்டளை போன்ற அமைப்புகளும், பொள்ளாச்சி நசன் போன்ற தனியாரும் செய்து வருகின்றனர்.

விலை குறைந்து வரும் ஒளி வருடிக் கருவிகளும் camscanner போன்ற திறன்பேசிச் செயலிகளும் கொண்டு இன்று ஆர்வம் உள்ள எவரும் அச்சு நூல்களை மின்னூலாக்கி விடலாம்.

பொதுவாக இந்த மின்னூல்கள் JPEG அல்லது PDF வடிவிலேயே சேமிக்கப் படுகின்றன. மின்னூல்களின் உண்மையான பயன்கள் அவை உரை வடிவில் இருந்தால் மட்டுமே கிடைக்கும். Epub, Mobi, HTML போன்ற வடிவங்களுக்கு மாற்றுதல், மின்னூல் படிப்பான் (Ebook reader), திறன்பேசிகள் போன்ற கருவிகளில் படித்தல், நூல்களுக்குள் தேவையான வார்த்தைகளைத் தேடுதல் போன்றவற்றை PDF ல் செய்ய இயலாது.

ஒரு PDF ஐ உரை வடிவில் மாற்ற, தட்டச்சு செய்வது தான் ஒரே சிறந்த வழியாக இருந்து வருகிறது. PDF ல் இருந்து உரையை அப்படியே பிரித்தெடுக்கும் முறை இருந்தால் நன்றாக இருக்கும் என்பது ஒரு நெடு்ங்கனவு. இதற்கு OCR – Optical character recognition என்று பெயர். ஆங்கிலத்தில் tesseract OCR என்ற கட்டற்ற மென்பொருள் இதை சிறப்பாக செய்கிறது.

தமிழில் ஒளி உணரிக்கான தேவையும் ஏக்கமும் வெகு காலமாகவே உள்ளது. Tesseract OCR க்கு வெவ்வேறு தமிழ் எழுத்துருக்களை அறிமுகப்படுத்தும் முயற்சியும் நடைபெற்று வருகிறது. என் நண்பர் பாலவிக்னேஷ் அந்த ஆய்வில் ஈடுபட்டுள்ளார். 
kbalavignesh@gmail.com
https://printalert.wordpress.com/2014/10/28/tesseract-training-more-fonts/


இது தவிர பொன் விழி எனும் OCR மென்பொருளும் learnfun நிறுவனத்தால் விற்கப்பட்டுகிறது.
http://learnfunsystems.com/products/tamil.htm

மத்திய அரசும் OCR ஆய்வு செய்து வருகிறது. (IISc, Banglore) ஆய்வுகளுக்கும் தனியார் அமைப்புகளுக்கும் மட்டும் வழங்கப் படுகிறது.
மக்கள் பணத்தில் நடக்கும் ஆய்வுகளும் மென் பொருட்களும் பொது மக்களுக்கு மறுக்கப்படுவது விந்தையே.

ஆங்கிலத்தில் மொழி சார் மென்பொருட்களான சொற்பிழைத் திருத்தி, இலக்கணப் பிழைத் திருத்தி,OCR, Text to speech, speech to text போன்றவை சிறப்பாக இருக்க முக்கியக் காரணம் அவற்றின் மீதான ஆய்வுகளும் மென் பொருட்களும் கட்டற்ற முறையில் மூலநிரலுடன் பொது மக்களுக்கு எளிதில் கிடைப்பது தான். அரசு நிறுவனங்களும் பல்கலைக்கழகங்களும் தமது படைப்புகளை மக்களுக்கு மூல நிரலுடன் அளிக்கின்றன. அவற்றைப் பலரும் தொடர்ந்து மேம்படுத்தி வருகின்றனர்.

தமிழிலோ நிலைமை தலைகீழ். அரசும் பல்கலைக் கழகங்களும் தம் மென்பொருட்களையும் ஆய்வுகளையும் யாருக்கும் தருவதில்லை. ஆய்வு அறிக்கையும் மென் பொருட்களும்  பீரோவில் பூட்டி வைக்கப் படுகின்றன. இதே ஆய்வு மீண்டும் வேறு ஒரு அரசுத் துறையில், வேறு பல்கலைக்கழகத்தில் மீண்டும் பெரும் பொருட்செலவுடன் தொடங்கும். பிறகு பீரோவில் ஒளிந்து கொள்ளும்.

இதனால்தான் தமிழுக்காக அதிக மென்பொருட்கள் இல்லை.  தமிழ்நாட்டில் மென்பொருள் துறையில் வேலை செய்பவர்கள் இல்லாத ஊரே இல்லை எனலாம். ஆனாலும் ஒரு சிறந்த சொற்பிழைத் திருத்தியோ, இலக்கணப் பிழைத் திருத்தியோ இல்லை. நாம் படிக்கும் செய்தித்தாள்களில், விளம்பரங்களில், இணையப் பக்கங்களில், சுவரொட்டிகளில் எழுத்துப்பிழை கண்டால், ஒவ்வொரு மென்பொருள் வல்லுனரும் வெட்கப்பட வேண்டும்.

தற்போது மொழியியல் ஆய்வுகளில் கூகுள் போன்ற நிறுவனங்களும் விக்கிமீடியா போன்ற அமைப்புகளும் பெரும் ஆர்வம் காட்டி வருகின்றன.

சமீபத்தில் தமிழர்களின் நெடுநாள் கனவான OCR, எழுத்துணரியை கூகுள் இலவசமாக வெளியிட்டுள்ளது. Google Drive ல் ஒரு படத்தை ஏற்றி, அதை Google Doc ஆகத் திறந்தால் OCR செய்யப்பட்டு, படமும் அதற்கான உரையும் கிடைக்கிறது. தமிழ் உள்ளிட்ட 200 மொழிகளில் கிடைக்கிறது.

இதற்கான செய்முறை இதோ.


http://www.thewindowsclub.com/google-drive-convert-image-to-text

Google Drive இல் 2MB இற்கு குறைவான படக்கோப்பினை தரவேற்றம் செய்யுங்கள் .பின்னர் அந்த கோப்பில் வலது கிளிக் செய்து Google Doc ஊடாக திறந்தால் அது சொற்கோப்பாக மாறிவிடும்

மேலதிக உதவி
https://support.google.com/drive/answer/176692?hl=en

மாற்றப்பட்ட எடுத்துக்காட்டான கோப்புகள்
https://docs.google.com/document/d/1OXre4-phQOayE0wyGTttQq-eD3Djt_alsuhkmS8BeRI/edit
https://docs.google.com/document/d/12_6eTMMrDbWcVMQIvv8kGFbHizYcG8_ca4OieBbKjUw/edit


இது சிறப்பாக வேலை செய்ய, படம் குறைந்தது 300 DPI ஆவது இருக்க வேண்டும். அதற்கும் குறைவாக இருந்தால் எழுத்துக்கள் சரியாக வருவதில்லை.

இதுவரை வந்த எழுத்துணரி மென்பொருட்களில் பெருமளவு சிறப்பாக இருப்பது இதுவே. ஒரு பெரிய நூலின் ஒவ்வொரு படமாக ஏற்றி, அதை OCR செய்து உரையாக மாற்றி சேமிப்பது கடினம். அதை தானியக்கமாகச் செய்ய ஒரு மென்பொருள் உருவாக்கியுள்ளேன். லினக்ஸ் இயங்குதளத்தில் பைதான் மொழியில் எழுதினேன். கட்டற்ற மென்பொருளான இதன் மூலநிரலை இங்கே பதிவிறக்கலாம்.
https://github.com/tshrinivasan/google-ocr-python
இதனை மேம்படுத்தவும், பிற இயக்குதளங்களுக்கு மாற்றவும் விரும்புவோர் செய்து கொள்ளலாம்.

உங்களிடம் உள்ள எல்லா PDF ஆவணங்களையும் உரையாக கூடிய விரைவில் மாற்றிக் கொள்ளுங்கள். தன் சேவையை கூகுள் எப்போது வேண்டுமானாலும் நிறுத்தி விடலாம். Orkut, RSS reader, Buzz, code search, wave என தன் சேவையை மூடுவது கூகுள் வழக்கமாகச் செய்யும் ஒன்று.

தமிழுக்கென கட்டற்ற மென்பொருளாக ஒரு OCR உருவாக்குவது,  Tesseract OCR க்கு தமிழைப் பயிற்றுவிப்பது போன்றவையே நல்ல, நிரந்தரத் தீர்வுகள். ஆர்வமுள்ளோர் எனக்கு எழுதுங்கள். இணைந்து பணியாற்றி நம் கனவுகளை நாமே நனவாக்குவோம்.
http://www.youtube.com/watch?v=PH9TnD67oj4




 ••••••••

மலைகள் இதழ் 83 ல் எழுதிய கட்டுரை.
http://malaigal.com/?p=7382

Tuesday, September 29, 2015

கூகுளின் இலவச எழுத்துணரியை எளிதாக்க ஒரு கட்டற்ற மென்பொருள்


சமீபத்தில் தமிழர்களின் நெடுநாள் கனவான OCR, எழுத்துணரியை கூகுள் இலவசமாக
வெளியிட்டுள்ளது. Google Drive ல் ஒரு படத்தை ஏற்றி, அதை Google Doc ஆகத்
திறந்தால் OCR செய்யப்பட்டு, படமும் அதற்கான உரையும் கிடைக்கிறது. தமிழ்
உள்ளிட்ட 200 மொழிகளில் கிடைக்கிறது.


இதற்கான செய்முறை இதோ.
http://www.thewindowsclub.com/google-drive-convert-image-to…

Google Drive இல் 2MB இற்கு குறைவான படக்கோப்பினை தரவேற்றம் செய்யுங்கள்
.பின்னர் அந்த கோப்பில் வலது கிளிக் செய்து Google Doc ஊடாக திறந்தால்
அது சொற்கோப்பாக மாறிவிடும்.

ஒரு பெரிய நூலின் ஒவ்வொரு படமாக ஏற்றி, அதை OCR செய்து உரையாக மாற்றி
சேமிப்பது கடினம். அதை தானியக்கமாகச் செய்ய ஒரு மென்பொருள்
உருவாக்கியுள்ளேன். லினக்ஸ் இயங்குதளத்தில் பைதான் மொழியில் எழுதினேன்.
கட்டற்ற மென்பொருளான இதன் மூலநிரலை இங்கே பதிவிறக்கலாம்.
https://github.com/tshrinivasan/google-ocr-python

https://www.youtube.com/watch?v=PH9TnD67oj4
இந்தக் காணொளியில் கூகுள் எழுத்துணரியைக் கொண்டு ஒரு முழு PDF கோப்பை
தானியகமாக உரையாக மாற்றும் நிரலைப் பயன்படுத்தும் முறையை
விளக்கியுள்ளேன்.

இதனை மேம்படுத்தவும், பிற இயக்குதளங்களுக்கு மாற்றவும் விரும்புவோர்
செய்து கொள்ளலாம்.

Friday, May 16, 2014

Chennai Events - சென்னை நிகழ்வுகளின் தொகுப்பு

சென்னை மாநகரம் பல நிகழ்வுகளின் துறைமுகமாகத் திகழ்கிறது.

சென்னையிலும், அதனைச் சுற்றியுள்ள பகுதிகளிலும் அன்றாடம் பல பொது நிகழ்ச்சிகள் நடைபெறுகிறன. அவற்றுள் தொடர்நிரல் நிகழ்வுகள் (Hackathon), மென்பொருள் பயனர் குழுக்களின் சந்திப்புகள் (Software Users Group meetings), பயன்பாடு வெளியீடு (Product launch), துவக்க விழாக்கள் போன்ற கணினியாளர்களுக்கான தொழில்நுட்ப நிகழ்ச்சிகளும், பதிவர் சந்திப்பு, கீச்சர் சந்திப்பு (Tweetup), புகைப்பட பயிற்சி மற்றும் பயிலரங்குகளும் அடங்கும்.

இந்நிகழ்ச்சிகள் பற்றி வலைத்தளங்கள், பதிவுகள், முகநூல் நிகழ்வுகள் (Facebook Events), கூகிள் நிகழ்வுகள் (G+ Events), மற்றும் meetup.com, eventbrite.com போன்ற நிகழ்வு தளங்கள் ஆகியவை மூலம் அறிவிக்கப்படுகிறன. ஆனால், இவை அனைத்தையும் ஒருங்கே அறிவதற்கு இதுவரை எந்த இடமும் இல்லை.

சென்னையில் நடக்கும் இந்நிகழ்ச்சிகளைத் தொகுத்து ஓர் இடத்தில் வழங்குவதற்கான முயற்சியின் ஒரு படி தான் கூகிள் நாள்காட்டியில் வந்துள்ள Chennai Events என்னும் நிகழ்வுத் தொகுப்பு.

தன்னார்வலர்களின் குழு இந்த தொகுப்பினைப் புதுப்பிக்கும். கூகிள் நாள்காட்டியில் இந்த நிகழ்வுத் தொகுப்பு உள்ளதால், கீழ்காணும் பயன்கள் அனைவருக்கும் கிடைக்கும்:

    மின்னஞ்சல் அறிவிப்பு (Email Notification)

    குறுஞ்செய்தி அறிவிப்பு (SMS Notification)

    பல பயனர் ஆக்கம்

    பிற நாள்காட்டிகளுடன் இணைத்தல்

எப்படி பெறுவது?
முகவரி : http://chennaieventscalendar.blogspot.in/

இணைப்புப் பொது முகவரி (Public iCal) (பிற நாள்காட்டிகளுடன் இணைப்பதற்கு) : https://www.google.com/calendar/ical/6ppkf92sp3one0i7al7inkahm8%40group.calendar.google.com/public/basic.ics

உங்களது கூகிள் நாள்காட்டியில் இணைக்க:

    கூகிள் நாள்காட்டிக்குச் செல்லுங்கள் (http://calendar.google.com/ )

    ' Other calendars ' அருகில் உள்ள கீழ்நோக்கும் சுட்டியைச் சொடுக்குங்கள்.

    அதில் 'Add by URL' என்பதைத் தேர்ந்தெடுங்கள்.

    Public iCal முகவரியினை உள்ளிடுங்கள்.

    அதன் பின், 'Add Calendar' ஐச் சொடுக்குங்கள்.

இப்போது, உங்கள் நாள்காட்டித் தொகுப்புகளில் "Other Calendars” கீழ் Chennai Events இருப்பதைக் காணலாம். தொகுப்பு ஓடை சரிவர இயங்க அதிகபட்சம் 8 மணிநேரம் வரை ஆகலாம்.

மின்னஞ்சல் \ குறுஞ்செய்தி அறிவிப்புகளைப் பெற, Remainders and Notifications பக்கம் போய், தேவையான அமைப்புகளைத் தேர்வு செய்துக் கொள்ளலாம்.

நீங்களும் பங்குபெற:

Chennai Events நிகழ்வுத் தொகுப்பில் பங்கு பெற விரும்புவோர் நண்பர் சீனிவாசன் அவர்களைத் ( tshrinivasan@gmail.com ) தொடர்புக் கொள்ளலாம்.



ஆக்கம்
-- அருண் arunpalaniappan.mek@gmail.com