Tuesday, September 1, 2009

भाग 29-- संगणक म्हणजे थोडेसे इलेक्ट्रॉनिक्स

भाग -29
संगणक म्हणजे थोडेसे इलेक्ट्रॉनिक्स

(पुस्तकाप्रमाणे तपासले -done)
संगणकाला मेंदू असतो. इतर यंत्रांना नसतो, हे संगणकाच वैशिष्टय खरं! पण हा मेंदू येतो कुठून? माणसाला हा संगणकाचा मेंदू कसा बनवता आला?

याचे मर्म होते सेमीकण्डक्टरच्या शोधात. हे सेमीकण्डक्टर सिलीकॉन या धातूपासून तयार केले जातात. सिलीकॉनचे जगभर पसरलेले स्वरुप म्हणजे वाळू - जी सिलीकॉन डायऑक्साइड असते.

सिलिकॉनच्या अणु मधील शेवटच्या Orbit वर ४ इलेक्ट्रॉन फिरत असतात. स्टेबल ऑरबिट साठी आठ असावे लागतात. यामुळे शुद्ध सिलिकॉनचे दोन अणु एकत्र येऊन आपापले ४-४ इलेक्ट्रॉन शेअर करतात. अशा सिलिकॉनची एक पातळ चकती (हिला वेफर म्हणतात) विजेसाठी कुचालक असते, पण तिला कांही प्रमाणांत सुचालक करायला थोडेसे प्रयत्न पुरतात, म्हणून सिलिकॉनला सेमीकण्डक्टर म्हणतात. इतरही काही धातू सेमीकण्डक्टर आहेत.

याच प्रकारे बोरॉन धातुच्या अणूत शेवटच्या Orbit मध्ये ३ इलेक्ट्रॉन फिरतात, तर फॉस्फरस धातुच्या अणुमध्ये शेवटच्या Orbit मध्ये ५ इलेक्ट्रॉन फिरतात.

सिलीकॉनच्या पातळ चकतीमध्ये अत्यल्प अशुध्दीच्या स्वरूपात जर फॉस्फरसचे अणु असतील तर त्याच्या अणूच्या ऑरबिट मधले फक्त चारच इलेक्ट्रॉन सिलीकॉनच्या अणूबरोबर शेअर होतात पण पाचवा इलेक्ट्रॉन ऑरबिट सोडून भटकायला निघतो. तो सिलीकॉनच्या अणूतील एखाद्या इलेक्ट्रॉनला ढकलून देऊन त्याची जागा पटकावतो. हा खो मिळालेला इलेक्ट्रॉन दुस-या एखाद्या अणुच्या इलेक्ट्रॉनला धक्का देतो.

याप्रमाणे फॉस्फोरसकडून सिलीकॉन कडे असा एक अति सूक्ष्म इलेक्ट्रॉनचा प्रवाह निर्माण होतो. याला N डोपिंग म्हणतात, यातील विद्युत्-भार घेऊन जाणारा घटक इलेक्ट्रॉन हा ऋणात्मक असतो. याउलट सिलीकॉन-बोरॉन अशी जोडी घेतली तर त्याला पॉझिटिव्ह डोपिंग - P डोपिंग म्हणतात.

आता आपण PN junction केले तर ती जोडी एखाद्या डायोड (व्हाल्व्ह) प्रमाणे काम करते. चकतीच्या दोन बाजूंना इलेक्ट्रॉड बसवले, आणि छोट्या पेन्सिल सेलने वीज पुरवली तर विजेचा प्रवाह एकाच दिशेने जाऊ शकतो, दुस-या दिशेने अडतो. हा डायोड तर खरा पण अगदी छोट्या सेलवर चालणारा. यालाच जंक्शन डायोड असेही नांव आहे. डायोड म्हणजे जणू कांही वन-वे ट्रॅफिक राबवणारा पोलिसच.

आता PN जंक्शन ची एक चकती व NP जंक्शन ची दुसरी चकती असे एकत्र आणून त्यांचा वापर ट्रायोड प्रमाणे करता येतो. यांना NPN किंवा PNP अशा दोन्ही पद्धतीने जोडता येते. त्यांना अत्यल्प वीज पुरते. या आधी 1903 ते 1910 या काळांत वॅक्यूम ट्यूब आधारित डायोड व ट्रायोडचा शोध इलेक्ट्रॉनिक्सच्या जगांत अत्यंत महत्वाचा ठरला होता, किंबहुना तिथूनच इलेक्ट्रॉनिक्सची सुरूवात झाली होती. ट्रायोडच्या amplifier व oscillator या दोन प्रकारच्या कामांमुळेच कधीकाळी रेडियो ट्रान्समिशनचा आविष्कार होऊन ते शक्य झाले होते. पण त्यांना मोठी जागा व २१० व्होल्ट वीज पुरवठा लागत असे. तसेच त्यांचे काम ऍनालॉग (analog) पद्धतीने होत असे. १९६० च्या सुमारास सेमीकण्डक्टरचा शोध लागल्यावर आता छोट्या सेलवर चालणारे व अगदी लहान आकाराचे ट्रायोड करता येऊ लागले, त्यांना ट्रान्झिस्टर हे नांव पडले. संगीत आणि रेडियो ट्रान्समिशनच्या क्षेत्रांत सेमीकण्डक्टर ट्रायोड म्हणजे ट्रान्झिस्टर्सनी मोठी क्रांति आणली आहे, इतकी की रेडियो स्टेशन वरील कार्यक्रम ऐकण्यायाठी रेडियोच्या जागी जे नवीन उपकरण आलं त्याला पण ट्रान्झिस्टर हेच नांव पडले.

अशा सेमीकण्डक्टर ट्रायोडचा म्हणजे ट्रान्झिस्टरचा वापर ऍनालॉग पद्धतीने करून amplifier किंवा oscillator सर्किटमधे सुधारणा करण्याचे रेडियो व संगीत-प्रसारणाच्या जगांतले नवे-नवे वापर चालूच आहेत. यासाठी पीसीबी (Printed Circuit Board) वर वेगवेगळे ट्रान्झिस्टर जोडून सर्किट तयार करतात व त्याच्याकडून कित्येक कामे करून घेतात.

मात्र ते संगीताचे जग सोडून ट्रान्झिस्टरचा एक वेगळा वापर करता येतो, तो म्हणजे मुख्यतः digital पद्धतीने वापर करून इंटिग्रेटेड सर्किटची (आय् सी)ची निर्मिती. ट्रान्झिस्टरची निरनिराळ्या प्रकाराने जोडणी करून (कॉम्बिनेशन करून) गेट्स बनवतात. OR-NOR, AND-NAND, XOR - XNOR, व NOT अशी सात मुख्य गेटं आहेत. अशी गेटं म्हणजे इंटिग्रेटेड सर्किटचाच एक प्रकार. विविध गेटं निरनिराळ्या पद्धतीने जोडली की त्यांच्यामार्फत विशिष्ट कामे केली जातात.

याच्या पुढली पायरी म्हणजे मायक्रोप्रोसेसर. एकेकाळी लाखो व आता कोट्यावधी गेटं विशिष्ट पद्धतीने जोडून मायक्रोप्रोसेसर बनतो जो स्पीडमधे व कामांच्या विविधतेमधे आय.सी.पेक्षा हजारो गुणा भारी असतो. तंत्रज्ञान किती छोट्या आकारावर नेता येते याचेच हे उदाहरण. एकेका मायक्रोप्रोसेसरचे डिझाइन करायला लाखो डॉलर्सचा खर्च येतो. पण त्याच्याकडून कामंही तशीच अफाट केली जातात.

तर असे मायक्रोप्रोसेसर. हेच संगणकाचे मेंदू बनून आपली कामें करतात.
----------------------------------------------------------------------
संगणकाची इलेक्ट्रॉनिक भाषा व ग्रंथ-संग्रह (e-data storage)

जगांतील साडेसहा अब्ज लोकांपैकी दीड अब्ज लोक भारतीय भाषा बोलतात, लिहितात, संगणकावर लिहू इच्छितात. त्यांच्याकडे हजारो वर्षांपासूनचा साहित्याचा ठेवा आहे जो आपल्या सर्वांचा एकत्रित सांस्कृतिक वारसा आहे आणि जो संगणकावर एकात्म पद्धतीने जपून ठेवायला हवा. पण हे कसे होणार?

जगांत एकूण चार वर्णमाला आहेत –
1) ब्राह्मी व त्यांतून उद्भवलेल्या भारत, मलेशिया, थायलंड, इंडोनेशिया, तिबेट, श्रीलंका येथील मूळ भाषांच्या वर्णमाला
2) चायनीज, मंगोलियन, जपान व कोरियन भाषांची वर्णमाला
3) अरेबिक व फारसी भाषांची वर्णमाला
4) ग्रीकमधून उद्भवलेल्या किंवा त्या सदृश लॅटिन, रोमन, सिरीलीक इत्यादी यूरोपीय वर्णमाला.

संगणकावर टायपिंग करतांना मेनू-बारमधे view वर क्लिक करून जो सब-मेनू-बार उघडतो त्यांत character encoding वर गेल्यास आपल्याला जगभरांतील कित्येक वर्णमालांचे व भाषांचे पर्याय दिसतात -- अरेबिक, चीनी, कोरियन, व्हिएतनामी, हिब्रू, बाल्टिक, सिरिलिक, रशियन, ग्रीक.... पण एकही भारतीय भाषा तिथे सापडणार नाही. हा कुणाचा नाकर्तेपणा, तो कसा संपवणार?

पण त्या आधी संगणक जगांत इंग्रजी भाषा-विश्वाची प्रगती होण्यासाठी त्यांनी कांय कांय केले ते पाहू.

यासाठी संगणकाची इलेक्ट्रॉनिक भाषा, जिला मशीन-भाषा म्हणतात, ती काय असते व मानवी-भाषा आणि मशीन-भाषेत परस्पर आदानप्रदान होतांना कांय कांय तंत्र सांभाळावे लागते ते पाहूया. मशीन-भाषा म्हणजे द्वि-अंश पद्धतीची, जिथे मशीनला फक्त 0 व 1 हे दोनच संकेत कळतात, पण त्यांच्या आठ-बिट अक्षर-साखळ्यांच्या मदतीने इंग्रजीचे अख्खे भाषाविश्व व्यापता येते.

कॅरॅक्टर-कोड स्टॅण्डर्डायझेशन--
मी माझ्या मैत्रिणीला सांगितल की, माझ नांव लिहिण्यासाठी इंग्रजी मुळाक्षरातील बाराव, पाचव, पाचव, चौदाव आणि पहिलं अक्षर लिही, तर ती लिहू शकेल - LEENA. याच कारण की मुळाक्षरांच्या जागा ठरलेल्या आहेत.

संगणकात सुद्धा मुळाक्षरांची जागा अक्षर-साखळीच्या रूपांत ठरवावी लागेल. आठ-बिटच्या पद्धतीत मशीन-भाषेसाठी एकूण 256 अक्षर-साखळ्या मिळतात हे आपण पाहिल. यापैकी नेमकी कोणती साखळी कोणत्या मुळाक्षराला द्यायची हे ठरवून, ती सारणी संगणकाच्या प्रोसेसरला निर्देशरूपाने देऊन ठेवावी लागते. या सारणीला कॅरॅक्टर-कोड म्हणतात. दोन वेगळे तज्ज्ञ कदाचित वेगवेगळे कॅरॅक्टर-कोड वापरतील, पण मग त्या दोघांच्या संगणकाला एकमेकांची भाषा वाचताच येणार नाही. असा प्रकार सुरुवातीला कांही वर्ष झाला.

म्हणून मग ज्यांना दूरदृष्टी होती अशा कांही मंडळींनी एकत्र बसून खूप विचारपूर्वक ठरवल की इंग्रजीतील अक्षरांसाठी कॅरॅक्टर-कोड स्टॅण्डर्डाइझ करायचे. हे करतांना भाषाविद् तसेच संगणक शास्त्राचे जाणकार आणि ज्याला सतत संगणकावर काम करावं लागतं अशा सर्वांचे मत घेण्यांत आले. इंग्रजीसाठी ASCII स्टॅण्डर्डायझेशनची ही प्रक्रिया 1960 पासून सुरू झाली. त्यांनी A, B, C, D …. साठी जी मशीन-अक्षर-साखळी ठरवली तीच आता जगांतील यच्चयावत् संगणकांवर असणार. उदा A साठी 0100 0001. (यातील चार-चार बिटांच्या मधली जागा मी वाचनाच्या सोईसाठी टाकली आहे). त्यामुळे अक्षरांच्या मशीन-भाषेतील जागा पक्क्या झाल्या.

प्रगत संगणक व मोठ्या क्षमतेचे प्रोसेसर आल्यावर 1986 पासून जास्त प्रमाणबद्ध असे युनीकोड स्टॅण्डर्ड टप्प्याटप्प्याने विकसित होऊ लागले. त्यांत आधी आठ-बिट पण नंतर सोळा-बिट अक्षर-साखळी वापरायचे ठरले तेंव्हा एकूण 65536 जागा मिळाल्या. तरीही इंग्रजी मुळाक्षरांची ASCII स्टॅण्डर्ड मधे ठरलेली जागा बदलण्याचा प्रश्न उद्भवला नाही -- फक्त प्रत्येक अक्षराच्या जुन्या संकेतामागे 8 शून्य लावून टाकली. याप्रमाणे
आठ-बिट पध्दतीत
A हे अक्षर 0100 0001 व
a हे अक्षर 0110 0001
तर सोळा-बिट पध्दतीत
A हे अक्षर 0000 0000 0100 0001 व
a हे अक्षर 0000 0000 0110 0001 लिहिले गेले.

याप्रमाणे इंग्रजीतील अक्षरे तसेच सर्व विराम चिन्ह, इतर चिन्ह व आकडयांसाठी जी जी साखळी ठरली होती, त्यातील कोणालाही सोळा-बिटची करतांना कांहीच श्रम पडले नाहीत. जास्त अक्षर-चिह्ने लागणा-या इतरही पश्चिम युरोपीय भाषा उदा. फ्रेंच, जर्मन, स्वीडीश, व सिरीलिक वर्णमाला वापरणा-या पूर्व-यूरोपीय-रशियन इत्यादी भाषांचे युनीकोड संकेतही अशाच प्रकारे ठरले.

आकडयांचे वेगळे स्टेटस
इथे आकडयांच्या बाबतीत एक महत्वाचा मुद्दा उपस्थित होतो. भाषारूप आकडा म्हणजे तो लिहिल्यावर वळण कस दिसेल, पण गणितरूप आकडा म्हणजे गणितीय मूल्य कांय असेल. या दोन गोष्टी संगणकाला वेगळया सांगाव्या लागतात. वर्ड या सॉफ्टवेअरला गणितीय मूल्य कळत नाही. पण एक्सेलला कळते. म्हणूनच सॉर्टिंग, ग्राफ, गणितं, फार्म्युला, चार्ट इत्यादी साठी एक्सेल प्रोग्राममधे भाषारूप आकड्याचे गणिती मूल्य ओळखणारा एक सब-प्रोग्राम असावा लागतो. तसा तो असतो म्हणूनच एक्सेलमधील सारणीला मागे मी बुध्दिमान सारणी असे विशेषण लावले.

2 या आकडयाच्या भाषारूपासाठी खालील साखळी ठरलेली आहे.
0011 0010
पण 2 हा आकडा गणिती मूल्याच्या रुपात लिहायचा असेल तर संगणक त्याला
0000 0010
असे लिहून गणितं करतो. (यातील चार-चार बिटांच्या मधली जागा मी वाचनाच्या सोईसाठी टाकली आहे)

आपण 2 गुणिले 4 हे गणित दिल्यावर उत्तरापोटी येणारा आकडा आठ. संगणकाने गणित करतांना त्याला हा आकडा
0000 1000
असा दिसतो. संगणक त्याला आधी भाषेच्या रूपांत स्वत:च्या पाटीवर (रॅम वर) लिहून घेतो --
0011 1000
व नंतर एका वेगळया सूचनेला अनुसरुन आपल्याला पडद्यावर 8 या वळणात लिहून दाखवतो.

याच प्रमाणे 3 x 9 = 27 हे गणित करतांना गणिती भाषेतील उत्तर 0001 1011 असे दिसते, तरी त्यांत दोन अंक असून पडद्यावर लिहिण्यासाठी त्यांपैकी एकाला भाषारूपाने 0011 0010 (म्हणजे 2) व दुस-याला भाषारूपाने 0011 0111 (म्हणजे 7) लिहायचे आहे हे ही संगणकाला कळते.

या उदाहरणावरून प्रत्येक अंक किंवा अक्षराला संगणकाकडील 256 प्रकारच्या साखळ्यांपैकी एक निश्चित साखळी बहाल करणे व तीच निश्चित जागा जगांतील सर्व प्रोग्रामर्सनी वापरणे किती गरजेचे आहे हे दिसून येते.

अक्षरलेखनविधी
इथे पुन्हा एकदा अक्षरलेखनविधीची उजळणी करू या. साध्या पाटी-पेन्सिलने लिहायचे असेल तर आपण मनांत A या अक्षराचा विचार केल्याबरोबर आपल्या डोळ्यासमोर एक वळण उभं रहातं आणि तेच पाटीवर गिरवून आपण ते अक्षर उमटवतो. टंकयंत्र आले तेंव्हा आपण अक्षराच्या वळणासोबत टंकयंत्राच्या कळपाटीवर त्या अक्षराची काडी कुठे आहे हा ही विचार करायला शिकलो. थोडक्यांत दृश्य-वळण तेच राहिले तरी निर्देश-तंत्र बदलले आणि आपण या दोघांचा फारकतीने विचार करायला शिकलो.

संगणक आल्यावर दृश्य-वळण म्हणजे संगणकाच्या पडद्यावर दिसणारा फॉण्ट, व निर्देश-तंत्र म्हणजे संगणकाला ते अक्षर सांगण्यासाठी कळपाटीवर कोणती कळ दाबायची या दोन बाबींखेरीज संगणकाच्या स्वतःच्या सोईचे संग्रह-तंत्र म्हणजे प्रोसेसरला समजणारी मशीनी अक्षर-साखळी म्हणजेच कॅरॅक्टर-कोड, अशी तिसरी बाब आवश्यक ठरली. संगणकासाठी आज्ञावली (सॉफ्टवेअर) बनवताना तसेच स्टॅण्डर्डायझेशन करतांना या तीनही बाबीचा प्रत्येकी वेगळा विचार करावा लागतो.

यातील कॅरॅक्टर-कोडिंग म्हणजे कुठल्या अक्षरासाठी कुठली अक्षऱ-साखळी ते ठरवणे. संगणकाच्या आत डाटा-स्टोरेजसाठी असे एखादे कोड वापरावे लागते. त्याचे स्टॅण्डर्डायझेशन करून ASCII व युनिकोड असे दोन स्टॅण्डर्ड इंग्रजी भाषेसाठी ठरले.

कळपाटीच्या स्टॅण्डर्डायझेशनमधे कुठल्या अक्षरासाठी कुठली कळ वापरायची ते ठरते. इंग्रजीसाठी querty हा स्टॅण्डर्ड अनुक्रम जास्त प्रचलित असला तरी, इतरही स्टॅण्डर्ड अनुक्रम चलनांत आहेत.

दृश्य-वळणाच्या स्टॅण्डर्डायझेशनमधे अक्षराचे वळण (फॉण्ट किंवा वर्णाकृती) कसे दिसेल व प्रिंटरवर कसे उमटेल ते ठरते. इंग्रजीतील फॉण्टसेट एरियल, ताहोमा, टाईम्स न्यू रोमन इत्यादी दृश्य-वळणाची उदाहरणे आहेत.

कळपाटीवर टंकनाचे काम सुरू करतानाच आधी सांगून टाकायचे की अक्षराचे वळण अमुक भाषेत, अमुक स्टॅण्डर्ड फॉण्ट मधे, अमुक आकारांत व अमुक रंगांत पाहिजे. ते निर्देशही संगणक जपून ठेवतो, व आपण टाईप केलेले गद्य त्याला समजणा-या मशीन-भाषेत साठवून ठेवतो.

संगणकावर अरेबिक किंवा चीनी वर्णमाला आणतांना देखील या तीन प्रकारांचे स्टॅण्डर्डायझेशन व्हायला हवे, ते अरेबिकसाठी अरब देशांनी व चीनीसाठी चीन-जपान-कोरियाने राजकीय हेवेदावे बाजूला ठेऊन, एकत्र बसून केले.

गोंधळी भारतीय

मराठीसाठी देखील या तीन प्रकारांचे स्टॅण्डर्डायझेशन व्हायला हवे. यासाठी गेल्या 20-25 वर्षांत कांही प्रयत्न झालेच नाहीत कां? याचे उत्तर आहे- झाले, पण आठ-संकेतांच्या अक्षर-साखळीवर थांबून, विस्कळीत स्वरूपाचे, बाजार जिंकण्याच्या स्पर्धेपोटी अक्षराची मशीन-भाषेतील जागा म्हणजे कॅरॅक्टर-कोड स्टॅण्डर्डायझ न करता-- किंबहुना त्यासाठी लागणारा परस्परसंवाद पूर्णतः टाळून, आणि यामुळे आपल्याच भाषांचे किती अतोनात नुकसान होते आहे याचे कुठलेही भान न ठेवता झाले. म्हणूनच ते समुपयुक्त किंवा पूर्णत्वाला आले नाहीत. याला कोण जबाबदार असे विचारल्यास "मी नाही हाँ," म्हणणारे सगळेच निघतील पण "मी जिद्दीने हे पूर्ण करून घेईन" असं म्हणणारे कुणीच नाहीत.

हे प्रयत्न कुठे कमी पडले ते थोडक्यांत समजावून घेऊया.

आठ-बिटांच्या काळांतच 1988 मधे भारत सरकारचा इलेक्ट्रॉनिक्स विभाग व त्यांचीच सी-डॅक कंपनी तसेच BIS (Bureau of Indian Standards ) यांनी भारतीय अक्षर-साखळींसाठी ISCII हे स्टॅण्डर्ड ठरवण्याची कमिटी स्थापन केली. संस्कृत वर्णमाला ध्वनी-संकेतांवर आधारित आहे व इतर सर्व लिप्यानाही तोच पाया आहे. या तथ्याचा उपयोग करून सर्व भारतीय लिप्यांसाठी एकच असे उपयुक्त कोड तयार झाले. यामुळे क, ख, ग.. या प्रत्येक वर्णाक्षराची आठ-बिटची अक्षर-साखळी एकच राहिली, मग लिपी मराठी असो की बंगाली, की मल्याळी. शिवाय मुळाक्षरांच्या क्रमाचेच व शिकायला खूप सोपे असे इन्स्क्रिप्ट की-बोर्ड-डिझाइन आले. प्रयोगादाखल रेल्वेच्या डब्यावरील रिझर्वेशन चार्टचा एकच मजकूर सर्व भारतीय लिप्यांमधे देऊन हे सोपे व चांगले असल्याचे दाखवून दिले. होते. BIS (Bureau of Indian Standards ) ने 1991 मधे हे प्रयत्नपूर्वक आखलेले स्टॅण्डर्ड मान्य करून त्याला IS 13194:1991 हा क्रमांक दिला.

पण या आरंभिक उत्तम कामानंतर सी-डॅकचे धोरण बदलले. 1988-95 या आरंभिक काळांत मराठी अक्षर-टंकनासाठी सॉफ्टवेअर तयार करणा-या कित्येक कंपन्या निघाल्या. त्यांनी निर्देश-तंत्र, दृश्य-वळण आणि सोर्सकोड या प्रत्येकाबाबत कांय केले ते पाहू.

टप्पा -1 -- निर्देश-तंत्र -- कळपाटीची कोणती कळ दाबल्याने कोणते अक्षर उमटेल तो वर्ण-अनुक्रम ठरवणे. या कामासाठी गोदरेज टाइप-राइटरचा अनुक्रम सर्वपरिचित असल्याने सर्व कंपन्यांनी तोच अनुक्रम कायम ठेवला. सीडॅकने त्यासोबत इन्सक्रिप्ट व फोनेटिक हे दोन जादा अनुक्रम पण बसवले आणि फक्त एक कळ दाबून संगणकावर अनुक्रम निवडीची सोय केली. या कामामधे मोहन तांबे या संगणक तज्ज्ञाचा मोठा वाटा होता. या कौतुकास्पद कामामुळे गोदरेज अनुक्रम टप्प्याटप्प्याने काढून इन्स्क्रिप्ट अनुक्रम आणण्याचा मार्ग सोपा झाला. ज्यांना टंकयंत्राची सवय होती त्यांचाही खोळंबा नको पण नवीन शिकणारा सोपेपणाने शिकावा असा हेतू होता.

इन्स्क्रिप्टमुळे तमाम भारतीय भाषांची एकरूपता वापरांत आणता आली. मी स्वतः लहान मुलांसाठी हिन्दीत लिहिलेले कित्येक धडे व संस्कृत श्लोक माझ्या आसामी मित्रांनी भाषा न बदलता फक्त आसामी लिपीत करून घेतले आहेत व आसामी मुलांना हिन्दी व संस्कृत शिकवण्यासाठी त्यांचा उपयोग केलेला आहे.

टप्पा -3 -- दृश्य-वळण-- अक्षरांच्या वर्णाकृतींचे वेगवेगळे चित्ररूप वळण डिझाइन करणे. हा कॅलिग्राफीसारखाच प्रकार आहे. हे कलात्मक व वेगळया कौशल्याचे, बहुधा चित्रकराचे काम असते आणि त्याचा खर्च मोठा असतो. भारतीय भाषांच्या वळणांसाठी मुंबईच्या जे.जे स्कूल ऑफ आर्ट्सचे, खास करून रा.कृ. जोशी या तज्ज्ञाचे खूप मोठे योगदान आहे.

सध्या ढोबळ मानाने श्री मालिकेतील 30 वर्णाकृतिसंच (फॉण्टसेट), कृतिदेव मालिकेतील 20 व सरकारी सीडॅक कंपनीचे जिस्ट, आयलीप व टीडीआयएल या तीन मालिकेतील 50 असे सुमारे शंभर वर्णाकृतिसंच आपल्याला एका मराठी भाषेसाठी दिसतात. अशा वेगवेगळ्या फॉण्ट मुळे प्रकाशनांत आवश्यक असलेले फॉण्ट-वैविध्याचे सौंदर्य मिळते तसेच फॉण्ट-फटीग (एकच एक फॉण्ट वापरून कंटाळा येणे) टाळला जातो. संगणकाच्या फॉण्टबँकमधे हे संच ठेवलेले असतात. आपण टंकनकाम सुरू करतांना आपला फॉण्ट, त्याचा रंग, आकार इत्यादी निवडायचे, मधेच वाटेल तिथे बदलायचे असे करता येते.

मधला टप्पा – कॅरॅक्टर-कोड – सगळा गोंधळ इथे झाला. आठ-बिट वापरून मिळालेल्या 256 साखळयांपैकी नेमकी कोणती साखळी कोणत्या अक्षराला याबाबत 1991 मधे ISCII स्टॅण्डर्ड ठरवले गेले तरी वापरले गेले नाही. प्रत्येक कंपनीने स्वतःचा गुप्त कोड बनवला. कळपाटीवरचा अक्षर अनुक्रम जरी सारखा ठेवला तरी प्रोसेसरच्या पाटीवर (RAM वर) उमटणारी मशीन-साखळी वेगळी ठेवली. या मशीन-साखळीचाच वापर करून प्रोसेसर काम करतो आणि संग्राहकांत साठवतांना पण हाच कॅरॅक्टर-कोड वापरतो. तोच "टॉप बिझिनेस सिक्रेट" या सदराखाली ठेवला. हे करताना कारण मात्र असे दिले की सर्व भारतीय भाषा पूर्णत्वाने लिहिता येण्यासाठी २५६ संकेतचिह्न अपुरी आहेत. म्हणून आमच्या ग्राहकांच्या गरजेनुसार आम्ही स्वतःचे वेगळे कोड करून वापरू. मुख्य म्हणजे केंद्र सरकारची कंपनी असूनही सी-डॅक पण त्या स्पर्धेत उतरली. त्यांनीही स्वतः केलेले स्टॅण्डर्ड कोड न वापरता वेगळे, टॉपसीक्रेट कोड वापरले.

भारतीय भाषांमधे व्यंजनाला स्वर जुळवणे व व्यंजनाला व्यंजन जुळवून जोडाक्षर तयार करणे या जोडणींच्या प्रकारासाठी आपल्याला एक जादा स्टॅण्डर्ड लागणार.यासाटी सी-डॅकने ISFOC हे सॉफ्टवेअर तयार केले पण ते खुले करून त्यालाच स्टॅण्डर्ड ठरवून सर्वांना वापरू देण्याऐवजी व्यापारासाटी त्यालाही गुप्त ठेवले आहे.

अशा प्रकारे बाजाराच्या स्पर्धेत भाषेची समृद्धी गौण ठरली.

या सर्व सॉफ्टवेअर्सची किंमतही भरमसाठ म्हणजे रू.15000 च्या पुढे ठेवली.

याचे तीन तोटे झाले.

1) इतके महागडे सॉफटवेअर निव्वळ भाषाप्रेमापोटी घ्यावे असे सामान्य माणसाला कसे वाटणार किंवा कसे परवडणार? याचवेळी इंग्रजी लेखनाचे सॉफ्टवेअर संगणकाचा घटक म्हणून फुकट किंवा अत्यल्प किंमतीत मिळत असे.

2) शिवाय मराठी भाषेच्या प्रेमापोटी इतके महागडे सॉफटवेअर घेऊनही जे लिहिले ते दुस-या संगणकावर देखील तेच महागडे सॉफटवेअर नसेल वाचता तर येत नाही. आपल्या संगणकावरील अक्षरे तिथे चौकोन, चिन्ह, असे कांहीतरी junk (जंक) रूपांत दिसतात

स्टॅण्डर्ड कोड वापरले तर ते सर्वांना सारखेच असते. ती सक्ती करायला हवी होती. नॉनस्टॅण्डर्ड कोड वापरले तर निदान ते सर्वांना खुले करण्याची सक्ती हवी होती. दोन्ही न केल्यामुळे संगणकीय मजकुराच्या देवाण-घेवाणीत कधीच एकरूपता आली नाही. प्रत्येक सॉफ्टवेअर कंपनीने आपल्याला पाहिजे त्याप्रमाणे अक्षर-आखणी केल्याने श्री, कृतिदेव, व सीडॅक यांच्या एका सिरीजची अक्षरे दुसरीकडे वाचता येत नाहीत. "या हृदयीचे त्या हृदयी घातले" हा ज्ञानेश्वरांचा वारसा सांगणा-या मराठीत "या हृदयीचे त्या हृदयी कळोच नये" असा प्रकार झाला.

3) 1995 साली ईमेल आले त्यावरही हे मराठी लेखन पाठवणे अशक्य झाले, तिथेही ते जंक दिसू लागले.

या समस्येपुढे सामान्य माणसाने हात टेकले. आडवळणाने मार्ग काढता काढता प्रकाशकांचे हाल झाले. हा गोंधळ आजही कायम आहे.

संगणकासाठी इंग्रजी यायलाच हवी हा भ्रम सामान्य माणसाच्या मनांत निर्माण झाला व दृढ होत गेला त्याचे हे कारण आहे.

खरेतर 1988-95 या काळांत विण्डोज सारखी प्रगत ऑपरेटिंग सिस्टम किंवा ईमेल अजून आलेले नव्हते. तरीही भारतीयांनी 256 अक्षर-साखळ्यामधे आपल्या भाषा कशाबशा बसवल्या. त्यांत दहा ते पंघरा टक्के कमतरता राहिली असेल पण संगणक व्यवहार चालू होऊन मोठी झेप घेता आली. ISCII standard व इन्स्क्रिप्ट-अनुक्रम या दोन मोठ्या उपलब्धी होत्या. इतर टंक कंपन्यांनी केलेले कामही उपलब्धीच होती. कारण त्यांच्यामुळे भारतांतील संगणक-साक्षरता इतर देशांच्या तुलनेत जास्त वाढत होती. मात्र आपापले कोड गौप्य आणि महाग ठेवण्याचा दुराग्रह वाढतच राहीला तो या सर्व उपलब्धींवर पाणी ओतत होता. सर्वस्पर्शी काम होण्याएवजी एकाने केलेल्या कामाचा उपयोग दुस-याला होत नव्हता, उलट त्याला कां म्हणून उपयोग करू द्यायचा अशी वृत्ती होती. सर्वांचे कॅरॅक्टर-कोड एकच असते तर सामान्य माणसाला उपयोग झाला असताच शिवाय तेच कोड ऑपरेटिंग सिस्टमचा हिस्सा बनून मिळावा असा आग्रह मायक्रोसॉफ्टकडे संगठित रीत्या करता आला असता. त्या ऐवजी भारतीयांना दूरगामी चिंतन करता येत नाही, तसेच आपल्या भाषांसाठी भारतीय ठाम नाहीत हेच चित्र उभे रहात होते.

किमानपक्षी सी-डॅकचा एखादा वर्णाकृतीसंच ग्राहकाला अत्यल्प दरांत देता आला असता, तेही करायचे केंद्र सरकारला जमले नाही. म्हणूनच जनतेच्या कोट्यावधी रुपयांच्या बजेटवर चाललेली, व सर्व प्रकारची गौरवास्पद तांत्रिक क्षमता असलेली, पन्नास-एक फॉण्ट विकसित केलेली सी-डॅक सर्वसामान्यांच्या संगणक सुविधेसाठी काहीही करत नाही आणि एकप्रकारे आपल्या भाषांना मागे ढकलत आहे असे चित्र दिसत राहीले.

टप्पा - 4 – आता युनीकोडमधला घोळ पाहू या.
1995 च्या पुढे जागतिक पातळीवर 65536 संकेतचिह्न वापरणारे युनिकोड स्टॅण्डर्ड टप्प्याटप्प्याने विकसित होऊ लागले, त्यावर अरेबिक व चीनीसकट इतर भाषांनी आपल्या अक्षर-साखळ्यांचे प्रमाणीकरण करून घेतले. त्या त्या भाषाचे सॉफ्टवेअर करणा-यांवर ते ते स्टॅण्डर्ढ वापरणे बंधनकारक ठरवले. त्यांच्यात संगणक कामांची सुसूत्रता व देवाणघेवाण वेगाने वाढू लागली.

अशा वेळी भारतीयांनी देखील उपलब्घ झालेल्या जास्त संकेतचिह्नांचा उपयोग करून ISCII मधे पूर्णता आणणे व युनीकोड कन्सॉर्शियमसमोर तेच विचारार्थ ठेवणे हा चांगला मार्ग होता. भारतीयांनी मात्र कित्येक घोळ चालू ठेऊन तसे होऊ दिले नाही. सर्व सॉफ्टवेअर विक्रेते पूर्वीप्रमाणेच आठ-बिट साखळ्यांच्या गुप्त व नॉन- स्टॅण्डर्ड कोडचीच विक्री करत राहिले. त्यामुळे त्यांच्यामधे आजही गद्यसंकलनाची एकात्मता आली नाही, तसेच ई-मेल, इंटरनेट, वेबसाईट या वेब-आधारित बाबींमधे भारतीय लिप्या अडखळत राहिल्या. 1988-95 या काळांत मिळालेला पुढाकार मागे पडून व सुरुवातीला संगणक-साक्षरतेबाबत इतरांच्या पुढे राहूनही आता आपण सातत्याने मागे पडत चाललो आहोत.

यावर उपाय काढतो म्हणत जागतिक युनीकोड कन्सॉर्शियमने भारतीय भाषांसाठी जे स्टॅण्डर्ड करायला घेतले त्यामधे ई-मेल इत्यादी वेब-आधारित सोई निर्माण केल्या पण भाषांची ध्वन्यात्मक एकात्मता पुसून टाकली गेली. त्यांनी एकूण सर्व भारतीय भाषांसाठी एकत्रितपणे 65536 संकेतचिन्हे असा हिशोब न करता निरनिराळ्या भाषांसाठी निरनिराळे संच (chunk) असा हिशोब केला. आता क हे अक्षर तेच असेल पण त्याची सोळा-बिटची अक्षऱ-साखळी मराठीसाठी वेगळी, बंगालीसाठी वेगळी आणि, मल्याळीसाठी अजून वेगळी. भारतीय लिप्यांची एकात्मता न जपल्याने आता मी मराठीत लिहिलेली सामग्री इतर लिप्यांमधे तत्काळ बदलायची सोय संपली. आता त्यासाठी वेगळे खास प्रयत्न करावे लागणार. तसेच एखादे जुने वाङ्मय बंगाली लिपीत महाजालावर असेल तर ते शोधण्याचे आदेश मराठी लिपीत दिल्यावर संगणकांच्या सर्च-इंजिनला ते ओळखता येणार नाही. अशा रितीने भारतीय साहित्याची एकात्मता जिच्या आधाराने आपला सांस्कृतिक वाङ्मयीन वारसा हजारो वर्ष टिकला -- तीच झपाट्याने हरवत जाणार. याला आपले वैज्ञानिक आडवळणाचे उपाय शोधत आहेत, मात्र असले “भारत-तोडो” स्टॅण्डर्ड न वापरता आम्ही वेगळे एकात्मिक स्टॅण्डर्ड बनवून देतो असं ते सांगू शकलेले नाहीत.

सामान्य संगणक-ग्राहकाला हे घोळ माहीत नाहीत पण आज तरी आपले काम महाजालावर टाकायचे असेल तर युनीकोड-मराठी एवढाच पर्याय आहे.

टप्पा - 5 – 1998च्या दरम्यान युनीकोड वापरणारी एक नवी लिनक्स ऑपरेटिंग सिस्टम पुढे आली. त्यांची कामाची धाटणी वेगळी होती. संगणकाचे जे जे तंत्र सोपे व कल्पकतेला वाव देणारे आहे, ते उचला व सर्वांना माहीत करून देऊन फुकट वापरू द्या, म्हणजे वापरकर्त्यांच्या कल्पकतेचा फायदा सर्वांना मिळेल असे तत्वज्ञान त्यांनी रुळवले. यासाठी लिनक्स सिस्टम फ्री डाउनलोड करता येते. त्यामधे कित्येक सोई आहेत ज्या वापरून आपण काही नवीन सुविधा निर्माण करू शकतो, ज्या लगेच इतरांना उपलब्ध होतात. इन्सक्रिप्ट की-लेआउट सोपा आणि सर्व भारतीय भाषांसाठी सारखाच - मग लिनक्स सिस्टम मधे तोच वापरायचा असे त्यांनी ठरवून टाकले. युनीकोडमुळे कॅरॅक्टर-कोड खुले झालेलेच होते. लिनक्समधील सोई वापरून उत्याही लोकांनी लिनक्सवर चालणारे कामचलाऊ मराठी फॉण्ट बनवले व वापरले. ते इंटरनेटवर चालतात.

त्यांच्या अशा युक्तिमुळे लीनक्सच्या तुलनेत भारतीय बाजारपेठ हातची जाईल हे समजल्यावर मायक्रोसॉफ्टने सी-डॅकच्या मदतीने 2007 मधे मराठीसाठी मंगल हा एकमेव युनीकोड फॉण्ट तयार करून घेतला. हा युनीकोड आधारित असल्याने जगभरा चालणारा व इन्सक्रिप्ट ले-आउट असल्याने शिकायला सोपा आहे. याचप्रमाणे प्रत्येक भारतीय लिपीसाटी एक असे युनीकोड फॉण्ट करून घेतले. नवीन संगणकांच्या विण्डोज ऑपरेटिंग सिस्टममधे ते टाकणे बिनखर्चाचे आहे. पण ते मराठी गि-हाइकाला आग्रह धरला तरच उपलब्ध होतात. बाय डिफॉल्ट, सहजपणे होत नाहीत. यासाठी गि-हाइकानेच जागरूक राहिले पाहिजे.

शिवाय मंगलमधे लिहिलेली सामग्री इतर भारतीय लिपीच्या युनीकोड आधारित फॉण्टमधे टाकता येईल का -- मुळीच नाही. उदा. युनीकोड गुजरातीसाठी श्रुती फॉण्ट आहे पण मंगल वापरून लिहिलेल्या मराठीचे श्रुतीमधे लिप्यंतर करता येत नाही. याचे समाधान हवे असेल तर भारतीयांनीच आग्रह धरून युनीकोडमधे बदल करून घ्यायला हवा.

टप्पा - 6- आपल्या संगणक तंत्रज्ञांनी दुर्लक्ष केले असले तरी शेवटी त्यांच्याकडूनच आपल्याला पुढचे काम करुन घ्यायचे आहे. भारतीय वर्णमालेत मुळाक्षरे जरी कमी वाटत असली (16 स्वर, 36 व्यंजन) तरी जोडाक्षरे व जोडाक्षरे लिहितांना त्यांना जोडण्याच्या पध्दतींमध्ये विविधता आहे. आठ-बिटच्या 256 साखळयांमधे ते कसेबसे कोंबून व कांही वळणं गाळून बसवता आले. पण ख-या अर्थाने भारतीय लिपि संगणकाच्या मशीन-भाषेत बसवायच्या तर सोळा-बिट प्रणालीच्या 65536 साखळयांमधून ठरावीक जागा प्रमाणबद्ध कराव्या लागतील.

ते करतांना अक्षरे, जोडाक्षरे, वेलांटीची पद्धत, वेदकालीन लिपितील खास खास उच्चार चिह्ने - ज्यावर उदात्त, अनुदात्त स्वर ठरतात - किंवा भारतीय संगीत लिहिण्यासाठी लागणारी चिन्हे, या सर्वांचा विचार करुन हे काम केले पाहिजे. त्या जोडीला सिंहली, (श्रीलंकेची भाषा) नेपाळी, तिबेटी, थाई, इंडोनेशियन, मलेशियन अशा त्या भाषांना संस्क़ृतचीच वर्णमाला वापरतात-- त्यांच्यासाठी लागणा-या जादा संकेत-चिन्हांचाही विचार करावा लागेल.

यासाठी 256 खण गुणे 256 खण असा एक मोठा चौकोन आखून त्यातील कोणत्या खणांत कोणती अक्षरे बसवून चालेल, कांय काळजी घ्यावी, इत्यादी चर्चा घडवून आणावी लागेल. त्याचप्रमाणे वेगवेगळ्या लिपी असूनही एका अक्षराची एकच जागा असेल, थोडक्यांत ध्वनी-संकेतांप्रमाणे असेल हे ही पाहिले पाहिजे. जसे इंग्रजीपेक्षा स्वीडिश भाषेतील अक्षरे जास्त असूनही दोन्हीं भाषांतील समान अक्षरांना एकच कोड आहे, तसेच झाले पाहिजे. यासाठी भाषाविद् आणि मराठी अस्मितेचे भान असणा-यांनी पुढाकार घ्यायला हवा.

एकूण काय तर सध्या असलेले भारतीय फॉण्टसेट्सचे कोड खुले करावे, सी-डॅक कडील युनीकोड फॉण्ट्स लिनक्स किंवा मायक्रोसॉफ्ट सारख्या कंपन्यांना फुकट देऊन त्यांच्या ऑपरेटिंग सिस्टम मधे टाकावेत यासाठी केंद्र सरकारने त्यांच्यासोबत चर्चा करावी असे छोटे टप्पे आणि युनीकोड प्रणालीच्या 65536 प्रकारच्या साखळयांमधून प्रत्येक भारतीय अक्षराची एकच जागा पक्की करून सर्व भारतीय लिप्यांची एकात्मता टिकून राहील असे नवे प्रमाणक ठरविण्याचा मोठा टप्पा आपल्याला अजून गाठायचा आहे.

संगणकावर इंग्रजी टंकन व्यवस्था जशी सहज आणि आपोआप येते तशी महाराष्ट्रात मराठी इनस्क्रिप्टही बाय डिफॉल्ट यावी, तसेच भारतीयांनी विकसित केलेले सर्व युनीकोड फॉण्ट्स ऑपरेटींग सिस्टम बरोबरच यावे असा आग्रह धरला तर लॉजिस्टीकचा केवढातरी प्रश्न सुटेल. मग सामान्य वापरकर्त्याला कोणतेही गद्यलेखन सॉफ्टवेअर विकत घेण्याची गरज उरणार नाही.

-------------------------------------------------------------------------------------
नोंदीसाठी नोंद घ्यायला हरकत नाही की 1993-97 या काळांत सी-डॅकने त्यांच्या संकेतस्थळावरून फक्त एका पानापुरते लीपलाईट हे सॉफ्टवेअर सर्व भारतीय लिपींसाठी फ्री-डाउनलोड उपलब्ध केले होते. इन्सक्रिप्ट आधारित असल्याने ते सोपे होते व त्यामुळे बरेच काम होत होते. नंतर ती सोय काढून घेतली त्या ऐवजी इंग्रजी माध्यमातून फोनेटिकचा वापर करून लिहिल्यावर पडद्यावर मराठीत मजकूर दिसेल असे एक सॉफ्टवेअर फुकट पुरवले. "तुमची कोणतीही भारतीय भाषा असो, इंग्रजीत टायपिंग करा, पडद्यावर तुमच्या लिपीत दिसेल" असे ते सॉफ्टवेअर आहे. त्यामुळे "आपली लिपी हवीच कशाला ? आहे सोय तर इंग्रजी टायपिंग वापरा की" असाही एक मतप्रवाह सुरू झाला आहे. त्यामुळे पुढील दहा वर्षांत आपल्या भारतीय लिप्या संगणकावरून हरवण्याचा धोका निर्माण झाला आहे.

नुकतेच (2009) महाराष्ट्र शासनाच्या आग्रहावरून सी-डॅकने पुन्हा एकदा त्यांच्या साइटवरून लीपलाईटची फ्री-डाउनलोड सोय फक्त मराठीपुरती उपलब्ध केली आहे. इन्स्क्रिप्ट येते त्यांना हा बरा पर्याय आहे. परंतू ही बातमी त्यांच्या संकेतस्थळाच्या मुख्य पानावर ठेवलेली नाही तसेच ही सोय गॅरंटीने कधीपर्यंत राहील आणि इतर भारतीय भाषांसाठी कां नाही हे प्रश्न उरतातच.

आपण गेली वीसेक वर्ष इतर फॉण्ट मधे लिहिलेले सर्व गद्य मंगल मधे बदलू शकतो. यासाठी टीबीआयएल, प्रखर आसे कांही कनव्हर्टर्स तयार झाले आहेत. सबब ज्यांनी आतापर्यंत इतर सॉफ्टवेअर वापरून हजारो पाने लिहून काढली आहेत ती युनीकोड मधे बदलून घेण्याचा कार्यक्रम हाती घ्यावा जेणेकरून ती माहिती महाजालावर टाकता येईल व इतरांना तिथूनच वाचता येईल. सध्या कित्येक मंडळी आपले साहित्य pdf करून महाजालावर टाकत आहेत. हे चांगले आहे पण पुरेसे नाही कारण सर्च इंजिनला ते शोधता येत नाही.

कनव्हर्टर्स तयार झाले याचाच अर्थ की आता कुणाचेही कोड ख-या अर्थाने गुप्त राहिलेले नाहीत, तरीही त्यांना "खुले" आसे जाहीर करावे लागेल तरच ते शंभरएक फॉण्ट इतरांना अनिर्बंध वापरता येतील व पुढील प्रोग्राम आणि आविष्कारासाठी उपयोगी पडतील. तसेच इथून पुढे कुठलेही नवे फॉण्ट विकसित करतांना ते स्टॅण्डर्ड व खुले असावे. हे उपाय वापरले तर भारतीय वाङ्मयाची झेप तत्काळ कितीतरी पटींनी वाढेल.

भारतीयता जपू पहाणा-या सर्वच भाषाप्रेमींनी या विविध मुद्द्यांवर जागरूकता दाखवून ही आव्हानं पेलायला हवीत.
--------------------------------------------------------------------------------

इंग्रजीऐवजी स्वतःची मातृभाषा वापरल्याने प्रगती होते का याच्या उत्तरासाठी ही आकडेवारी पहा --
2004 साक्षरता इंग्रजी-साक्षरता संगणक-साक्षरता
भारत 52 25 09
चीन 88 11 53
त्यांची संगणक-साक्षरता इंग्रजीसाठी अडून राहिली नाही.

======================================================================

No comments: