• Προτυπο Γυμνάσιο Πατρών

  • .

  • .

  • .

  • .

  • .

  • .

  • .

Copyright 2022 - Πρότυπο Γυμνάσιο Πατρών

Κείμενο εξάσκησης στο μάθημα "Επεξεργασία Κειμένου"

Αξιολόγηση Χρήστη: 1 / 5

Αστέρια ΕνεργάΑστέρια ΑνενεργάΑστέρια ΑνενεργάΑστέρια ΑνενεργάΑστέρια Ανενεργά
 

διέυθυνση: https://el.wikipedia.org/wiki/%CE%91%CF%80%CE%BB%CF%8C_%CE%BA%CE%B5%CE%AF%CE%BC%CE%B5%CE%BD%CE%BF

για χρήση εξάσκησης

απλό κείμενο

Στηνπληροφορική,απλό κείμενο(plain text) είναι τα περιεχόμενα ενός απλού σειριακού (sequential) αρχείου όταν διαβάζονται σαν κείμενο, χωρίς να είναι αναγκαία επεξεργασία για την εμφάνισή του, σε αντίθεση με το κείμενο με μορφοποίηση (formatted text).

Ηκωδικοποίησησυνήθως είναιASCII, κάποια από τα παράγωγά της, όπως τοISO/IEC 646κλπ., ή κάποιες φορές τοEBCDIC.

Το πρότυποUnicodeέχει σήμερα αντικαταστήσει σε μεγάλο βαθμό το ASCII που είχε κωδικούς 7 ή 8 bit.

χρήση

Ο σκοπός της χρήσηςαπλού κειμένουσήμερα είναι σαν ένας "ελάχιστος κοινός παρονομαστής" που εξασφαλίζει ανεξαρτησία από προγράμματα που απαιτούν τη δική τους ειδική κωδικοποίηση ή μορφοποίηση (με αποτέλεσμα περιορισμούς). Τα αρχεία απλού κειμένου μπορούν να ανοιχτούν, να διαβαστούν και να τροποποιηθούν από τους περισσότερουςδιορθωτές κειμένου. Παραδείγματα τέτοιων διορθωτών είναι τοΣημειωματάριο(σταWindows), τοedit(στοDOS), οed, οemacs, οvi, οvim, οGeditή οnano(στοLinuxκαι σε άλλα συστήματα τύπουUnix), τοSimpleText(στοMac OS), ή τοTextEdit(στοMac OS X). Άλλα προγράμματα μπορούν επίσης να διαβάζουν απλό κείμενο. Το απλό κείμενο μπορεί επίσης να χρησιμοποιηθεί από απλά υπολογιστικά εργαλεία όπως οι εντολές εμφάνισης γραμμών κειμένουtype(DOSκαιWindows) καιcat(Unix), αλλά και από πιο πολύπλοκα προγράμματα, όπως οι φυλλομετρητές ΙστούLynxκαιLine Mode Browser.

Τα αρχεία απλού κειμένου επικρατούν στονπρογραμματισμό- ένα αρχείοπηγαίου κώδικαπου περιέχει εντολές μιαςγλώσσας προγραμματισμούείναι σχεδόν πάντα αρχείο απλού κειμένου. Το απλό κείμενο χρησιμοποιείται επίσης συχνά γιααρχεία ρυθμίσεων(configuration files), τα οποία διαβάζονται κατά την εκκίνηση ενός προγράμματος, για αποθηκευμένες ρυθμίσεις.

Το απλό κείμενο ήταν ο πρώτος και πιο διαδεδομένος τρόπος αποστολήςe-mail. Τα μηνύματα e-mail με μορφοποίησηHTMLσυχνά περιλαμβάνουν ένα αυτόματα παραγόμενο αντίγραφο σε απλό κείμενο για λόγους συμβατότητας.

Κωδικοποίηση

Αρχικά το κείμενο συχνά κωδικοποιούνταν σεASCII, χρησιμοποιώντας 8bitsγια ένα γράμμα ή άλλο χαρακτήρα, κωδικοποιώντας τα 7 bits ώστε να επιτρέπει 128 τιμές, και χρησιμοποιώντας το 8ο σαν bit αθροίσματος ελέγχου (checksum) κατά τη μεταφορά ενός αρχείου. Αυτό επέτρεπε το απλό λατινικό αλφάβητο, κωδικούς ελέγχου, παρενθέσεις και σημεία στίξης.

Όταν τα δεδομένα που μεταφέρονταν απέκτησαν πιο σταθερή μορφή, το 8ο bit σταμάτησε να χρησιμοποιείται σαν άθροισμα ελέγχου και χρησιμοποιήθηκε για την επέκταση του συνόλου των χαρακτήρων κατά άλλους 128 χαρακτήρες. Αυτοί οι μη-πρότυποι χαρακτήρες κωδικοποιούνταν με διαφορετικό τρόπο σε κάθε χώρα, κατά τρόπο που έκανε αδύνατη την κωδικοποίηση πολυγλωσσικών κειμένων. Για παράδειγμα, ένας φυλλομετρητής μπορούσε να εμφανίσει το¬Aσαν`αν χρησιμοποιούσε ένα σύνολο χαρακτήρων στη θέση άλλου. Επίσης, πολλές φορές, κωδικοποιούνταν και με διαφορετικό τρόπο στην ίδια χώρα (για παράδειγμα στην Ελλάδα έχουν χρησιμοποιηθεί, μεταξύ άλλων, οι κωδικοποιήσεις IBM 437 με ελληνικά, ΕΛΟΤ 928, windows-1253 κ.α.).

Όταν ένα πρόγραμμα θέλει να διαβάσει ή να επεξεργαστεί απλά κείμενα, γραμμένα σε αυτή τη μορφή, θα πρέπει να γνωρίζει την κωδικοποίηση που χρησιμοποιήθηκε για να γραφτούν. Κάποια προγράμματα, χρησιμοποιώντας διάφορες τεχνικές και αλγορίθμους, μερικές φορές κατορθώνουν να αντιληφθούν την κωδικοποίηση, αλλά όχι πάντα. Σε αυτήν την περίπτωση ο χρήστης συνήθως θα πρέπει να ξανανοίξει το αρχείο επιλέγοντας από πριν την κωδικοποίηση που πιστεύει ότι έχει χρησιμοποιηθεί (εφόσον το πρόγραμμα υποστηρίζει αυτή τη λειτουργία). Για παράδειγμα ένα αρχείο CSV (που μπορεί να ανοιχτεί με πρόγραμμα επεξεργασίας λογιστικών φύλλων) ή INI ή SRT (που μπορεί να ανοιχτεί με πρόγραμμα επεξεργασίας υπότιτλων ή από πρόγραμμα προβολής ταινιών) θα μπορούσε να έχει δημιουργηθεί από κάποιον που έχει γαλλικά στον υπολογιστή του. Σε αυτήν την περίπτωση το πιθανότερο είναι ότι οι χαρακτήρες πάνω από τη θέση 127 θα περιέχουν γαλλικό κείμενο και η ανάγνωσή του σε υπολογιστή με ελληνικά θα εμφανίζει "αλαμπουρνέζικα". Μερικά προγράμματα, όταν αντιλαμβάνονται ότι πρόκειται για απλό αρχείο κειμένου με κωδικοποίηση 8 bit, ζητάνε από το χρήστη να ορίσει την κωδικοποίηση στην οποία είναι γραμμένο το κείμενο.

Τελικά εμφανίστηκε τοUnicode, το οποίο σήμερα επιτρέπει 1.114.112 κωδικούς που μπορούν να χρησιμοποιηθούν για οποιοδήποτε σύγχρονο σύστημα γραφής, καθώς και για πολλά νεκρά συστήματα γραφής, και είναι ευρέως διαδεδομένο. Για παράδειγμα, το Unicode, εκτός από τους λατινικούς χαρακτήρες, κωδικοποιεί τους χαρακτήρες της Κινεζικής, της Εβραϊκής, της Κυριλλικής.

Τα προβλήματα δεν εξαλείφθηκαν καθώς οι μορφές UCS-2 και UTF-16 του Unicode χρησιμοποίησαν την προσθήκη ενός byte order mark (BOM) στην αρχή του κειμένου, το οποίο πολλοί ενσωμάτωσαν και σε κείμενα με άλλες μορφές Unicode, με αποτέλεσμα να "μπερδεύονται" πολλά προγράμματα.

κωδικοί

 

Οι κωδικοί ASCII πριν το κενό (SPACE=32=20H) δεν προορίζονταν για εμφάνιση, αλλά είναι χαρακτήρες ελέγχου (control characters) και έχουν διάφορες σημασίες. Για παράδειγμα, τοNULL(=0, αναφέρεται και σανCtrl-@) χρησιμοποιείται για τον τερματισμόσυμβολοσειρώνστη γλώσσα προγραμματισμούCκαι στους απογόνους της. Ειδικό ενδιαφέρον έχουν οι χαρακτήρεςLF(=LINE FEED=10=0AH, αλλαγή γραμμής) andCR(=CARRIAGE RETURN=13=0DH,επιστροφή φορέα). Τα Windows και τοOS/2απαιτούν την ακολουθίαCR,LFγια την αλλαγή σε νέα γραμμή, ενώ τοUnixκαι τα συγγενή με αυτό λειτουργικά συστήματα χρησιμοποιούν απλά τοLF, ενώ το ClassicMac OS(αλλά όχι τοMac OS X) χρησιμοποιεί τοCR. Παλαιότερα αυτή η κατάσταση προκαλούσε μικροπροβλήματα στη μεταφορά μεταξύ συστημάτων Windows και Unix, αλλά σήμερα τα περισσότερα προγράμματα τη χειρίζονται σωστά.

Attachments:
Download this file (απλό κείμενοDOC.doc)απλό κείμενοDOC.doc[ ]81 kB
f t g m