poniedziałek, 22 maja 2017
historia internetu w polsce cz.33

Kodowanie polskich liter

 Sposób kodowania było sporo. Poniższa tabelka pokazuje, ze różni producenci i twórcy systemów wymyślali własne sposoby tworząc prawdziwą wieżę Babel. Szkoda tylko, że w ten sposób zniechęca się do używania polskich znaków...

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Standard

Ą

Ć

Ę

Ł

Ń

Ó

Ś

Ź

Ż

ą

ć

ę

ł

ń

ó

ś

ź

Ż

Bazowe litery łacińskie

65

67

69

76

78

79

83

90

90

97

99

101

108

110

111

115

122

122

Dominujące

ISO-8859-2,

ISO LATIN 2, PN-93 T-42118

161

198

202

163

209

211

166

172

175

177

230

234

179

241

243

182

188

191

Windows-1250 (Windows CE)

165

198

202

163

209

211

140

143

175

185

230

234

179

241

243

156

159

191

Unicode

260

262

280

321

323

211

346

377

379

261

263

281

322

324

243

347

378

380

Unicode

(UTF-8)

#84

#86

#98

#81

#83

#93

#9A

#B9

#BB

#85

#87

#99

#82

#84

#B3

#9B

#BA

#BC

Historyczne

CP852

(DOS Latin II)

164

143

168

157

227

224

151

141

189

165

134

169

136

228

162

152

171

190

Mac OS CE

132

140

162

252

193

238

229

143

251

136

141

171

184

196

151

230

144

253

ISO 8859-13 (ISO Latin-7)

192

195

198

217

209

211

218

202

221

224

227

230

249

241

243

250

234

253

ISO 8859-16 (ISO Latin-10)

161

197

221

163

209

211

215

172

175

162

229

253

179

241

243

247

174

191

Windows-1257 Baltic

192

195

198

217

209

211

218

202

221

224

227

230

249

241

243

250

234

253

CP775 (DOS Baltic)

181

128

183

173

227

224

151

141

163

208

135

211

136

231

162

152

165

164

POL 1

128

129

130

131

132

133

134

135

136

160

161

162

163

164

165

166

167

168

ATM

196

199

203

208

209

211

214

218

220

228

231

235

240

241

243

246

250

252

AmigaPL

194

202

203

206

207

211

212

218

219

226

234

235

238

239

243

244

250

251

xJP

198

199

202

206

209

211

213

219

222

230

231

234

238

241

243

245

251

254

Atari-Calamus

193

194

195

196

197

198

199

200

201

209

210

211

212

213

214

215

216

217

CKS

128

129

130

131

132

133

134

136

135

160

161

162

163

164

165

166

168

167

CorelDraw

197

242

201

163

209

211

255

225

237

229

236

230

198

241

243

165

170

186

Cyfro mat

128

129

130

131

132

133

134

136

135

144

145

146

147

148

149

150

152

151

DHN

128

129

130

131

132

133

134

136

135

137

138

139

140

141

142

143

145

144

Elwro-Junior

193

195

197

204

206

207

211

218

217

225

227

229

236

238

239

243

250

249

TEA-Świerk

143

128

144

156

165

153

235

157

146

160

155

130

159

164

162

135

168

145

INTE-ISIS

128

129

130

131

132

133

134

135

136

144

145

146

147

148

149

150

151

152

Logic

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

Microvex

143

128

144

156

165

147

152

157

146

160

155

130

159

164

162

135

168

145

TeXPL1

129

130

134

138

139

211

145

153

155

161

162

166

170

171

243

177

185

187

Ventura Publisher

151

153

165

166

146

143

142

144

128

150

148

164

167

145

162

132

130

135

CP870 (IBM EBCDIC)

#B1

#69

#72

#BA

#BB

#EE

#AA

#B9

#B4

#A0

#49

#52

#9A

#9B

#CE

#8A

#B7

#B2

Mazovia

8F

95

90

9C

A5

A3

98

A1

A0

86

8D

91

92

A4

A2

9E

A7

A6

 

 

 

07:48, de_marcon
Link Dodaj komentarz »
poniedziałek, 15 maja 2017
historia internetu w polsce cz.32

Ogonki w języku polskim

Podstawowym problemem, który szybko się pojawił w polskim Internecie to kodowanie naszych znaków diakrostycznych. Język twórców Internetu to angielski. Korzysta on z czystego alfabetu łacińskiego, który ma 26 liter. Jednak polski ma dodatkowe 9 liter: ą, ć, ę, ł, ń, ó, ś, ż, ź. Zawierają one różne znaki diakrostyczne zwane potocznie ogonkami.

Co ciekawe określenie Ogonek (pochodzące z naszego języka) zostało zapożyczone przez język angielski, holenderski, bretoński, duński, niemiecki, francuski, włoski jako symbol kreseczki na dole litery.

Problem się pojawił w latach 80-tych gdy zaczęto używać maszyn sprowadzanych z zachodu. PC, Spectrum, Atari, Amiga nie były przystosowane do obsługi alfabetów innych niż angielski.

Ale Polak umie sobie poradzić.

  • Początkowo używano języka polskawego. Polegał na zastąpieniu liter polskiego alfabetu ich łacińskimi odpowiednikami. Ą zastępowano a, ę przez e itd.
  • Radzono tez sobie w ten sposób, ze zaznaczano w jakiś sposób polskie litery. Wstawiano wcześniej kreski lub tyldę. Tak więc słowo  "żądanie" pisano: \z\adanie albo z~a~danie.
  • stosowano litery lub znaki podobne do zastępowanych. Tak np. w colonization of new World Sida Meiera słowo żołnierze pisano jako zoknierze. Przy użytej w tej grze czcionce nie widać był różnicy pomiędzy ł a k.

 Rodziło to jednak nieuniknione problemy. Nie wiadomo było czy mówimy o kacie czy o kącie. Rodziło to potworki typu lodz zamiast łódź. Skutkiem tego było ignorowanie i niechęć do polskiej ortografii traktowanej jako balast w epoce Internetu.

 Rozwiązanie

Rozwiązaniem było uwzględnienie w sposobie kodowania znaków polskich liter. Nie dało się tego zrobić w zbiorze podstawowym ASCII. 128 znaków kodowanych 7-bitami było zarezerwowane na podstawowe litery, cyfry i symbole. Jednak użycie 8 bitu dało dwa razy więcej , bo 256 znaków.

Język polski doczekał się bogatej kolekcji rożnych kodowań polskich znaków. Ich zestawienie jest widoczne w załączniku nr 3.

Norma ISO 8859 zawiera 16 zestawów znaków uwzględniających rożne sposoby kodowania. Język polski jest obecny w ISO 8859-2 przeznaczonym dla Europy Środkowej i ISO 8859-13 dla krajów bałtyckich. Ten drugi zestaw zawiera dodatkowo poprawne cudzysłowy tzw. drukarskie.

W dodatku uzyskanie polskich liter nie było łatwe w MS-DOSie, Uniksie czy OS/2. Musiano instalować różne rozszerzenia i nauczyć się jak wygląda klawiatura maszynistki.

 Polska norma

Sytuację miał ustabilizować uchwalenie polskiej normy nr PN-93 T-42118 . Była ona zgodna z ISO 8859-2, więc ten zestaw powinien być obowiązującym.

Jednak problemem był Microsoft. Nie wdrożył uzgodnionego standardu kodowania, ale wprowadził własny. W większości liter się zgadzał z ISO 8859-2, ale kilka liter było inaczej kodowanych (ą,ś,ź, Ą, Ś, Ź). Ponieważ jego system operacyjny MS Windows został liderem na rynku, więc jego kodowanie stało się powszechne. W samym Windows nie miało to wielkiego znaczenia, ale szybko problem pojawił się w Internecie i przy współpracy z systemami uniksowymi.

 Wiele stron źle wyświetlało polskie znaki. Szczególnym problemem było to dla początkujących webmasterów, którzy tworzyli je w prostych edytorach (jak Notatnik) w MS WIndows i zapominali umieścić w nagłówku strony informacji o kodowaniu. Strony umieszczane na serwerach uniksowych wyświetlały rożne krzaczki.

Jeszcze ciekawiej wyglądał sprawa w wypadku stron zakodowanych w CP-1252. Polskie litery były zastępowane kombinacją typu &+numer w CP-1250. Tak więc ą zapisywano jako Ù.

 Unikod

Potrzebne były rozwiązania zarówno organizacyjne jak i społeczne.

Użytkownicy wystosowywali apele do internautów, by używali polskich liter. Mimo oporu i problemów technicznych, pod koniec lat 90-tych udało się to rozwiązać. Właściciele MS Windows, Unix i Linux zaczęli używać ą i ę. Obecnie przeglądarki i programy dostępne na rynku polskim radzą sobie dobrze z rożnymi sposobami kodowania.

Skutecznym sposobem rozwiązania tych problemów było wprowadzenie Unicode. W założeniu ma obejmować wszystkie alfabety i sposoby zapisu znaków. Najbardziej obszerny sposób zapisu UTF-32 zapisuje znaki na 32 bitach, co pozwoli na zapisanie ponad 4 miliardów liter, cyfr i symboli.

Przy poczcie elektronicznej zaczęto stosować MIME. To skrót od Multipurpose Internet Mail Extension - Wielozadaniowe rozszerzenie poczty w Internecie,. Jest to standard pozwalający przesyłać w sieci Internet wszelkie dane (teksty, grafikę, zdjęcia, dźwięki, muzykę, programy) za pomocą standardowych narzędzi, takich jak poczta, newsy czy WWW. Jest to standard we wszystkich usługach Internetu, których podstawowym zadaniem jest przesyłanie tekstu.

 

 Pisanie polskawymi literami jest odbierane jako oznaka lekceważenia. Tak samo jest z błędami ortograficznymi.

 Do sprawdzenia, czy dana czcionka obsługuje polski język używa się zdania: „Zażółć gęślą jaźń”. To zdanie zawiera wszystkie polskie lokalizowane litery.

 Polska strona ogonkowa

http://www.ogonki.agh.edu.pl/

 

 

 

 

 

07:58, de_marcon
Link Dodaj komentarz »
poniedziałek, 08 maja 2017
historia internetu w polsce cz.31

Nasza klasa

piątek, 28 kwietnia 2017
historia internetu w polsce cz.30
Fenomeny polskiego Internetu
poniedziałek, 08 lutego 2016
środa, 21 października 2015
historia internetu w polsce cz.28

Wirusy i hakerzy

poniedziałek, 25 lutego 2013
historia internetu w polsce cz.27
Gadu Gadu
środa, 02 listopada 2011
Internet jako rozszerzenie ludzkiego mózgu cz. 4
Co w przyszłości
Internet jako rozszerzenie ludzkiego mózgu cz. 3
Jak nas wyręcza Internet.
Internet jako rozszerzenie ludzkiego mózgu cz. 2
Jakie są fizyczne granice naszych możliwości?
 
1 , 2 , 3 , 4 , 5
Tagi

Inne moje strony i blogi