#! /bin/gawk -f
# Last edited on 2004-02-18 10:38:26 by stolfi

BEGIN {
  abort = -1;
  usage = ( "reencode-words-greek-for-tex \\\n" \
    "  [ -v field=NUM ] \\\n" \
    "  < INFILE.wct > OUTFILE.tex" \
  );

  # Assumes that field number FIELD of the input is a 
  # word in ad-hoc Greek encoding, 
  # possibly factored into letters by braces "{}"
  # Allows both expanded and condensed encodings:
  #
  #   eh К  (eta)   th П  (theta)    ch q   (chi)
  #   ph f  (phi)   ow Т  (omega)    ps Г ъ (psi)
  # 
  # Does not allow for breathings, final sigma, or other discritics.
  # Adds `\' in front of braces, maps letters to TeX math-greek sequences
  # (Should use Greek font instead, but...).

  if (field == "") { arg_error("must specify \"field\""); }
}

(abort >= 0) { exit abort; }

/^ *([#]|$)/ { print; next; }

/./ { 
  if (NF < field) { data_error("bad NF"); }
  w = $(field);
  if (w !~ /^[-*{}a-ik-uwxzКТПГA-IK-UWXZктпг]+$/)
    { data_error(("bad word \"" w "\"")); }
  w = reencode_greek_for_tex(w);
  $(field) = w;
  print; next;
}

function reencode_greek_for_tex(wd)
{
  w = wd;
  # Protect special characters:
  gsub(/[{]/,  "\\{", w);
  gsub(/[}]/,  "\\}", w);
  gsub(/[\#]/, "\\#", w);  # Just in case
  gsub(/[&]/,  "\\&", w);  # Just in case
  gsub(/[$]/,  "\\$", w);  # Just in case
  gsub(/[%]/,  "\\%", w);  # Just in case
  # Put a marker in front of each letter to identify unmapped ones:
  w = gensub(/(.)/, "Ї\\1", "g", w);
  # Map lowercase letters to TeX escapes:
  gsub(/[Ї][a]/,        "\\alpha", w);
  gsub(/[Ї][b]/,        "\\beta", w);
  gsub(/[Ї][c][Ї][h]/,  "\\chi", w);
  gsub(/[Ї][Г]/,        "\\psi", w);
  gsub(/[Ї][d]/,        "\\delta", w);
  gsub(/[Ї][e][Ї][h]/,  "\\eta", w);
  gsub(/[Ї][e]/,        "\\epsilon", w);
  gsub(/[Ї][К]/,        "\\eta", w);
  gsub(/[Ї][f]/,        "\\psi", w);
  gsub(/[Ї][g]/,        "\\gamma", w);
  gsub(/[Ї][i]/,        "\\iota", w);
  gsub(/[Ї][k]/,        "\\kappa", w);
  gsub(/[Ї][l]/,        "\\lambda", w);
  gsub(/[Ї][m]/,        "\\mu", w);
  gsub(/[Ї][n]/,        "\\nu", w);
  gsub(/[Ї][o][Ї][w]/,  "\\omega", w);
  gsub(/[Ї][o]/,        "\\omicron", w);
  gsub(/[Ї][Т]/,        "\\omega", w);
  gsub(/[Ї][p][Ї][h]/,  "\\phi", w);
  gsub(/[Ї][p][Ї][s]/,  "\\psi", w);
  gsub(/[Ї][p]/,        "\\pi", w);
  gsub(/[Ї][q]/,        "\\chi", w);
  gsub(/[Ї][r]/,        "\\rho", w);
  gsub(/[Ї][s]/,        "\\sigma", w);
  gsub(/[Ї][t][Ї][h]/,  "\\theta", w);
  gsub(/[Ї][t]/,        "\\tau", w);
  gsub(/[Ї][П]/,        "\\theta", w);
  gsub(/[Ї][u]/,        "\\upsilon", w);
  gsub(/[Ї][x]/,        "\\xi", w);
  gsub(/[Ї][z]/,        "\\zeta", w);
  # Ditto for uppercase 
  gsub(/[Ї][A]/,        "\\Alpha", w);
  gsub(/[Ї][B]/,        "\\Beta", w);
  gsub(/[Ї][C][Ї][hH]/, "\\Chi", w);
  gsub(/[Ї][г]/,        "\\Psi", w);
  gsub(/[Ї][D]/,        "\\Delta", w);
  gsub(/[Ї][E][Ї][hH]/, "\\Eta", w);
  gsub(/[Ї][E]/,        "\\Epsilon", w);
  gsub(/[Ї][к]/,        "\\Eta", w);
  gsub(/[Ї][F]/,        "\\Psi", w);
  gsub(/[Ї][G]/,        "\\Gamma", w);
  gsub(/[Ї][I]/,        "\\Iota", w);
  gsub(/[Ї][K]/,        "\\Kappa", w);
  gsub(/[Ї][L]/,        "\\Lambda", w);
  gsub(/[Ї][M]/,        "\\Mu", w);
  gsub(/[Ї][N]/,        "\\Nu", w);
  gsub(/[Ї][O][Ї][wW]/, "\\Omega", w);
  gsub(/[Ї][O]/,        "\\Omicron", w);
  gsub(/[Ї][т]/,        "\\Omega", w);
  gsub(/[Ї][P][Ї][hH]/, "\\Phi", w);
  gsub(/[Ї][P][Ї][sS]/, "\\Psi", w);
  gsub(/[Ї][P]/,        "\\Pi", w);
  gsub(/[Ї][Q]/,        "\\Chi", w);
  gsub(/[Ї][R]/,        "\\Rho", w);
  gsub(/[Ї][S]/,        "\\Sigma", w);
  gsub(/[Ї][T][Ї][hH]/, "\\Theta", w);
  gsub(/[Ї][T]/,        "\\Tau", w);
  gsub(/[Ї][п]/,        "\\Theta", w);
  gsub(/[Ї][U]/,        "\\Upsilon", w);
  gsub(/[Ї][X]/,        "\\Xi", w);
  gsub(/[Ї][Z]/,        "\\Zeta", w);
  # Sanity check:
  if (w ~ /[Ї]/) { data_error(("bad word \"" wd "\"")); }
  return w;
}

function arg_error(msg)
{ 
  printf "%s\n", msg > "/dev/stderr";
  printf "usage: %s\n", usage > "/dev/stderr";
  abort = 1; exit 1;
}

function data_error(msg)
{ 
  printf "line %d: %s\n", FNR, msg > "/dev/stderr";
  abort = 1; exit 1;
}