Fiddled with the right-probability table, obtaining the following clustering ----- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- c z q c z c c z q o q e o c z c c c c c c z o H o o c H q q q q o c c c c c c c z c c c H c H H c c q o o o o o o o H T c c H H H H c c c c c c c c c c c o H q 8 H H 8 H H 8 H H z c O / c c c c c c c c 8 8 8 8 8 c 8 8 8 H a o o a a a a a a a a a a o c T / a a a a a a a a a a a a a a a a a a n e e r r r e e e m m m m r a -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ // 20 || | | | | | | | | || | || 1| 3| 1| | || || | 1 | | 1| 1 1 1| | | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ cccca 25 || | | | | | | 3| | 3|| | || | | | 3| 3 || || | | | 3 | 3 6 | | | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ zccca 52 || | | | 4| | | | | || | || 8| | 4| | || || | 4| 4 | 4 4| 8 | 8| | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ cccHca 49 || 7| | | | 1| | | | 1|| | 1|| | 1| 3| | 1 1|| 7|| 3| | 1 | 3| 1 1 1 | 1| | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ zccHca 27 || | | | 2| | | | | || | 2|| 8| | 2| 2| || 2|| 2| | | | 2| | | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ ccccHca 34 || | | | | | | | | || | || | 2| | | 2|| 5|| 2| | 2 | 5 8| | 2| | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ zcccHca 54 || | | | | | | | 3| 3|| | || 6| 6| 3| | || 3|| | 3 3| 3| 3 3 9| 3 | | | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ ccca 37 || 5| | | | | | | | || | || 1| 4| 1| | 2 || 2|| 1| 2 1| 1 1 1| | 1 2 1| | 1| -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ zcca 39 || 4| | | | | | | | || | 1 1|| 5| 4| 1| | 1 || 4|| 1| 2| 1 1| | 1 5 | | | =====++==+==+==+==+==+==+==+==+==++==+=====++==+==+==+==+=====++==++==+=====+========+========+===========+==+==+ zccc8a 58 || | 2| | | | | | | || | 2 || 8|13| 5| | 2 || || | 8 2| 2| 2| 2 2 | | | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ ccc8a 46 || 6| | | | 1| | | | || | 2 || 5| 2| 2| 1| 1 || || 2| 4 | 3| 3| 1 2 | | | zcc8a 49 || 4| | | | | | | | 1|| | 2 2|| 7| 6| 1| 1| || 2|| | 3 2| | 1| 5 | | | =====++==+==+==+==+==+==+==+==+==++==+=====++==+==+==+==+=====++==++==+=====+========+========+===========+==+==+ qoHc8a 51 || 3| | | 1| | | | | || | 4 4|| 7| 7| 1| 3| 1 1|| 2|| 1| 2 1| 1 1 | 1 1 3| | | | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ qoHcc8a 48 || 2| | | | | 1| | | || | 3 1|| 8| 4| 2| 1| 2 2|| 1|| 1| 1 | 1 2| 4| 1 1 2 | | | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ qoHcca 49 || 3| | | | | | | | || | 3 3|| 7| 2| 1| 1| 1 2|| 1|| 1| 1| 1 | 1 1 3| 2 2 | 1| 4| -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ oHc8a 43 || 3| 1| | | 1| | | | || 1| 1 4|| 9| 2| | 4| 2 || 2|| | 1 1| 1| 1 1| 1 | | 1| -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ eccc8a 51 ||17| | | 1| | | | 1| || | 1 5|| 3| 5| | | || 5|| | 1| | | 5 | | | oHcc8a 51 || 8| | | | | | | | 1|| | 3 5|| 5| 5| | 3| || 7|| | 1 1| 1| 1 1| | 1| | =====++==+==+==+==+==+==+==+==+==++==+=====++==+==+==+==+=====++==++==+=====+========+========+===========+==+==+ qoHa 60 ||25| | | 1| | | | 1| 1|| | 3 1|| 2| | | | 2 2|| 1|| | 2 | 1| 3| 5 1 3| | | =====++==+==+==+==+==+==+==+==+==++==+=====++==+==+==+==+=====++==++==+=====+========+========+===========+==+==+ qoHan 61 || 1| 1| 1|11| 1| | 1| 3| || 1| 5 1|| | | | 3| || || 1| 1| 5 1 | 3 1 | 1 3 | 1| | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ qoe 55 ||11| 1| 2| | | | 1| 2| || 2|11 7|| | | | 1| || || | 2 3| 1 | 1| 2 1| 1| 1| oe 50 ||12| 1| 1| 1| | | | 1| || 2| 4 7|| | | | | 2|| 1|| | 1| | | 2 | | | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ 8ar 50 || 9| | | | 1| 1| | | 3|| | 1 7|| | | 1| | || || | 7| 1 1 1| 1 | 1 1 | 1| | oHar 54 || 2| | | | | | | | 2|| | 8 11|| 2| | | 8| || || | 5| 5 2 | 2 | | | | qoHar 54 || 2| | | 4| 2| 2| | 2| 4|| 2| 4 14|| | | | | 2|| || | 8| 2 | 2| | 2| | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ 8ae 53 ||15| | | 1| | | | | || 1| 3 7|| 1| | | | 3 || || | 1 1| 1 | 1 | 3 | 3| | oHae 46 ||10| | 2| 2| | | | | 2|| 2|10 2|| | | | | 2|| || | 2| 2 | 5 | | | | qoHae 51 || 7| | | 2| | | 2| 1| 1|| | 7 6|| | | | | || || | 1 | 4 | 2 1| 1 | | | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ 8am 49 ||10| | | 1| 2| 2| 1| 6| 4|| | 2 4|| | | | 2| || || | 2| 1 | 1 | 1 2 | | | oHam 37 || 8| | | 5| | | | 2| || | 2 8|| | | | 5| 2|| || | 2| | | | | | qoHam 49 || 5| | | 2| 5| 5| 1| 2| || | 5 6|| 1| 1| | 1| 1|| || | 1| 1| 1 1 1| 1 2 2| | | zam 51 || 9| | | | 3| | 3| 3| 6|| 3| 6 6|| | | | | || || | 3 | | 3 | 3 | | | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ or 37 || 7| | 2| | | 2| | 4| || 2| 2 7|| | | | | || || | 2| | | | 4| | -----++--+--+--+--+--+--+--+--+--++--+-----++--+--+--+--+-----++--++--+-----+--------+--------+-----------+--+--+ oHcca 32 || 2| | | 2| | | | | || | || | | 2| | 2 || || | 5 2| 2| 2| 2 2 | | | =====++==+==+==+==+==+==+==+==+==++==+=====++==+==+==+==+=====++==++==+=====+========+========+===========+==+==+ TOT 44 ||10| | | | | | | | || | 2 2|| 2| 2| 1| 1| || 1|| | 1 1| | 1| 1 1 | | | It seems that the ending of one word determines somewhat the beginning of the next one. Here is the same table, with independent clustering of rows and columns: ----- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- c z q c z c c z q o q o e c z c c c c c c z o H o q q q q o H o c c c c c c c c z c c c H c q H o o o o o o o H c H c T c c H H H H c c c c c c c o q c H H H H 8 8 8 H H H c c c z c O / c c c c c c c c 8 8 8 8 8 H o c a a a a a a a a a a 8 8 c a 8 o o T / a a a a a a a a a a a a a a e a e m n r r m e e r m a a a m a e r -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ // 20 || | | | | | | | | | | || 1| 3| | 1| 1| 1 1 | 1 | | | | 1| | | | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ oHcca 32 || 2| | | 2| | | | | | | || | | | 5| 2| 2 2 2| 2 | | | | | 2| 2| | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ zccca 52 || | | | 4| | | | | | | || 8| | | | 4| 4 8 | 4| 4 | | | | | 4| 8| -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ zccHca 27 || | | | 2| | | | | | | 2|| 8| | 2| | 2| 2 | | | 2 | | 2| | | | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ zcccHca 54 || | | | | | | | 3| 3| | || 6| 6| 3| 3| 3| 9 3| 3 3| 3 | | | | | 3| | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ cccca 25 || | | | | | | 3| | 3| | || | | | | | 6 | 3 3| | 3 | | | 3| | | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ cccHca 49 || 7| | | | 1| | | | 1| | 1|| | 1| 7| | 3| 3 1 3 | 1 | 1 1| 1| | | 1| | 1| -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ ccccHca 34 || | | | | | | | | | | || | 2| 5| | | 8 2 | 2 | 5 | 2| | | | | 2| -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ ccca 37 || 5| | | | | | | | | | || 1| 4| 2| 2| 1| 2 1 1| 1 1 | 1 | | 1| 1| 2| 1| | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ zcca 39 || 4| | | | | | | | | | 1 1|| 5| 4| 4| | 1| 5 1 1| 1 1 | | | | | 1| 2| | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ zccc8a 58 || | 2| | | | | | | | | 2 || 8|13| | 8| 5| 2 2 2| 2 | | | | | 2| 2| | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ ccc8a 46 || 6| | | | 1| | | | | | 2 || 5| 2| | 4| 2| 3 2 2 3| 1 | | 1 | | | 1| | | zcc8a 49 || 4| | | | | | | | 1| | 2 2|| 7| 6| 2| 3| 1| 1 5 | | | 1 | | | | 2| | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ qoHc8a 51 || 3| | | 1| | | | | | | 4 4|| 7| 7| 2| 2| 1| 3 1 | 1 1| 1 1 | 3 1| | | 1| 1| | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ qoHcc8a 48 || 2| | | | | 1| | | | | 3 1|| 8| 4| 1| 1| 2| 4 2 1 2| 1 1 | 1| 1 2| | | 2| | | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ qoHcca 49 || 3| | | | | | | | | | 3 3|| 7| 2| 1| | 1| 3 2 1 | 1 2 1| 1 | 1 2| 4| | 1| 1| 1| -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ oHc8a 43 || 3| 1| | | 1| | | | | 1| 1 4|| 9| 2| 2| 1| | 1 1| | 1 1| 4 | 1| | 2| 1| | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ eccc8a 51 ||17| | | 1| | | | 1| | | 1 5|| 3| 5| 5| | | 5 | | | | | | | 1| | oHcc8a 51 || 8| | | | | | | | 1| | 3 5|| 5| 5| 7| 1| | 1 1| | 1 | 3 | | | | 1| 1| =====++==+==+==+==+==+==+==+==+==+==+=====++==+==+==+==+==+===========+========+========+=====+==+==+==+==+==+ qoHa 60 ||25| | | 1| | | | 1| 1| | 3 1|| 2| | 1| 2| | 3 1| 5 | 1| 2| | 3| 2| | | =====++==+==+==+==+==+==+==+==+==+==+=====++==+==+==+==+==+===========+========+========+=====+==+==+==+==+==+ qoHan 61 || 1| 1| 1|11| 1| | 1| 3| | 1| 5 1|| | | | | | 1 | 5 1 3| 1 1 3| 3 | | | | 1| 1| -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ qoe 55 ||11| 1| 2| | | | 1| 2| | 2|11 7|| | | | 2| | 1 | | 1 2| 1 | 1| 1| | 3| 1| oe 50 ||12| 1| 1| 1| | | | 1| | 2| 4 7|| | | 1| | | | | 2| 2| | | | 1| | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ 8ar 50 || 9| | | | 1| 1| | | 3| | 1 7|| | | | | 1| 1 1| 1 | 1 1 1| | | | | 7| 1| oHar 54 || 2| | | | | | | | 2| | 8 11|| 2| | | | | | 5 2| 2 | 8 | | | | 5| | qoHar 54 || 2| | | 4| 2| 2| | 2| 4| 2| 4 14|| | | | | | 2 | | 2 | 2| | | | 8| 2| -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ 8ae 53 ||15| | | 1| | | | | | 1| 3 7|| 1| | | 1| | | 1 3 1| | | | | 3| 1| 3| oHae 46 ||10| | 2| 2| | | | | 2| 2|10 2|| | | | | | | 2 5| | 2| | | | 2| | qoHae 51 || 7| | | 2| | | 2| 1| 1| | 7 6|| | | | 1| | 1 | 4 1 2| | | | | | | | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ 8am 49 ||10| | | 1| 2| 2| 1| 6| 4| | 2 4|| | | | | | | 1 | 1 1 2| 2 | | | | 2| | oHam 37 || 8| | | 5| | | | 2| | | 2 8|| | | | | | | | | 5 2| | | | 2| | qoHam 49 || 5| | | 2| 5| 5| 1| 2| | | 5 6|| 1| 1| | | | 1 2 1| 1| 1 1| 1 1| | 2| | 1| | zam 51 || 9| | | | 3| | 3| 3| 6| 3| 6 6|| | | | 3| | | 3 3| | | | | | | | -----++--+--+--+--+--+--+--+--+--+--+-----++--+--+--+--+--+-----------+--------+--------+-----+--+--+--+--+--+ or 37 || 7| | 2| | | 2| | 4| | 2| 2 7|| | | | | | | | | | | | | 2| 4| =====++==+==+==+==+==+==+==+==+==+==+=====++==+==+==+==+==+===========+========+========+=====+==+==+==+==+==+ TOT 44 ||10| | | | | | | | | | 2 2|| 2| 2| 1| 1| 1| 1 1 | 1 | | 1 | | | | 1| | Again, with more columns and rows: row probabilities ---- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- c z o q c c c z z c e e o e o q q c c c c z o c c c c z c z H o c q q H o q q q o q c c c c z c c H c c c c c c c o o o o c H c H q o o c H o o o H o T H H c c c c c c c c z H H c z c c o H H H H c c o c 8 8 8 c q o H H c c H H H c H O / c c c c c 8 8 8 8 8 a c c c o 8 8 H a a a c 8 c o e 8 o 8 a a a 8 o H a a 8 8 a a c c o T / a a a a a a a a a a m a a a e a a a e m r a a a e a a r a e m r a e a e m a a n r a a e ---- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- // 27 . . . . . . . . . . . 3 . . . 1 . . . . . . . . . . . . . . . 2 . . 1 . 1 3 3 1 . . . 1 . 8a 71 31 2 2 . . 2 . . 2 . . . . . . . 2 . . . . . . . . . . . . . . 8 . . 2 . 5 . 2 2 . 2 . . . oHa 55 27 . . . . 3 . . 3 . . . . . . . . . . . . . . . . . . . . 3 3 . 3 . . 3 . . . . . . 3 . . oea 99 78 . . . . 8 . . . 4 . . . . . . . . . 4 . . . . . . . . . . . . . . . . . . 4 . . . . . . qoHa 65 25 1 . . 1 1 3 1 . . . 3 . . . . 2 . . . 2 . . 2 . . . . . . . 6 . . 2 1 3 1 . 2 . 1 . . 1 Hc8a 63 7 . . . . . 7 . 7 . . . . . . . 3 . . . 3 . 3 . . 3 . . . . 3 . 7 . . . . . . 7 . . . 3 . oeccc8a 69 26 . 4 . . . . . 4 . . . . . . . . . . . . . 4 . . . . . . . . 4 . . 4 . 4 8 8 . . . . . . ezcc8a 57 14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 . 4 . 4 9 . 4 9 . . . . . 4 eccc8a 51 17 1 . . 1 . 1 5 . . . . . . . . . . . . . . . . . 1 . . . . . . . . . 5 . 5 5 3 . . . . . cccc8a 68 10 . . 5 . . . . 5 . . . . . . . 5 . . . . . . . . . . . . . . . . . 5 . 10 10 15 . . . . . . zccc8a 63 . . . 2 . . 2 . . . . . . . . . 2 . . . 2 . . . . 2 . . . . . 2 . . 8 . 2 5 13 8 . 2 . 5 . cccHca 57 7 . . . . 1 . 1 . . . . 1 . . . 1 . . . 1 1 1 1 . . . . 1 . . 1 . . . 7 3 7 1 . 3 . . 3 . zccHca 35 . 2 . . . . . 2 2 . . 5 . . . . . . . . . . . . . . . . . . . . . . . 2 . . . 8 2 . 5 2 . ccccHca 51 . . . . . . . . . . . . . . . 2 . 2 . 5 2 . . 2 . . . 2 2 . . . 2 . . 5 8 5 2 . 2 . . . . zcccHca 64 . . . . 3 3 . . . . . . . . . . . . . 3 . . . . . 3 . . . . 3 3 . . 3 3 9 9 6 6 . 3 . 3 . oHca 47 4 . . . . . . . . . . . . . . . 4 . . . 4 . . . . . . . . 4 4 . 4 . . . . . . 9 4 . 4 . . qoHca 72 4 2 . . . . . . 4 . . 2 2 . . 2 . 6 . . . 2 . . 2 2 . 2 2 . . 2 . 2 2 6 6 4 . 4 2 . . 2 . oHcca 49 2 2 . . . . . . . . . . . . . . 2 . 5 . 2 . . . . 2 2 . . . . 2 . . 5 . 2 5 . . . 2 . 2 2 qoHcca 58 3 . . . . . 3 3 1 . . . . . . . 1 1 1 1 2 . . 2 4 1 . . 1 . 1 2 1 . . 1 3 3 2 7 1 . 2 1 . cccca 35 . . . . . 3 . . 3 . . . . 3 . . 3 . . . . . . . . . . . . . 3 3 . . . . . 12 . . . . 3 . . zccca 60 . 4 . . . . . . . . . . . . . . . . . . . 4 . . . 4 . . 8 . 4 . . . . . 4 17 . 8 . . . 4 . ccca 43 5 . . . . . . . . . . 1 . . . . 2 . . . . 1 . . 1 1 . . . . . 1 1 . 2 2 . 8 4 1 1 1 . 1 . zcca 50 4 . . . . . 1 1 . . . . . . . . 1 1 . . . . . . . 2 . . . . . 1 1 . . 4 . 11 4 5 1 1 2 1 1 oHc8a 54 3 . . 1 . . 1 4 4 . 1 . 1 . . 1 2 1 . 1 1 . 1 . 1 1 1 1 . 1 . . . 3 1 2 1 . 2 9 . 1 . . . qoHc8a 57 3 1 . . . . 4 4 3 . . . . . . . 1 . . 1 1 1 . 1 . 1 . . . . 1 1 1 . 2 2 3 . 7 7 1 . 1 1 . oHcc8a 53 8 . . . . 1 3 5 3 . . . . . . . . . . 1 . . . . . 1 . . 1 . . . . . 1 7 1 . 5 5 . 1 1 . . qoHcc8a 57 2 . 1 . . . 3 1 1 . . . . . . . 2 . 1 . 1 . . 2 . . 1 . . 1 . 1 1 . 1 1 4 3 4 8 1 2 1 2 1 ccc8a 57 6 . . . . . 2 . 1 . . . 1 . . . 1 . 1 . . . . . . . . . . 1 . 1 . . 4 . 3 6 2 5 2 3 1 2 . zcc8a 58 4 . . . . 1 2 2 1 . . . . . . . . . . . . . . . . 2 . . . . . . . . 3 2 1 9 6 7 . . . 1 1 8ae 57 15 1 . . . . 3 7 . . 1 . . . . . 3 . . . . . . . . 1 . 3 3 . 1 3 1 . 1 . . . . 1 . . . . . oHae 56 10 2 . . . 2 10 2 . . 2 . . . 2 . . . . . . . . 2 . 2 . . . 2 5 2 2 2 . . . 2 . . . . . . . qoHae 58 7 2 . . 1 1 7 6 . . . . . 2 . . . . . . . . . . . . . 1 . 1 2 3 4 . 1 . 1 . . . . . . . . oe 56 12 1 . 1 1 . 4 7 . . 2 . . . 1 . . . . . 2 . . 2 . 1 . . . . . 2 . 2 . 1 . . . . . . . . . qoHoe 42 . . . . 4 . . 14 4 4 4 . . . . . . . . . 4 . . 4 . . . . . . . . . . . . . . . . . . . . . qoe 61 11 . . 1 2 . 11 7 1 4 2 1 . 1 2 . . . . . 2 1 . . 1 3 . . 1 1 . . . . 2 . 1 . . . . . . . . zoe 59 . . . 3 7 3 7 11 . 3 3 . . . 3 . . 3 . . . . . . . 3 . . 3 . . . . . . . . . . . . . . . . 8am 58 8 . 1 . 7 2 3 3 2 . . . 1 . . . . . . . 2 . . . . 4 . . . 2 . 3 . . . . . . . . . . . . . oHam 43 3 3 . . 1 2 1 6 2 . . . . 2 . 1 . . . 2 3 2 . 1 . 3 2 . . . . . . . . . . . . . . . . . . qoHam 54 2 3 4 . 1 1 7 5 . . . . 2 . . . . . . 1 2 . . 1 . 2 . . . 1 . . . . . . . 1 . . . . . . . zam 53 5 . 1 . 1 3 5 7 . . 1 . 1 1 1 . . . 1 . 1 . . . . 3 3 . . . 1 1 . . 1 . . . . . 1 . . . . qoHan 62 1 11 . 1 3 . 5 1 3 1 1 . 1 1 1 . . . . 1 3 1 . . . 1 . . 1 . 3 1 5 . . . . . . . 1 . . . . 8ar 56 9 . 1 . . 3 1 7 . . . 1 1 . . . . . . 1 1 1 1 . . 7 . 1 1 . . . 1 . . . . 1 . . . 1 . 1 . oHar 62 2 . . . . 2 8 11 8 2 . . . . . . . . . . 2 2 2 . . 5 . . . . 2 . 5 . . . . . . 2 . . . . . qoHar 60 2 4 2 . 2 4 4 14 . . 2 . 2 . . . . . . . . 2 . 2 . 8 . 2 2 2 . . . . . . 2 . . . . . 2 . . or 39 7 . 2 . 4 . 2 7 . . 2 . . . 2 . . . . . . . . . . 2 2 . 4 . . . . . . . . . . . . . . . . ---- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- TOT 50 5 . . . . . 2 3 1 . . . . . . . . . . . 1 . . . . 1 . . . . . 1 . . 1 1 1 3 2 3 . . . 1 . col probabilities ---- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- c z o q c c c z z c o e e e q o q c c c c c z c c c z o H o c c z q q q q o q H o q c c c c c c c c z c c c o o o H o c H c H c c q o o o o H o c H o T c H c c H c z c H c c H c z o H H H c H c c o c 8 8 8 c c c o H H H H c H c c H q O / 8 c c 8 c c a 8 c c 8 c c o H a a a 8 c 8 c o e 8 o 8 a a a 8 8 8 H a a a a 8 c 8 c o o T / a a a a a a m a a a a a a e a e m r a a a a e a a r a e m r a a a a e m n r a a a a e e ---- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- // 5 . 2 . 1 . . 3 44 . . 2 11 . 4 59 . 2 . . 3 . . 5 . . 4 2 . 5 19 7 . 5 9 2 7 11 9 4 7 13 15 16 14 12 8a 0 1 . 1 . . 2 . . . . 1 . . . . . . . . 1 . . . . . . . . . 2 . . 1 . . 1 . . 2 . . . . . 1 oHa 0 . . . . . . . . . . 1 . . . . . . . . 1 . . . . . . . 2 1 . 1 . . . 1 . . . . . 2 . . . . oea 0 2 . . . 5 . . . . . 2 . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . qoHa 1 2 1 1 1 . . . 5 . . 1 . . . . . . 2 . . . 3 . . . . . . . 4 . . 3 . 1 2 . . 2 1 . . . 4 2 Hc8a 0 . 1 . . . . . . . . . . . . . . . 1 . 2 4 . . . . . . . 1 . 3 . 1 . . . . . . 1 . . 1 . . ezcc8a 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . 1 . . . 2 . . . . . . 1 . 4 1 eccc8a 0 1 . 1 1 . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . 3 . 1 . . 1 . 1 . . . oeccc8a 0 . . . . . 2 . . . . . . . . . . . . . 1 4 . . . . . . . . . . . . . . . . . . . . 1 . . 1 cccc8a 0 . . . . . . 3 . . . . . . . . . . . . 1 . . . . . . . . . . . . 1 . . 1 . . . . . 1 . . 1 zccc8a 0 . . . . . . 3 . . . . . . . . . . 1 . . . . . . . . . . . . . . 1 . . . . . 2 1 . 2 2 . 3 ccccHca 0 . . . . . . . . . . . . . . 3 . 5 1 . . . 1 . . . 4 2 . . . 1 . . 4 2 2 . 1 . . . . . . . zcccHca 0 . . . 1 . . . . . . 1 . . . . . 2 . . . . . . . . . . . 1 . . . . . 1 2 1 . 2 1 . 1 1 . 1 cccHca 0 . . . . . . . . . 2 1 . . . . . . 1 2 . 4 1 . . . . 2 . . . . . 1 . 5 1 1 3 . . . . 2 . . zccHca 0 . . 1 . . . . 3 . . . . . . . . . . . 1 . . . . . . . . . . . . . . 1 . . 1 . 1 4 . 1 . . oHca 0 . . . . . . . . . . . . . . . . . 1 . . . . . . . . . 2 1 . 1 . 1 . . . . 1 . 1 2 . . . . qoHca 0 . . 1 . . . . 1 . 2 . . . . 3 . . . 2 2 . . 2 . . 4 2 . . . . 3 . 14 3 2 . 1 . 1 . . 1 . 1 oHcca 0 . . 1 . . . . . . . . . . . . 7 . 1 . . . . . . 4 . . . . . . . 1 . . . . . 2 . . . 1 4 2 qoHcca 1 . 1 . . . . . . 1 . . . . . . 3 2 2 . 1 . 3 11 . . . 2 . 1 1 1 . 1 4 1 2 1 1 . 3 4 1 1 . . cccca 0 . . . . . . . . . . 1 . 3 . . . . . . 1 . . . . . . . . 1 . . . 1 . . . 1 . . . 2 . . . . zccca 0 . . 1 . . . . . . . . . . . . . . . 2 . . . . . . . 4 . 1 . . . . . . . 1 . . 1 . . 1 . . ccca 0 . . . . . . . 1 . . . . . . . . . . 2 . . . 2 . . . . . . . 1 . 3 . 2 . 2 1 2 . . 1 1 . 2 zcca 0 . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . 1 . 1 4 3 . 3 1 2 2 4 1 1 4 . oHc8a 1 . . . . . . 3 . 1 2 . 2 . . 3 . 2 1 . 4 4 . 2 . 4 4 . 2 . . . 11 3 4 2 . . . 2 4 . 1 . . 1 qoHc8a 3 . 4 3 1 . . . . 3 2 1 2 . . . 3 5 2 5 8 4 3 2 1 . 4 . 2 5 1 3 . 3 4 6 5 . 5 . 7 6 7 2 4 4 oHcc8a 0 . 1 . . . . . . 1 . 1 . . . . . 2 . . 2 . . . . . . 2 . . . . . . . 5 . . . 2 1 2 1 . . 1 qoHcc8a 2 . 3 1 1 5 5 3 . . . . . . 4 . 7 2 2 . 2 4 8 . . 8 . . 5 . 2 3 3 9 4 2 7 3 3 10 7 4 4 6 9 2 ccc8a 2 1 2 . . . 2 . . . 8 . . 3 . 3 7 . 1 2 3 . . . . 4 . . 5 . 1 1 . 5 4 1 5 5 7 12 4 6 2 4 4 9 zcc8a 3 1 2 . 2 . 2 . . 2 . 4 . . . 3 . 2 1 . 3 . 1 2 3 . . . 5 3 . . . . 9 6 2 9 3 4 8 . 7 4 14 9 8ae 0 1 1 1 . . . . . 1 . . 2 . . . . . . . . . . . . . 8 4 . 1 1 1 . 3 . . . . . . . . . . . 1 oHae 0 . 2 1 . . . . . . . 1 2 . 4 . . . . . . . 1 . . . . . 2 3 . 1 3 . . . . . . . . . . . . . qoHae 1 1 5 5 2 . 2 . . 3 2 2 2 9 . . . . . 2 . . . 2 . 4 8 2 5 5 3 9 . 1 . 1 1 . . . . . . . . 2 oe 1 2 3 3 2 5 2 6 1 4 . 1 8 . 8 3 . . 3 . 1 . 5 . 1 4 . 2 . 1 2 1 11 1 . 2 . . . 2 . . . . . . qoHoe 0 . . . 1 5 . . . 1 . . 2 . . . . . 1 . 1 . 1 . . . . . . . . . . . . . . . . . . . . . . . qoe 1 1 5 . 2 21 . 3 1 2 . . 5 3 8 . . . 2 2 1 . . 2 2 . . 2 2 . . . . . . . . . . . . . . . . 2 zoe 0 . 1 . 2 5 . 3 . 1 . 1 2 . 4 . . . . . . . . . . . . 2 . . . . . . 4 . . . . . . . . . . . 8am 1 1 2 1 11 5 5 . 1 1 5 4 . 3 . . 3 2 3 2 3 4 . . 3 4 . . 8 . 3 . . . . . . . . . . . . . . . oHam 0 . . 5 1 . . . . 2 . 2 . 6 . 3 . 5 3 5 2 . 1 . 2 8 . . . . . . . . . . . . . . . . . . . . qoHam 3 . 8 13 4 10 28 . 3 5 13 5 2 6 . 3 3 7 7 . 2 9 5 . 4 . 8 . 8 3 . 3 . . . . . 1 . 2 . . . 1 . . zam 0 . 1 . 1 . 2 . . 1 2 2 2 3 4 . 3 . 1 . . . . . 1 8 . . . 1 . . . . . . . . 1 . . . . . . 1 qoHan 0 . 1 11 2 5 . 3 . . 2 . 2 3 4 . . 2 2 2 2 . . . . . . 2 . 3 . 5 . . . . . . 1 . . . . . . . 8ar 0 . . . . . 2 . 1 1 2 2 . . . . . 2 1 2 . 4 . . 3 . 4 2 . . . 1 . . . . . . . 2 . . . 1 . . oHar 0 . 1 . . 5 . . . 1 . 1 . . . . . . 1 2 3 4 . . 1 . . . . 1 . 3 . . . . . . . . . . . . . . qoHar 0 . 1 3 1 . 2 . . 3 2 2 2 . . . . . . 2 . . 1 . 3 . 4 2 2 . . . . . . . . . . . . 2 . . . . or 0 . . . 2 . 2 . . 1 . . 2 . 4 . . . . . . . . . . 4 . 4 . . . . . . . . . . . . . . . . . . ---- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- TOT 50 27 61 71 52 73 68 32 69 55 51 52 58 41 47 91 43 51 52 45 60 52 42 38 45 56 56 47 59 57 62 66 35 63 71 60 56 59 49 56 58 58 56 53 66 67 Tried to recompute the table, collapsing the prefixes and suffixes into categories: --- collapse-words ------------------------ #! /n/gnu/bin/sed -f s/^cc\(..\)$/K\1/g s/^zc\(..\)$/K\1/g s/^ccc\(..\)$/K\1/g s/^zcc\(..\)$/K\1/g s/^cccH\(..\)$/K\1/g s/^zccH\(..\)$/K\1/g s/^ccccH\(..\)$/K\1/g s/^zcccH\(..\)$/K\1/g s/^cccc\(..\)$/K\1/g s/^zccc\(..\)$/K\1/g s/^qoH\(..\)$/Q\1/g s/^qoHc\(..\)$/Q\1/g s/^qoHcc\(..\)$/Q\1/g s/^oH\(..\)$/O\1/g s/^oHc\(..\)$/O\1/g s/^oHcc\(..\)$/O\1/g s/^8\(..\)$/B\1/g ------------------------------------------- cat .keys \ | collapse-words \ | sort | uniq \ > .keys.cooked cat .wds \ | sed -e 's/c?m$/am/g' \ | sed -e '/?/s/^.*$/???/g' \ | collapse-words \ | enum-word-pairs \ | count-diword-freqs -v keyfile=.keys.cooked \ > .baz Here are the results, with 0 and 1 mapped to "." raw pair counts ----- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- e c c q T B B B K K O O O O O Q Q Q Q Q Q c o q z O / a a a 8 c 8 a a a c 8 a a a a c 8 o o H o a T / e m r a a a e m r a a e m n r a a e r a e m ----- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- // 765 . 3 20 4 10 5 3 . . . 2 43 9 24 5 2 19 3 . . 2 10 23 Bae 50 8 . 2 . 7 . . . . . . . . . . . . 2 . 2 . . . Bam 100 9 . 4 . 10 17 3 . 3 . . . . . . . . . 5 . . . 1 Bar 51 5 . . . 6 4 . . . . . . . . . . . . 4 . . . 1 K8a 452 25 2 4 . 17 14 8 2 3 . . 56 12 35 8 10 14 5 7 . 6 20 . Kca 343 11 3 5 3 4 8 4 3 2 3 2 22 9 31 6 3 13 5 5 4 13 3 3 O8a 139 8 . . . 11 3 6 2 . . 2 16 2 . . 2 . 2 2 . 6 2 . Oae 40 4 2 . . 7 3 . . . . . . . . . . . . . . . . . Oam 76 3 . . . 7 8 3 3 3 2 . . . . . . . . 3 . . . . Oar 36 . . . 2 8 . 3 . . . . . . . . . . . 2 . . . . Oca 61 4 . 2 . . . . . 2 . . 2 . 2 . . 2 2 . . . 2 . Q8a 382 10 3 6 4 26 11 16 3 4 2 3 51 14 8 5 5 13 7 2 . 7 6 . Qae 114 9 3 4 5 17 12 . . . . . . 2 . . . . . . . . 2 . Qam 200 5 2 . 2 30 31 5 3 6 . 2 2 . 4 . . . . 6 . . . 2 Qan 54 . 2 . 3 6 12 2 . 2 . . . . . . . . . . . . . . Qar 49 . . . . 11 8 . . . . . . . . . . . . 4 . . . . Qca 132 5 . 3 . 6 2 5 . 2 . 5 11 6 6 2 . 5 . 2 2 6 . 1 eccc8a 52 9 . . . 4 2 . . . . . 6 . 3 . . . . . . 3 . . oe 127 16 . 3 . 22 10 4 . 3 . . . . . . . . . 2 . 2 . 1 or 40 3 . . . 6 4 . . . . . . . . . . . . . 2 . . . qoHa 79 20 . 5 . 4 3 2 . 2 . . 2 3 . . . . 2 . . . 2 3 qoe 81 9 . . . 22 6 . . 2 . . . . . . . . . 3 . . 2 1 zam 52 3 . . . 8 7 . . . . . . . . . . . . 2 . . . . ----- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- --- TOT 7054 765 50 100 51 452 343 139 40 76 36 61 382 114 200 54 49 132 52 127 40 79 81 52 next word probabilities ---- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- e c c q T B B B K K O O O O O Q Q Q Q Q Q c o q z O / a a a 8 c 8 a a a c 8 a a a a c 8 o o H o a T / e m r a a a e m r a a e m n r a a e r a e m ---- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- // 24 . . 2 . . . . . . . . 5 . 3 . . 2 . . . . . 3 Kca 48 3 . . . . 2 . . . . . 6 2 9 . . 3 . . . 3 . . Qca 56 3 . 2 . 4 . 3 . . . 3 8 4 4 . . 3 . . . 4 . . Oca 40 6 . 3 . . . . . 3 . . 3 . 3 . . 3 3 . . . 3 . K8a 55 5 . . . 3 3 . . . . . 12 2 7 . 2 3 . . . . 4 . O8a 48 5 . . . 7 2 4 . . . . 11 . . . . . . . . 4 . . Q8a 53 2 . . . 6 2 4 . . . . 13 3 2 . . 3 . . . . . . eccc8a 53 17 . . . 7 3 . . . . . 11 . 5 . . . . . . 5 . . Bam 54 8 . 3 . 9 16 2 . 2 . . . . . . . . . 4 . . . . Oam 43 3 . . . 9 10 3 3 3 2 . . . . . . . . 3 . . . . Qam 51 2 . . . 14 15 2 . 2 . . . . . . . . . 2 . . . . zam 48 5 . . . 15 13 . . . . . . . . . . . . 3 . . . . Bar 56 9 . . . 11 7 . . . . . . . . . . . . 7 . . . 1 Oar 61 2 2 . 5 22 2 8 . 2 2 2 2 . . . . . . 5 . . . . Qar 59 2 . . . 22 16 2 . . 2 . . 2 . . . 2 . 8 2 . . . Qan 62 . 3 . 5 11 22 3 . 3 . . . . . . . . . . . . . . Bae 53 15 . 3 . 13 . . . . . . . . . . . . 3 . 3 . . . Oae 57 9 4 2 2 17 7 2 . . . 2 . 2 2 . . . . 2 . . . . Qae 53 7 2 3 4 14 10 . . . . . . . . . . . . . . . . . or 39 7 . . . 14 9 . . . . . . . . . . . . 2 4 . . . qoe 61 11 . . . 27 7 . . 2 . . . . . . . . . 3 . . 2 1 oe 54 12 . 2 . 17 7 3 . 2 . . . . . . . . . . . . . . qoHa 64 25 . 6 . 5 3 2 . 2 . . 2 3 . . . . 2 . . . 2 3 ---- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- TOT 49 10 . . . 6 4 . . . . . 5 . 2 . . . . . . . . . prev word probabilities ---- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- e c c q T B B B K K O O O O O Q Q Q Q Q Q c o q z O / a a a 8 c 8 a a a c 8 a a a a c 8 o o H o a T / e m r a a a e m r a a e m n r a a e r a e m ---- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- // 10 . 5 19 7 2 . 2 2 . . 3 11 7 11 9 4 14 5 . 2 2 12 44 K8a 6 3 3 3 . 3 4 5 4 3 2 . 14 10 17 14 20 10 9 5 . 7 24 . O8a . . . . . 2 . 4 4 . . 3 4 . . . 4 . 3 . 2 7 2 . Q8a 5 . 5 5 7 5 3 11 7 5 5 4 13 12 3 9 10 9 13 . . 8 7 . eccc8a 0 . . . . . . . . . . . . . . . . . . . . 3 . . Bae 0 . . . . . . . . . . . . . . . . . 3 . 4 . . . Oae 0 . 3 . . . . . . . . . . . . . . . . . . . . . Qae . . 5 3 9 3 3 . . . 2 . . . . . . . . . 2 . 2 . Bam . . . 3 . 2 4 2 2 3 2 . . . . . . . . 3 . . . 1 Oam . . . . . . 2 2 7 3 5 . . . . . . . . 2 . . . . Qam 2 . 3 . 3 6 9 3 7 7 . 3 . . . . 2 . . 4 . . . 3 zam 0 . . . . . 2 . . . . . . . . . . . . . . . . . Qan 0 . 3 . 5 . 3 . 2 2 2 . . . . . . . . . 2 . . . Bar 0 . . . . . . . 2 . 2 . . . . . 2 . . 3 2 . . 1 Oar 0 . . . 3 . . 2 . . 2 . . . . . . . . . . . . . Qar 0 . . . . 2 2 . . . 2 . . . . . . . . 3 2 . . . Kca 4 . 5 4 5 . 2 2 7 2 8 3 5 7 15 11 6 9 9 3 9 16 3 5 Oca 0 . . . . . . . . 2 . . . . . . 2 . 3 . . . 2 . Qca . . . 2 . . . 3 2 2 2 8 2 5 2 3 . 3 . . 4 7 . 1 oe . 2 . 2 . 4 2 2 . 3 . . . . . . 2 . . . 2 2 . 1 qoe . . . . . 4 . . . 2 2 . . . . . . . . 2 2 . 2 1 qoHa . 2 . 4 . . . . . 2 . . . 2 . . 2 . 3 . . . 2 5 or 0 . . . . . . . . . . . . . . . . . . . 4 . . . ---- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- TOT 49 22 51 60 58 55 50 48 52 49 44 39 56 54 58 53 55 53 59 44 44 59 64 69