Discussion:
dzielenie wyrazów
(Wiadomość utworzona zbyt dawno temu. Odpowiedź niemożliwa.)
Maciek Pli?z??
2011-02-17 12:07:49 UTC
Permalink
W jaki spsosob sprawdzić jak program dzieli wyrazy?
Chciałbym by w plikach logów napisał mi jak on chce dzielić wyrazy.

Czy można uzyc zewnetrznego programu do dzielenia wyrazów w tex-u?
Wojtek Myszka
2011-02-17 13:30:05 UTC
Permalink
On 17 Lut, 07:07, Maciek Pli?z??
Post by Maciek Pli?z??
W jaki spsosob sprawdzić jak program dzieli wyrazy?
\showhyphens{Wyraz}

Wojtek
Maciek Pli?z??
2011-02-17 14:08:39 UTC
Permalink
Post by Wojtek Myszka
On 17 Lut, 07:07, Maciek Pli?z??
Post by Maciek Pli?z??
W jaki spsosob sprawdzić jak program dzieli wyrazy?
\showhyphens{Wyraz}
a jak tego uzywac?
napisalem jak wyzej
dalem \bye i nie podzielil mi wcale. Uzylem tex plik.tex
Krzysztof Bieniasz
2011-02-17 15:11:18 UTC
Permalink
Post by Maciek Pli?z??
Post by Wojtek Myszka
On 17 Lut, 07:07, Maciek Pli?z??
Post by Maciek Pli?z??
W jaki spsosob sprawdzić jak program dzieli wyrazy?
\showhyphens{Wyraz}
a jak tego uzywac?
napisalem jak wyzej
dalem \bye i nie podzielil mi wcale. Uzylem tex plik.tex
Możesz jeszcze spróbować ustawić \tracingparagraphs=1. Wtedy TeX umieści
w logu wszystkie informacje na temat obliczeń związanych z łamaniem
akapitów na wiersze. Wadą tego rozwiązania jest, że trzeba się nauczyć to
czytać ze zrozumieniem. Polecam przykład podany na stronie 117 polskiego
TeXBooka, który ilustruje jak to działa.

Pozdrawiam,
KB
Jarosław Sokołowski
2011-02-17 13:41:00 UTC
Permalink
Post by Maciek Pli?z??
W jaki spsosob sprawdzić jak program dzieli wyrazy?
Który program? Jeśli chodzi o TeXa, to najprościej chyba będzie
obejrzeć wydruk.
Post by Maciek Pli?z??
Chciałbym by w plikach logów napisał mi jak on chce dzielić wyrazy.
Niebardzo rozumiem. Co znaczy "chce"? Jeśli uznać, że TeX robi co
chce (niektórzy mają o to do niego wieczne pretensje), to patrz wyżej.
A jeśli "chce" ma oznaczać "może". to jak by to miało wyglądać?
Cały manuskrypt skopiowany do logów z zaznaczonymi potencjalnymi
miejscami podziału?
Post by Maciek Pli?z??
Czy można uzyc zewnetrznego programu do dzielenia wyrazów w tex-u?
Można, nawet sam tak kiedyś robiłem, bo nie było opracowanych TeXowych
wzorców do dzielenia po polsku. Ale to było w połowie lat osiemdziesiątych.
Teraz trzeba uznać, że algorytm Lianga radzi sobie z polszczyzną dobrze.

Ciekawe, że komercyjne programy (produkcji zagranicznej) potrzebowały
kilkunastu lat, żeby się tego nauczyć -- zazwyczaj robiły skandaliczne
błedy, nawet w wersjach spolszczonych. Dzisiaj one chyba wszystkie
korzystają też z algorytmu Lianga (lepiej późno niż wcale), więc dzielą
tak samo (bo oczywiście wzorców też używają tych samych).

Ciekawe też, a może nawet ciekawsze jest to, że algorytm Lianga wcale
nie jest taki fajny dla języka polskiego. Żeby dzielił jeszcze lepiej,
trzeba go... uprościć. Zmodyfikowany algorytm, który nie rozróżnia
poszczególnych liter, a tylko odróżna spółgłoski od samogłosek, działa
znakomicie w oparciu o zbiór kilkunastu wzorców.
--
Jarek
Maciek Pli?z??
2011-02-17 14:07:43 UTC
Permalink
Post by Jarosław Sokołowski
Post by Maciek Pli?z??
W jaki spsosob sprawdzić jak program dzieli wyrazy?
Który program? Jeśli chodzi o TeXa, to najprościej chyba będzie
obejrzeć wydruk.
Post by Maciek Pli?z??
Chciałbym by w plikach logów napisał mi jak on chce dzielić wyrazy.
Niebardzo rozumiem. Co znaczy "chce"? Jeśli uznać, że TeX robi co
chce (niektórzy mają o to do niego wieczne pretensje), to patrz wyżej.
A jeśli "chce" ma oznaczać "może". to jak by to miało wyglądać?
Cały manuskrypt skopiowany do logów z zaznaczonymi potencjalnymi
miejscami podziału?
Tak, albo lista słów z zaznaczeniem, w jezyku polskim masz nawet czasem
dowolnosc podzialu (jeden wyraz moze byc podzielony na dwa sposoby.

Chodzi mi o to by sprawdzic jak tex dzieli wyrazy ktore mu podaję.
Post by Jarosław Sokołowski
Post by Maciek Pli?z??
Czy można uzyc zewnetrznego programu do dzielenia wyrazów w tex-u?
Można, nawet sam tak kiedyś robiłem, bo nie było opracowanych TeXowych
wzorców do dzielenia po polsku. Ale to było w połowie lat
osiemdziesiątych. Teraz trzeba uznać, że algorytm Lianga radzi sobie z
polszczyzną dobrze.
;)
Post by Jarosław Sokołowski
Ciekawe, że komercyjne programy (produkcji zagranicznej) potrzebowały
kilkunastu lat, żeby się tego nauczyć -- zazwyczaj robiły skandaliczne
błedy, nawet w wersjach spolszczonych. Dzisiaj one chyba wszystkie
korzystają też z algorytmu Lianga (lepiej późno niż wcale), więc dzielą
tak samo (bo oczywiście wzorców też używają tych samych).
Dla mnie liang to nie algorytm, ale sposob upakowania danych. Niewiele ma to
wspolnego z algorytmem.
Post by Jarosław Sokołowski
Ciekawe też, a może nawet ciekawsze jest to, że algorytm Lianga wcale
nie jest taki fajny dla języka polskiego. Żeby dzielił jeszcze lepiej,
trzeba go... uprościć. Zmodyfikowany algorytm, który nie rozróżnia
poszczególnych liter, a tylko odróżna spółgłoski od samogłosek, działa
znakomicie w oparciu o zbiór kilkunastu wzorców.
Prosze napisz jaki to algorytm, jak dzieli wyraz "nauka"?
Albo "odkaszlnąć"? dyftongi czy oboczność to jeszcze drobiazg.
Jarosław Sokołowski
2011-02-17 16:08:04 UTC
Permalink
w jezyku polskim masz nawet czasem dowolnosc podzialu (jeden wyraz
moze byc podzielony na dwa sposoby.
Niektóre nawet na jedenaście (lub więcej) sposobów:
kon-stan-ty-no-po-li-tań-czy-ko-wia-necz-ka.
Chodzi mi o to by sprawdzic jak tex dzieli wyrazy ktore mu podaję.
Tak jak już napisano -- przez \showhyphens.
Post by Jarosław Sokołowski
Ciekawe, że komercyjne programy (produkcji zagranicznej) potrzebowały
kilkunastu lat, żeby się tego nauczyć -- zazwyczaj robiły skandaliczne
błedy, nawet w wersjach spolszczonych. Dzisiaj one chyba wszystkie
korzystają też z algorytmu Lianga (lepiej późno niż wcale), więc dzielą
tak samo (bo oczywiście wzorców też używają tych samych).
Dla mnie liang to nie algorytm, ale sposob upakowania danych.
Niewiele ma to wspolnego z algorytmem.
Że co? Liang, Frank M. Liang -- on nie "algorytm", tylko autor algorytmu.
Doktoratu nie zerżnął od kolegi, tylko sam to wymyślił, więc z algorytmem
wiele wpólnego ma.
Post by Jarosław Sokołowski
Ciekawe też, a może nawet ciekawsze jest to, że algorytm Lianga wcale
nie jest taki fajny dla języka polskiego. Żeby dzielił jeszcze lepiej,
trzeba go... uprościć. Zmodyfikowany algorytm, który nie rozróżnia
poszczególnych liter, a tylko odróżna spółgłoski od samogłosek, działa
znakomicie w oparciu o zbiór kilkunastu wzorców.
Prosze napisz jaki to algorytm, jak dzieli wyraz "nauka"?
Albo "odkaszlnąć"? dyftongi czy oboczność to jeszcze drobiazg.
Algorytmy nie dzielą, dzielą programy. Jeden gościu słusznie zauważył,
że "Algorytmy + struktury danych = programy". Algorytm Lianga jest tego
znakomitym przykładem -- dzieli tak, jak wzorce (patterns) opisują.
--
Jarek
Maciek Pli?z??
2011-02-17 18:57:12 UTC
Permalink
Post by Jarosław Sokołowski
w jezyku polskim masz nawet czasem dowolnosc podzialu (jeden wyraz
moze byc podzielony na dwa sposoby.
kon-stan-ty-no-po-li-tań-czy-ko-wia-necz-ka.
To nie sa sposoby a możliwości podziału jak juz jestes taki uparty w
nazewnictwie. I do tego mozesz dzielic lub nie wiec masz wiecej podziałów ;)
Chodzi o podział wyrazu na rozne sposoby. Tego samego wyrazu.
Post by Jarosław Sokołowski
Chodzi mi o to by sprawdzic jak tex dzieli wyrazy ktore mu podaję.
Tak jak już napisano -- przez \showhyphens.
Ale mi nie działa. ;)
w logach mam

Underfull \hbox (badness 10000) in paragraph at lines 6--6
[] \T1/cmr/m/n/10.95 na-uka
\hbox(7.54149+0.0)x16383.99998, glue set 9008.2252 []
Underfull \hbox (badness 10000) in paragraph at lines 7--7
[] \T1/cmr/m/n/10.95 od-kaszl-n<A1><A2>

Przyznasz, ze to malo ciekawe. Nie dosc ze nie pokazuje wszystkich to
jeszcze ucina.
sam plik
=======
\documentclass[11pt,a4paper,oneside,polish]{report}
\usepackage[T1]{fontenc} \usepackage[utf8]{inputenc} \usepackage{babel}
\pagestyle{plain} \pagestyle{empty}
\begin{document}
\noindent
\showhyphens{nauka}
\showhyphens{odkaszlnąć}
\end{document}
========

W texu w ogole nie wypisuje zadnych informacji.
Post by Jarosław Sokołowski
Post by Jarosław Sokołowski
Ciekawe, że komercyjne programy (produkcji zagranicznej) potrzebowały
kilkunastu lat, żeby się tego nauczyć -- zazwyczaj robiły skandaliczne
błedy, nawet w wersjach spolszczonych. Dzisiaj one chyba wszystkie
korzystają też z algorytmu Lianga (lepiej późno niż wcale), więc dzielą
tak samo (bo oczywiście wzorców też używają tych samych).
Dla mnie liang to nie algorytm, ale sposob upakowania danych.
Niewiele ma to wspolnego z algorytmem.
Że co? Liang, Frank M. Liang -- on nie "algorytm", tylko autor algorytmu.
Liang to tez nazwa algorytmu i dobrze o tym wiesz.
Post by Jarosław Sokołowski
Doktoratu nie zerżnął od kolegi, tylko sam to wymyślił, więc z algorytmem
wiele wpólnego ma.
Alez nie mowie, ze sposob upakowania jest zly. Ale mowie, ze nie mowi nic o
samym jezyku, nie pokazuje jak dzielic, ale jak zapamietac duza ilosc
przykładów dzielenia.
Post by Jarosław Sokołowski
Post by Jarosław Sokołowski
Ciekawe też, a może nawet ciekawsze jest to, że algorytm Lianga wcale
nie jest taki fajny dla języka polskiego. Żeby dzielił jeszcze lepiej,
trzeba go... uprościć. Zmodyfikowany algorytm, który nie rozróżnia
poszczególnych liter, a tylko odróżna spółgłoski od samogłosek, działa
znakomicie w oparciu o zbiór kilkunastu wzorców.
Prosze napisz jaki to algorytm, jak dzieli wyraz "nauka"?
Albo "odkaszlnąć"? dyftongi czy oboczność to jeszcze drobiazg.
Algorytmy nie dzielą, dzielą programy.
;)
Post by Jarosław Sokołowski
Jeden gościu słusznie zauważył,
że "Algorytmy + struktury danych = programy". Algorytm Lianga jest tego
znakomitym przykładem -- dzieli tak, jak wzorce (patterns) opisują.
No zobacz a gdzie same dane? Postaraj sie odpowiedziec na pytanie bo widze ,
ze masz wiedze, ale droczysz sie i starasz sie udowodnic , ze masz racje, a
nie to o co pytam.
Paweł Wlaź
2011-02-17 19:52:21 UTC
Permalink
Post by Maciek Pli?z??
Ale mi nie działa. ;)
w logach mam
Underfull \hbox (badness 10000) in paragraph at lines 6--6
[] \T1/cmr/m/n/10.95 na-uka
\hbox(7.54149+0.0)x16383.99998, glue set 9008.2252 []
Underfull \hbox (badness 10000) in paragraph at lines 7--7
[] \T1/cmr/m/n/10.95 od-kaszl-n<A1><A2>
Przyznasz, ze to malo ciekawe. Nie dosc ze nie pokazuje wszystkich to
jeszcze ucina.
Pokazał:

na-uka
od-kaszl-n<A1><A2>

Taką listę łatwo wyfiltrować z loga, jeśli plik texowy będzie się
skłądał z wywołań \showhyphens tylko.

O co chodzi z "nie pokazuje wszystkich"? I ucina? Polskie literki
pokazuje dziwnie, ale chyba nie ma na to rady, jeśli pisze się w
utf (chyba, żeby xetexem to potraktować). Ale co to za problem
zamienić sobie <A1> na ą?

PW
Maciek Pli?z??
2011-02-17 21:29:26 UTC
Permalink
Post by Maciek Pli?z??
Post by Maciek Pli?z??
Ale mi nie działa. ;)
w logach mam
Underfull \hbox (badness 10000) in paragraph at lines 6--6
[] \T1/cmr/m/n/10.95 na-uka
\hbox(7.54149+0.0)x16383.99998, glue set 9008.2252 []
Underfull \hbox (badness 10000) in paragraph at lines 7--7
[] \T1/cmr/m/n/10.95 od-kaszl-n<A1><A2>
Przyznasz, ze to malo ciekawe. Nie dosc ze nie pokazuje wszystkich to
jeszcze ucina.
na-uka
od-kaszl-n<A1><A2>
Taką listę łatwo wyfiltrować z loga, jeśli plik texowy będzie się
skłądał z wywołań \showhyphens tylko.
Właśnie walczyłem z kodowaniem. Myslalem ze uciał po prostu dłuższy wyraz
(bo działało to dla dłuzszych wyrazów). Tu całkowicie mój błąd. Ale nie było
to dla mnie oczywiste, ze ktoś uzywa kodowania CORE
Post by Maciek Pli?z??
O co chodzi z "nie pokazuje wszystkich"?
Tu też mój błąd, albo texa
zobacz co produkuje dla wyrazu "znaku"

Zabagnione to wszystko, ale chyba się udało. Niestety nie mam nigdzie
programu do wyciągania polskich tekstów. Ma ktoś jakis pomysł jak
przekonwertować dowolne pliki na same wyrazy?
Wojtek Myszka
2011-02-17 21:26:57 UTC
Permalink
On 17 Lut, 22:29, Maciek Pli?z??
<***@spamrzywoszystkichkrajow.pl> wrote:
[...]
Post by Maciek Pli?z??
zobacz co produkuje dla wyrazu "znaku"
Underfull \hbox (badness 10000) in paragraph at lines 5--5
[] \OT4/cmr/m/n/10 zna-ku

Wojtek
Maciek Pli?z??
2011-02-17 21:47:03 UTC
Permalink
Post by Wojtek Myszka
On 17 Lut, 22:29, Maciek Pli?z??
[...]
Post by Maciek Pli?z??
zobacz co produkuje dla wyrazu "znaku"
Underfull \hbox (badness 10000) in paragraph at lines 5--5
[] \OT4/cmr/m/n/10 zna-ku
Prosze podaj nazwe texa? U mnie nie dzieli w ogóle.

$latex
This is pdfTeXk, Version 3.141592-1.40.3 (Web2C 7.5.6)

Ciekawe. Przy okazji zapytam czy TeX obsługuje znak dzielenia? Taki mały
znaczek w UTF-8 specjalnie do tego przeznaczony.
Paweł Wlaź
2011-02-17 21:43:54 UTC
Permalink
Post by Maciek Pli?z??
Post by Wojtek Myszka
On 17 Lut, 22:29, Maciek Pli?z??
[...]
Post by Maciek Pli?z??
zobacz co produkuje dla wyrazu "znaku"
Underfull \hbox (badness 10000) in paragraph at lines 5--5
[] \OT4/cmr/m/n/10 zna-ku
Prosze podaj nazwe texa? U mnie nie dzieli w ogóle.
Nie zależy aż tak bardzo od TeXa. Zmień w swoim pliku
\usepackage{babel}

na \usepackage{polski}

i nagle "znaku" dobrze podzieli (tylko przedtem usuń *.aux i opcję
polish, już niepotrzebną). W pliku (całym) który podawałeś nic nie
było o {znaku} dlatego nie wiedziałem czego brakuje.

PW
Maciek Pli?z??
2011-02-17 22:05:49 UTC
Permalink
Ten wpis może być nieodpowiedni. Kliknij, aby go wyświetlić.
Loading...