|
|
|
|
<
www.teemapoint.com
>
|
|
|
|
|
|
|
Ohjelmisto, räätälöidyt työkalut ja palvelut Luonnollisen Kielen Käsittely (NLP) tehtäville.
|
|
|
|
< Demot >
-
|
|
|
|
|
|
|
|
|
|
Luonnollisen kielen jäsennin englannille. Syntaktisen jäsentimen lisäksi, samaa liittymää voidaan käyttää lauseiden kääntäminen englannista suomeen.
|
|
|
|
Läheisesti liittyvät Artikkelit:
|
Käännä
|
|
|
|
|
|
< Tuotteet >
-
|
|
|
|
|
|
NLP Työasema sisältää käännös ohjelmiston joka on esitetty demossa. Valinnaisesti, muita työkaluja voidaan myös sisältää.
|
|
|
|
|
|
|
|
|
Muut tuotteet Suomen kielelle:
Morfologinen jäsennin
Syntaktinen jäsennin
Suomalainen WordNet (WordNetin käännös)
|
|
|
|
|
|
|
|
|
< Copyright>
-
|
|
|
|
|
Copyright © 2004-2008 Alpo Lind. Kaikki Oikeudet Reserved.
|
|
|
|
|
|
< Ota yhteyttä >
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Konekääntäminen (Machine
Translation)
Englanti-suomi
käännösohjelma
Verkkosivujen
käännökset
Yläpuolella
on esimerkki verkko-osoitteen www.teemapoint.com/english.html
käännöstuloksesta.
Muitakin osoitteita voi kokeilla, vaikkakaan sivujen lukuohjelma
ei pysty kunnolla käsittelemään kaikkia html-ominaisuuksia.
- Syötä
englanninkielisen webbisivun osoite vasemmalla olevaan kenttään ja paina "Translate". -
Käännös avaa selaimessa uuden ikkunan. -
Sivun
5000 ensimmäistä merkkiä tulevat käännökseen mukaan.
Uutissähkeissä
on suomennos tuoreimmille (BBC:n) uutisotsikoille sekä linkit alkuperäisiin
uutisartikkeleihin ja käännöksen tekevään ohjelmistoon.
Nettikirjoja
suomeksi käännösohjelmalla
Lue
aiheesta enemmän sivulla nettikirjojen
suomentaminen työasemassa.
|
Lauseiden/tekstin
käännökset
kääntää tekstiä
englannista suomeksi. Hakasuluissa
oleville sanoille ei ole vielä käännösvastineita tietokannassa taikka ohjelmisto ei ole pystynyt
valitsemaan sopivaa vaihtoehtoa vastineiden joukosta. Ohjelma kääntää maksimissaan
3000 merkin mittaisen tekstin.
Käännösdemoon pääsee linkistä
Natural Language Parser
for English (englannin kielen jäsennin). Käännöksiä varten tarvitaan
käyttäjätunnus: joko määräaikainen testitunnus taikka työasemaohjelmiston
tuotelisenssi. Toinen käyttöliittymä tälle käännösohjelmalle
on osoitteessa: http://www.teemapoint.fi/nlpdemo/servlet/Translator
|
Options-sivun asetuksilla
voi tekstin lauseet ja niiden käännökset saada tulostettua
myös erikseen. Näkyviin voi saada myös vaihtoehtoisia käännöstuloksia,
joista ohjelmisto pyrkii valitsemaan parhaimman.
|
Lauseenjäsennin
(Natural Language Parser)
Keskeinen komponentti eri käyttökohteissa.
Lauseenjäsennin tekee lauseen sisällöstä tietorakenteen tiettyjen käsittelysääntöjen
perusteella ja näitä rakenteita käytetään edelleen hyväksi eri sovelluskohteissa
kuten englanti-suomi konekääntämisessä.
jäsentää
lauseita.
About
-- Jäsenninteknologiasta Help
-- Toiminnot lyhyesti
|
Sanastotietokannat
(Lexical databases)
Yksi osa lauserakenteiden
muodostamiseen tarvittavasta informaatiosta saadaan sanastotietokannoista.
WordNet on osa järjestelmän sanastotietokantaa.
tulostaa kantasanat
ja tekee linkit sanojen merkitysten kuvauksiin.
|
Sanamerkitysten purkaminen (Word
Sense Disambiguation)
Jäsennin
pystyy selvittämän hyvin sanaluokan, kuten onko sana verbi, substantiivi,
adjektiivi tai adverbi. Sanojen monitulkinnan
purkamisessa tarvitaan jäsentimen lisäksi myös muita menetelmiä, jotta
oikea sanamerkitys voidaan valita asiayhteyksien perusteella.
Esimerkiksi substantiivilla "coat" kolme eri merkitystä
WordNet-tietokannassa..
|
Käännösvastineet "takki",
"kerros" ja "turkki" allaolevissa
esimerkeissä asiayhteyksien mukaisesti.
|
Muita käyttökohteita
Seuraavissa malleissa käytetään
WordNet-tietokannan sanojen käyttöesimerkkejä ja selitysosioita (glosses) esimerkkiaineistona.
Aihealue (domain) voi olla myös mikä muu tahansa tekstitietokanta
ja siihen voidaan käyttää näitä työkaluja apuna tiedon strukturoinnissa. Saatua tulosta hyödynnetään
sitten tehtäessä hakuja tietokantaan.
Tiedon poiminta (Information
Extraction)
- Haut merkkijonoja, sanoja
(mukaanlukien taivutusmuodot ja synonyymit) - Haut sisällön perusteella. Esimerkki: poimitaan aikaa ilmaisevia
lausekkeita
|
Käyttöliittymät
(Natural Language Interfaces)
- Tekstihaut kyselynä
luonnollisella kielellä - Lähtökohta: Poimitaan
kyselylausekkeesta avainsanoja joita käytetään parametreina tekstihaussa.
Huomioidaan tarvittaessa taivutusmuodot ja synonyymit. - Räätälöinti
aihe/aluekohtaisesti:
Käsittelysääntöjä voidaan muuttaa "älykkäämmäksi"
niin, että tekstistä voidaan hakea tietoa esimerkiksi merkitysten
ja asiayhteyksien perusteella.
|
Sovellusarkkitehtuuri
(System architecture, XML annotation)
Järjestelmäarkkitehtuuri, Java &
servlet-teknologia, mahdollistaa, että näitä resursseja voidaan
testata myös hajautetussa ympäristössä. Asiakassovellus voi
vastaanottaa tuloksia esimerkiksi XML-formaatissa ja prosessoida
niitä koneellaan. tulostaa malleja xml-formatoidusta tuloksesta.
Rakennetta sovitetaan tarpeen mukaan.
|
Muita tuotteita suomen kielelle
Sanojen
taivutusohjelma
Taivutusgeneraattori
suomen kielen nomineille, verbeille ja adjektiiveille ( Java
API ).
Ohjeita: Valitse "Options". Syötä Finnish
inflection generator kenttään "fgen" ja palaa Submit-näppäimellä
takaisin demoon. FGen-painike (kuva vanhasta liittymästä jossa on Stem-näppäin) tekee taivutukset:
Syötä
yksi tai useampi sana kerralla, eri sanaluokat kuitenkin eri kerroilla.
Nominit:
(#n tai ilman) rata omena suunnitelma
Adjektiivit: #a
hieno suuri matala terävä
Verbit: #v syödä lukea
Alla
olevissa kuvissa on esimerkkejä nominien ja verbien taivutusmuodoista.
Kaikki taivutukset eivät ole kuvissa mukana.
|
Morfologinen
jäsennin
tekee
perusmuodot suomen kielen taivutusmuodoista.
Ohjelmaa
voi kokeilla jäsennindemossa
valitsemalla ensin Options-sivu, jossa Morphological Parser kenttään
kirjoitetaan "fmorpho" ja palataan takaisin demoon Submit-näppäimellä. Morpho-näppäin
tulostaa tekstin sanojen kantamuodot..
Syntaktinen jäsennin
Englannin kielen syntaktiseen jäsentimeen kehitettyä ohjelmistoa
on myös testattu suppealla suomen kielen syntaksilla [huomattavasti
laajempi kuvaus tarvittaisiin, sopivaa suomen kielen BNF-kuvausta
etsitään..]. Kuvan oikeassa puoliskossa on tulostettu morfologisen
jäsentimen tuottamat kantasanat.
|
Suomenkielinen
(suomennettu) WordNet
Järjestelmässä on suurelle osalle WordNetin sanoista suomenkieliset vastineet
(yli 50.000 kpl).
Lisäksi käännösohjelmisto tekee myös suomennoksen englanninkielisten
sanojen käyttöesimerkeistä. Tekstilaatikkoon voi syöttää myös
pidemmän tekstin, josta ohjelmisto tulostaa kunkin sanan sanaluokat
ja kantasanat (tämä välivaihe kohdassa: morfologinen
analysaattori). Valitsemalla jokin näistä kantasanoista saadaan
suomennetut WordNet-tietueet näkyviin.
|
Käyttömahdollisuuksia
Kieliteknologia
ei ole aiheena uusi vaikkakin termi on melko tuore. Muun muassa
konekääntäminen ja tiedon poiminta kuuluvat niihin ensimmäisten
sovellusten joukkoon, joita on ajateltu tietokoneilla käyttää, ja
esimerkiksi tässä kuvatun jäsentimen määrityksiä on alettu kehittämään
jo 50-luvulla. Seuraavassa enemmän uusimpien ja hieman vanhempien
tekniikoiden soveltamisesta ja tuloksista.
Yhteenvetoa
tähän mennessä tehdystä:
- Englannin
kielen jäsennin (parseri) ja monia muita tähän yhteydessä olevia
komponentteja ja tekniikoita.
- Tuotteistettu
tekstiä suomentava ohjelma.
- Protovaiheessa käyttöliittymiin ja tiedon
poimintaan liittyvät ohjelmat.
- Testivaiheessa
kantasanojen johtaminen suomen kielen taivutusmuodoista.
- Suomen
kielen syntaksi ja jäsentimen kielikohtaiset (suomen) käsittelysäännöt
alkuvaiheissa.
Jäsentimessä
tarvittavia komponentteja, jotka ovat irrotettavissa muiden sovellusten
käyttöön:
- Sanastot.
Mahdollista käyttää eri sanastolähteitä ja tiedostoformaatteja.
Sanastot voivat olla esimerkiksi relaatiotietokanta-formaatissa,
jossa tiedostojen käsittely ja sanahaut hoidetaan SQL-lauseilla.
- Morfologinen
ohjelma. Tekee taivutusmuodoista kantasanat; huomioi englannin
kielen yhdyssanat ja kollokaatiot.
- Lauserajojen
tunnistus.
Sovelluskohteita/tiedonhaut,
informaation poiminta:
- Alkuperäisenä
ajatuksena on ollut toteuttaa menetelmiä, joiden avulla vapaamuotoista
tekstiä voitaisiin strukturoida niin, että tulokset olisivat käytettävissä
tekstiin tehtävissä hauissa ja tekstin sisältöön liittyvissä kyselyissä
Eräs toteutustapa on käyttää lauseenjäsennintä - yhtenä
vaiheena - apuna tässä prosessissa.
- Taivutusmuotojen
ja kantasanojen vertailulla saavutetaan jo monia etuja
pelkkiin merkkijono- ja sanahakuihin perustuviin ratkaisuihin nähden.
Konekäännös:
- Tietokoneavusteisia
työkaluja käännöstöihin; valmisteilla mahdollisuus omien sanastojen
laadinnalle.
- Opetuksessa/opiskelussa;
sovellusten muokkaaminen opetusohjelmiin soveltuviksi.
Joitain
visioita:
- Semanttiset
verkot (Semantic Web); semanttisten rakenteiden johtaminen ja
luonti teksteistä
(demo: Semanttinen
verkko eKirjojen aihesisällöistä). Luonnollisen kielen käyttö semanttisten
verkkojen kyselyliittymissä.
- Verkkokirjat; automaattinen käännös sovellettavissa parhaiten
asiatekstiin kuten tiedejulkaisuihin. Mahdollista
jo nyt. Ks. myös elektronisten
kirjojen kääntäminen työasemaohjelmistossa.
- Konekääntäminen
ja tiedonhaut kääntäjien ja kielten opiskelun apuvälineenä;
haetaan tekstiä aiheiden perusteella ja tehdään käännökset löydetyistä
tekstikatkelmista. Esimerkiksi aikaa ilmaisevien lausekkeiden
poiminta (ks. esimerkki aiemmin) ja niiden käännös, tai monipuolisemmin:
haetaan ilmaisuja, faktoja, tapahtumia ja näiden suhteita toisiinsa....
Valmiudet:
- Jäsentimen
tulosten hyödyntäminen vaatii melko perusteellista käytössä
olevan syntaksin tuntemusta. Tuloksia voidaan kuitenkin
konvertoida myös toiseen muotoon (xml-esimerkki), josta halutut
tiedot pomitaan muiden sovellusten käyttöön.
- Järjestelmässä
on tekniset valmiudet toteuttaa jäsennin myös
muille kielille kuin englannille. Suomen kielen syntaksin kuvaus on
samalla tavoin rakenteilla käyttäen BNF-notaatiota. Tarkemmat kielten käsittelysäännöt hoidetaan ohjelmallisesti.
- Projektissa
voidaan lähteä liikkeelle esimerkiksi alla olevien vaiheiden mukaisesti.
Vaiheita
ja tapoja nlp-projektin toteutukselle:
- Aluksi
demoihin
tutustuminen.
- Systeemityökulun
vaiheita tarpeiden määrityksistä, ohjelmiston ja tietokantojen
suunnittelusta järjestelmän toteutukseen, jossa esimerkiksi:
- sovelluksia
rakennetaan räätälöidysti ja ensin verkossa testattaviksi.
Testisovellukset voidaan ottaa käyttöön vaikka samalla tavalla
kuin miten osa Parser
Servlet -demon toiminnoista asetetaan Options-sivun
kautta.
- tai
kuten NLP Workstation/käännösohjelmistossa
- käytetään Java Web Start:ia sovellusten ja datatiedostojen
lataamiseen ja automaattisiin päivityksiin.
- Integrointi
asiakassovelluksiin (Java/J2EE-tekniikat).
- Java-komponenttien
lisensointi.
Jos
olet
kiinnostunut tämäntyyppisistä kieliteknologiaa hyödyntävistä
ratkaisuista osana tuotteitasi, taikka
muuten olet kiinnostunut yhteistyössä kehittämään näitä
sovelluksia, niin ota yhteyttä!
|
|
www.teemapoint.com
|
Copyright ©
2004-2008 Alpo Lind. All Rights Reserved
|
|