JavaScriptで英単語の原形を取得できるライブラリを公開しました

英単語の名詞の複数形や動詞の活用形から、その単語の原形を取得できる JavaScript のライブラリを公開しました。

JavaScript Lemmatizer

desks → desk
better → good
written → write

などのように、英単語の変化形からその原形を取得できます。

スポンサーリンク

サンプルのデモページ

サンプルで添付している html/lemmatizer_sample.html のデモページです。

JavaScript Lemmatizer デモページ

適当に英語の単語の変化形を入力、品詞を選択して(未選択でも可)、「Search Lemma」ボタンを押しますと、入力単語の原形を出力します。

Screen Shot 2015-01-26 at 17.43.45

使い方と取得できる単語の原形の戻り値

実際のメソッドの使い方や、取得できる戻り値は以下の通りです。js/lemmatizer.js をロード後、Lemmatizer インスタンスを生成して、Lemmatizer#lemmas か Lemmatizer#only_lemmas メソッドを使用します。

【2015/01/31 追記】
2015/01/30のv0.0.2へのアップデートに伴い、上記のサンプルコードを修正しました。
【追記ここまで】

【2015/02/02 追記】
lemmatizer の精度向上のためのコミットに伴い、上記のサンプルコードを修正しました。
【追記ここまで】

Lemmatizer#lemmas は、[単語の原形, 品詞] のペアの配列を返します。Lemmatizer#only_lemmas は、戻り値に品詞を含まず単語の原形のみの配列を返します。いずれも、複数の原形が見つかった場合は、それら全てを配列として返す仕様です。

品詞の指定としては、verb(動詞), noun(名詞), adj(形容詞), adv(副詞)の4つのいずれかを指定できます。 また、品詞の指定はあってもなくてもOKです。

品詞を指定した場合は、その品詞での単語の原形を取得します。Lemmatizer#lemmas で品詞を指定しなかった場合は、見つかったそれぞれの品詞での原形を配列で返します。Lemmatizer#only_lemmas の場合は、戻り値に品詞の情報は含まれません。

より詳しい設置法〜使い方は GitHub の README をご参照お願いします。

先日使ってみました Ruby Lemmatizer | yohasebe.com を参考にしましたが、言語も Ruby と JavaScript で違いますし、中身の実装はだいぶ異なるものとなっています。

Ruby Lemmatizer は見つかった原形を1つだけ返す仕様ですが、JavaScript Lemmatizer はより柔軟性を持たせて使えるように、見つかった複数の単語の原形を全てを返すように、戻り値を配列で返すようにしました。

英単語の原形を取得するRuby Lemmatizerの使い方 | EasyRamble

以上ですが、需要があるかどうか分かりませんけども、ご利用お待ちしております!

スポンサーリンク
スポンサーリンク
 
Twitterを使っていますのでフォローお願いたします!ブログの更新情報もつぶやいてます^^
(英語学習用)

Leave Your Message!