2022年08月30日 SWITCHBOARD 音声認識分野において、音声データとテキストを組み合わせたデータベースである音声コーパスのひとつ。1990年代に構築され、500人超の話者と300万超の単語を収録。英語での2人の電話での会話と、その書きおこしを行ったデータ。 タグ :#G検定#カンペ
2022年08月29日 ChaSen 無料で使用できる形態素解析器。奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座(松本研究室)が開発。JUMANをベースにしているが、統計的な手法を用いており、解析速度と使い勝手の向上を目指している。現在はIPA品詞体系を使用しており、JUMAN とはその方向性が異なっている。→サイト タグ :#G検定#カンペ
2022年08月25日 MeCab(めかぶ) オープンソースの形態素解析エンジン。奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓氏によって開発されている。言語、辞書、コーパスに依存しない汎用的な設計を基本方針としている。名前は作者の好物が和布蕪(めかぶ)であることに由来する。→ダウンロード タグ :#G検定#カンペ
2022年08月24日 JUMAN 日本語形態素解析システム。京都大学黒橋・褚・村脇研究室で開発されている。2016年に後継のディープラーニングによる Juman++ が公開された。人手で整備した辞書に基づいており、ChaSenの元となったシステムである。 タグ :#G検定#カンペ